


所属成套资源:高考数学二轮复习核心专题讲练 (含解析)
高考数学二轮复习核心专题讲练:统计与概率第1讲 统计和统计案例(含解析)
展开
这是一份高考数学二轮复习核心专题讲练:统计与概率第1讲 统计和统计案例(含解析),共67页。试卷主要包含了总体平均数与样本平均数,分层随机抽样的步骤,总体集中趋势的估计,总体离散程度的估计,相关关系的强弱等内容,欢迎下载使用。
第1讲 统计和统计案例
目录
第一部分:知识强化
第二部分:重难点题型突破
突破一:随机数表法
突破二:分层抽样
突破三:频率分布直方图
突破四:平均数,众数,中位数,方差,标准差
突破五:总体百分位数
突破六:回归直线方程
突破七:相关系数
突破八:残差
突破九:非线性回归
突破十:独立性检验
第三部分:冲刺重难点特训
第一部分:知识强化
1、总体平均数与样本平均数
(1)总体平均数
一般地,总体中有个个体,它们的变量值分别为,,…,
则称为总体均值,又称总体平均数.
(2)加权平均数
如果总体的个变量值中,不同的值共有()个,不妨记为,,…,,其中出现的频数(),则总体均值还可以写成加权平均数的形式:.
(3)样本平均数
如果从总体中抽取一个容量为的样本,它们的变量值分别为,,…,
则称为样本均值,又称样本平均数.
2、分层随机抽样的步骤
①根据己经掌握的信息,将总体分成互不相交的层;
②根据总体中的个体数和样本量计算抽样比;
③确定第层应该抽取的个体数目(为第层所包含的个体数),使得各之和为;
④在各个层中,按步骤③中确定的数目在各层中随机抽取个体,合在一起得到容量为的样本.
3、绘制频率分布直方图的步骤及频率分布直方图的性质
①求极差,即一组数据中的最大值与最小值的差.
②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
③将数据分组.
④列频率分布表.计算各小组的频率,第组的频率是.
⑤画频率分布直方图.其中横轴表示分组,纵轴表示.实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
4、第百分位数
(1)第百分位数的概念
一般地,一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算第p百分位数的步骤
第1步,按从小到大排列原始数据.
第2步,计算.
第3步,若不是整数,而大于的比邻整数为,则第百分位数为第项数据;
若是整数,则第百分位数为第项与第项数据的平均数.
5、总体集中趋势的估计
(1)平均数
①定义:一组数据的和与这组数据的个数的商.数据,,的平均数为.
②特征:平均数对数据有“取齐”的作用,代表该组数据的平均水平,任何一个数据的改变都会引起平均数的变化,这是众数和中位数都不具有的性质.所以与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中极端值的影响较大,使平均数在估计总体时的可靠性降低.
(2)众数
①定义:一组数据中出现次数最多的数据(即频率分布最大值所对应的样本数据)称为这组数据的众数。
②特征:一组数据的众数可能不止一个,也可能没有,反映了该组数据的集中趋势.
(3)中位数
①定义:一组数据按从小到大(或从大到小)的顺序排成一列,处于最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
②特征:一组数据的中位数是唯一的,反映了该组数据的集中趋势.在频率分布直方图中,中位数左边和右边的直方图的面积相等.
6、在频率分布直方图中平均数,中位数,众数的估计值
(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
(3)众数:众数是最高小矩形底边的中点所对应的数据.
7、总体离散程度的估计
(1)极差
一组数据中的最大值与最小值的差称为极差.
(2)方差与标准差
一组数据,,,,用表示这组数据的平均数,
则这组数据的方差:;
标准差:
(3)总体方差和标准差
如果总体中所有个体的变量值分别为,,总体平均数为,则称
为总体方差,为总体标准差.
(4)样本方差和标准差
如果一个样本中个体的变量值分别为,,,样本平均数为,则称
为样本方差,为样本标准差.
(5)加权方差
如果总体的个变量值中,不同的值共有()个,记为,,,其中出现的频数为(),则总体方差为.
8、相关关系的强弱
(1)样本相关系数
现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.
(2)相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
9、一元线性回归模型参数的最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
10、残差
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
11、决定系数
(1)残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
12、分类变量与列联表
(1)分类变量
为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量.
(2)列联表
①2×2列联表给出了两个分类变量数据的交叉分类频数.
②定义一对分类变量和,我们整理数据如下表所示:
合计
合计
知识点2:独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
第二部分:重难点题型突破
突破一:随机数表法
1.(2022·广东·博罗县榕城中学高一阶段练习)从800件产品中抽取6件进行质检,利用随机数表法抽取样本时,先将800件产品按001,002,…,800进行编号.如果从随机数表第8行第8列的数开始往右读数(随机数表第7行至第9行的数如下),则抽取的6件产品的编号的75%分位数是( )
……
8442175331 5724550688 77047447672176335025 8392120676
6301637859 1695566711 69105671751286735807 4439523879
3321123429 7864560782 52420744381551001342 9966027954
A.105 B.556 C.671 D.169
【答案】C
【详解】由题设,依次读取的编号为,
根据编号规则易知:抽取的6件产品编号为,
所以将它们从小到大排序为,
故,所以75%分位数为.
故选:C
2.(2022·全国·高一课时练习)“双色球”彩票中有33个红色球,每个球的编号分别为01,02,…,33.一位彩民用随机数表法选取6个号码作为6个红色球的编号,选取方法是从下面的随机数表中第1行第5列和第6列的数字开始,从左向右读数,则依次选出来的第5个红色球的编号为
7816
6572
0802
6314
0214
4319
9714
0198
3204
9234
4936
8200
3623
4869
6938
7181
A.01 B.02 C.14 D.19
【答案】A
【详解】分析:根据随机数表,依次进行选择即可得到结论.
详解:从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字中小于33的编号
去除重复,可知对应的数值为08,02,14,19,01,04;
则第5个个体的编号为01.
故选A.
3.(2022·江西景德镇·模拟预测(理))某公司利用随机数表对生产的900支新冠疫苗进行抽样测试,先将疫苗按000,001,…,899进行编号,从中抽取90个样本,若选定从第4行第4列的数开始向右读数,(下面摘取了随机数表中的第3行至第5行),根据下图,读出的第6个数的编号是( )
1676622766 5650267107 3290797853 1355385859 8897541410
1256859926 9682731099 1696729315 5712101421 8826498176
5559563564 3854824622 3162430990 0618443253 2383013030
A.827 B.315 C.696 D.729
【答案】B
【详解】从685开始向右数,即685,992,696,827,310,991,696,729,315,跳过992,991,696重复,跳过,所以第6个数字为315
故选:B
4.(2022·全国·高一课时练习)福利彩票“双色球”中红色球由编号为01,02,…,33的33个个体组成,某彩民利用下面的随机数表(下表是随机数表的第一行和第二行)选取6个红色球,选取方法是从随机数表中第1行的第6列和第7列数字开始,由左到右依次选取两个数字,则选出来的第3个红色球的编号为______.
49 54 43 54 82 17 37 93 23 28 87 35 20 56 43 84 26 34 91 64
57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
【答案】05
【详解】根据随机数表,排除超过33及重复的编号,第一个编号为21,第二个编号为32,第三个编号05,故选出来的第3个红色球的编号为05.
5.(2022·山西太原·三模(文))设某总体是由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取6个个体,选取方法是从随机数表第1行的第3列数字开始从左到右依次选取两个数字,则选出来的第6个个体编号为___________.
【答案】19
【详解】解:由随机数的抽样规则得:依次选取的样本编号为:,
故选出来的第6个个体编号为.
故答案为:
突破二:分层抽样
1.(2022·河南·开封市东信学校模拟预测(文))为了贯彻落实中央新疆工作座谈会和全国对口支援新疆工作会议精神,促进边疆少数民族地区教育事业发展,从A市20名教师、B市15名教师和C市10名教师中,采取分层抽样的方法,抽取一个容量为n的样本,若A市抽取4人,则( )
A.9 B.10 C.12 D.15
【答案】A
【详解】根据分层抽样的定义可得,解得.
故选:A.
2.(2022·新疆乌鲁木齐·二模(理))从某中学随机抽取100名学生,将他们的身高数据(单位cm)绘制成频率分布直方图,若要从身高在,,三组内的学生中,用分层抽样的方法选取16人参加一次活动.则从身高在内的学生中选取的人数应为( )
A.3 B.4 C.5 D.7
【答案】B
【详解】依题意,解得,
身高在,,三组内的学生比例为,
用分层抽样的方法选取16人参加一次活动,
则从身高在内的学生中选取的人数应为人
故选:B
3.(2022·广西河池·模拟预测(文))雅言传承文明,经典浸润人生,南宁市某校每年举办“品经诵典浴书香,提雅增韵享阅读”中华经典诵读大赛,比赛内容有三类:“诵读中国”、“诗教中国”、“笔墨中国”.已知高一、高二、高三报名人数分别为:100人、150人和250人.现采用分层抽样的方法,从三个年级中抽取25人组成校代表队参加市级比赛,则应该从高一年级学生中抽取的人数为______.
【答案】5
【详解】根据题意可得:高一、高二、高三报名人数之比为,
故从高一年级学生中抽取的人数为.
故答案为:5.
4.(2022·全国·模拟预测)“中国式过马路”是网友对部分中国人集体闯红灯现象的一种调侃,即“凑够一撮人就可以走了,和红绿灯无关.”出现这种现象是大家受法不责众的“从众”心理影响,从而不顾及交通安全,某校对全校学生过马路方式进行调查,在所有参与调查的人中,“跟从别人闯红灯”“从不闯红灯”“带头闯红灯”人数如表所示.
跟从别人闯红灯
从不闯红灯
带头闯红灯
男生
600
1000
200
女生
400
650
300
用分层抽样的方法从“带头闯红灯”的人中抽取10人参加“文明交通”宣传活动,从这10人中任选取3人,则这三人性别不完全相同的概率为______.
【答案】##0.8
【详解】由题可知“带头闯红灯”的人中男生与女生的比例为,
所以抽取的10人中,男生有(人),女生有(人),
则这三人中性别不完全相同的概率为.
故答案为:
5.(2022·山东聊城·二模)如图是调查某学校高一年级男、女学生是否喜欢徒步运动而得到的等高条形图,阴影部分表示喜欢徒步的频率.已知该年级男生500人、女生400名(假设所有学生都参加了调查),现从所有喜欢徒步的学生中按分层抽样的方法抽取23人,则抽取的男生人数为______.
【答案】15
【详解】根据等高条形图可知: 喜欢徒步的男生人数为,喜欢徒步的女生人数为,
所以喜欢徒步的总人数为,
按分层抽样的方法抽取23人,则抽取的男生人数为人.
故答案为:15
6.(2022·陕西·交大附中模拟预测(理))某校为了解学生学习的情况,采用分层抽样的方法从高一人、高二 人、高三人中,抽取人进行问卷调查.已知高一被抽取的人数为,那么高三被抽取的人数为_______.
【答案】
【详解】由分层抽样的知识可得,即,所以高三被抽取的人数为,应填答案.
突破三:频率分布直方图
1.(2022·四川省遂宁市第二中学校模拟预测(文))在某次高中学科竞赛中,名考生的参赛成绩统计如图所示,分以下视为不及格,若同一组中数据用该组区间中点作代表,则下列说法中有误的是( )
A.成绩在分的考生人数最多 B.考生竞赛成绩的中位数为分
C.不及格的考生人数为人 D.考生竞赛成绩的平均分约分
【答案】B
【详解】根据频率分布直方图得,成绩出现在的频率最大,所以成绩在分的考生人数最多,故A正确;
由于 ,
,
故考生竞赛成绩的中位数为 ,故B错误;
不及格考生数为 ,故C正确;
根据频率分布直方图估计考生竞赛成绩平均分为 ,故D正确。
故选:B.
2.(2022·江苏·华罗庚中学三模)光明学校为了解男生身体发育情况,从2000名男生中抽查了100名男生的体重情况,根据数据绘制样本的频率分布直方图,如图所示,下列说法中错误的是( )
A.样本的众数约为 B.样本的中位数约为
C.样本的平均值约为66 D.体重超过75kg的学生频数约为200人
【答案】C
【详解】对于,样本的众数为,故正确,
对于,设样本的中位数为,则,
解得,故正确,
对于,由直方图估计样本平均值可得:
,故错误,
对于,2000名男生中体重超过的人数大约为,故正确.
故选:.
3.(2022·天津·静海一中模拟预测)某校随机抽取了400名学生进行成绩统计,发现抽取的学生的成绩都在50分至100分之间,进行适当分组画出频率分布直方图如图所示,下列说法正确的是( )
A.直方图中x的值为0.040
B.在被抽取的学生中,成绩在区间的学生数为30人
C.估计全校学生的平均成绩为84分
D.估计全校学生成绩的样本数据的80%分位数约为93分
【答案】C
【详解】定义A:根据学生的成绩都在50分至100分之间的频率和为1,可得,解得x=0.03,所以A错;
对于B:在被抽取的学生中,成绩在区间[70,80)的学生数为10×0.015×400=60(人),所以B错;对于C:估计全校学生的平均成绩为55×0.05+65×0.1+75×0.15+85×0.3+95×0.4=84(分),所以C对;
对于D:全校学生成绩的样本数据的80%分位数约为 (分).
所以D错.
故选:C
4.(2022·安徽·模拟预测(文))某校开展“正心立德,劳动树人”主题教育活动,对参赛的100名学生的劳动作品的得分情况进行统计,并绘制了如图所示的频率分布直方图,根据图中信息,下列说法错误的是( )
A.图中的x值为0.020 B.得分在80分及以上的人数为40
C.这组数据平均数的估计值为77 D.这组数据中位数的估计值为75
【答案】D
【详解】对于A选项,由频率分布直方图可得,,解得,所以A选项正确;
对于B选项,由频率分布直方图可知,得分在分以上的人数为,所以B选项正确;
对于C选项,由频率分布直方图可知,这组数据平均数的估计值为
,所以C选项正确;
对于D选项,由频率分布直方图可知,的频率为,的频率为,则中位数在内,所以这组数据中位数的估计值为,所以D选项错误;
故选:D.
5.(2022·云南昆明·一模(文))“双减”政策实施后,某初中全面推进学校素质教育,推动学校体育运动发展,引导学生积极参与体育锻炼,为了解该校学生每周平均体育运动的时间,学校随机调查了500名学生每周平均体育运动时间的样本数据(单位:小时),所得数据分成6组:,,,,,据此得到的频率分布直方图如图所示,则该校学生每周平均体育运动的时间约为______小时(同一组中的数据用该组区间的中点值为代表).
【答案】
【详解】由频率分布直方图可知,每周平均体育运动的时间约为:
,
故答案为:
6.(2022·广东汕头·一模)在党史学习教育动员大会上,习近平总书记强调全党同志要做到学史明理、学史增信、学史崇德,学史力行.某单位对200名党员进行党史知识测试,将成绩分成6组:,,,,,,得到如图所示的频率分布直方图,则______.
【答案】0.050
【详解】由,
解得,
故答案为:0.050
7.(2022·云南·玉溪市民族中学模拟预测(文))全民健身,强国有我,某企业为增强广大职工的身体素质和健康水平,组织全体职工开启了“学习强国”平台的强国运动项目,为了解他们的具体运动情况,企业工会从该企业全体职工中随机抽取了100名,统计他们的日均运动步数,并得到如下频率分布直方图:
(1)求直方图中a的值;
(2)估计该企业职工日均运动步数的平均数;(同一组中的数据用该组区间的中点值为代表)
(3)若该企业恰好有的职工的日均运动步数达到了企业制定的优秀强国运动者达标线,试估计该企业制定的优秀强国运动者达标线是多少?
【答案】(1)
(2)9.08千步
(3)11千步
【详解】(1)由频率分布直方图得,解得.
(2)设平均数为,则.
所以该企业职工日均运动步数的平均数约为9.08千步.
(3)日均运动步数在的频率为,
日均运动步数在的频率为,
则位数在内,为,
该企业制定的优秀强国运动者达标线是11千步
8.(2022·河南省杞县高中模拟预测(理))在全民抗击新冠肺炎疫情期间,某市教育部门开展了“停课不停学”活动,为学生提供了多种网络课程资源.活动开展一个月后,某学校随机抽取了高二年级的学生若干进行网络问卷调查,统计学生每天的学习时间(单位:小时),将样本数据分成,,,,五组(全部数据都在内),并整理得到如图所示的频率分布直方图.
(1)已知该校高二年级共有800名学生,根据统计数据,估计该校高二年级每天学习时间不低于5小时的学生人数;
(2)利用统计数据,估计该校高二年级学生每天平均学习时间;
【答案】(1)640人
(2)5.6小时
(1)
根据统计数据估计该校高二年级每天学习时间不低于5小时的学生人数为.
所以估计该校高二年级每天学习不低于5小时的人数为640人.
(2)
样本中学生每天学习时间的各组频率分别为0.05,0.15,0.50,0.25,0.05.
样本中学生每天平均学习时间为
(小时).
所以估计该校高二年级学生每天平均学习时间为5.6小时.
9.(2022·新疆克拉玛依·三模(文))第届北京冬季奥林匹克运动会于年月日至月日在北京和张家口联合举办.这是中国历史上第一次举办冬季奥运会,它掀起了中国人民参与冬季运动的大热潮.某市举办了中学生滑雪比赛,从中抽取名学生的测试分数绘制成茎叶图和频率分布直方图如下,后来茎叶图受到了污损,可见部分信息如图.
(1)求频率分布直方图中的值,并根据直方图估计该市全体中学生的测试分数的平均数(同一组中的数据以这组数据所在区间中点的值作代表,结果保留一位小数);
(2)现要对测试成绩在前26%的中学生颁发“滑雪达人”证书,并制定出能够获得证书的测试分数线,请你用样本来估计总体,给出这个分数线的估计值.
【答案】(1),平均数为
(2)
(1)
解:由频率分布直方图可知,测试分数位于的频率为,
则测试分数位于个数为,
所以,测试分数位于的个数为,
所以.
估计平均数为.
(2)
解:因为测试分数位于的频率为,测试分数位于的频率为,
能够获得“滑雪达人”证书的中学生测试分数要在前,
故设能够获得证书的测试分数线为,则,
由,可得,所以分数线的估计值为.
10.(2022·广西·南宁三中一模(文))某种植园在芒果临近成熟时,随机从一些芒果树上摘下100个芒果,其质量分布在,,,,(单位:克)中,经统计频率分布直方图如图所示.
(1)估计这组数据的平均数;
(2)某经销商来收购芒果,同一组中的数据以这组数据所在区间中点的值作代表,用样本估计总体,该种植园中共有芒果大约10000个,经销商提出以下两种收购方案:
方案①:所有芒果以10元/千克收购;
方案②:对质量低于350克的芒果以3元/个收购,对质量高于或等于350克的芒果以5元/个收购.
请通过计算确定种植园选择哪种方案获利更多?
【答案】(1)387(克)
(2)方案②获利更多
【详解】(1)由频率分布直方图可得这组数据的平均数为:
(克);
(2)方案①收入:(元);
方案②收入:由题意得低于350克的收入:(元);
高于或等于350克的收入:(元).
故总计(元),由于,
故种植园选择方案②获利更多.
突破四:平均数,众数,中位数,方差,标准差
1.(2022·上海·曹杨二中模拟预测)第24届冬季奥运会于2022年2月4日至20日在北京举行,中国代表团取得了9枚金牌,4枚银牌,2枚铜牌的历史最好成绩.已知六个裁判为某一运动员这一跳的打分分别为95,95,95,93,94,94,评分规则为去掉六个原始分中的一个最高分和一个最低分,剩下四个有效分的平均数即为该选手的本轮得分.设这六个原始分的中位数为,方差为;四个有效分的中位数为,方差为.则下列结论正确的是( )
A., B.,
C., D.,
【答案】D
【详解】将打分95,95,95,93,94,94按照从小到大排列为93,94,94,95,95,95,
无论是否去掉一个最高分和最低分中位数都是,故AB错误;
根据
;
又
故选:D.
2.(2022·四川·成都市锦江区嘉祥外国语高级中学有限责任公司模拟预测(文))冬末春初,乍暖还寒,人们容易感冒发热,若发生群体性发热,则会影响到人们的身体健康,干扰正常工作生产,某大型公司规定:若任意连续7天,每天不超过5人体温高于37.3℃,则称没有发生群体性发热,下列连续7天体温高于37.3℃人数的统计特征数中,能判定该公司没有发生群体性发热的为( )
(1)中位数为3,众数为2 (2)均值小于1,中位数为1
(3)均值为3,众数为4 (4)均值为2,标准差为
A.(1)(3) B.(3)(4) C.(2)(3) D.(2)(4)
【答案】D
【详解】将 7 个数由小到大依次记为、、 、、、、.
对于(1)选项,反例:、、、、、、,满足中位数为3,众数为2,与题意矛盾,(1)选项不合乎要求;
对于(2)选项, 假设,即该公司发生了群体性发热,因中位数为1,则 ,平均数为 ,矛盾,故假设不成立,即该公司没有发生群体性发热,(2)选项合乎要求;
对于(3)选项,反例:、、 、 、、、,满足众数为4,均值为3,与题意矛盾,(3)选项不合乎要求;
对于(4)选项, 假设,即该公司发生群体性发热,若均值为2 ,则方差为,即,与(4)选项矛盾,故假设不成立,即该公司没有发生群体性发热,(4)选项合乎要求.
故选:D
3.(2022·广西·模拟预测(文))2022年6月6日是第27个“全国爱眼日”,为普及科学用眼知识,提高群众健康水平,预防眼疾,某区残联在残疾人综合服务中心开展“全国爱眼日”有奖答题竞赛活动.已知5位评委老师按百分制(只打整数分)分别给出某参赛小队评分,可以判断出一定有评委打满分的是( )
A.平均数为98,中位数为98 B.中位数为96,众数为99
C.中位数为97,极差为9 D.平均数为98,极差为6
【答案】D
【详解】解:选项A:当打分结果为时,满足平均数为98,中位数为98,所以A错误;
选项B:当打分结果为时,满足中位数为96,众数为99,所以B错误;
选项C:当打分结果为时,满足中位数为97,极差为9,所以C错误;
选项D:假设没有评委打满分,结合极差为6可得总成绩,
则平均数,与选项不符,故假设不成立,所以平均数为98,极差为6时,一定有评委打满分,
故选:D.
4.(2022·重庆八中模拟预测)已知1,这5个数的平均数为3,方差为2,则这4个数的方差为( )
A.1 B. C. D.2
【答案】B
【详解】∵1,这5个数的平均数为3,方差为2,
∴,即,
∴这4个数的平均数为,
∴,即,
∴这4个数的方差为.
故选:B.
5.(2022·河南·南阳中学三模(文))某区创建全国文明城市指挥部办公室对所辖街道当月文明城市创建工作进行考评,工作人员在本区选取了甲,乙两个街道,并在这两个街道各随机抽取10个实地点位进行现场测评,下面的茎叶图是两个街道的测评分数(满分100分),下列说法正确的是( )
A.甲,乙两个街道的测评分数的极差相等
B.甲,乙两个街道的测评分数的平均数相等
C.街道乙的测评分数的众数为87
D.甲、乙两个街道测评分数的中位数中,乙的中位数比较大
【答案】D
【详解】街道甲的测评分数的极差是,街道乙的测评分数的的极差是,两者不相等,故A错误;
街道甲的测评分数的平均数为 ,街道乙的测评分数的平均数为,故B错误;
街道乙的测评分数的众数为81,故C错误;
街道甲的测评分数的中位数为,街道乙的测评分数的中位数为,故D正确,
故选:D.
6.(2022·安徽六安·一模(文))已知某样本的容量为100,平均数为80,方差为95.现发现在收集这些数据时,其中的两个数据记录有误,一个错将90记录为70,另一个错将80记录为100.在对错误的数据进行更正后,重新求得样本的平均数为,方差为,则( )
A., B., C., D.,
【答案】A
【详解】由题意,可得,
设收集的98个准确数据分别记为,
则
,
,所以.
故选:A
7.(2022·山东·肥城市教学研究中心模拟预测)在对某中学高一年级学生每周体育锻炼时间的调查中,采用随机数法,抽取了男生人,女生人. 已知男同学每周锻炼时间的平均数为小时,方差为;女同学每周锻炼时间的平均数为小时,方差为. 依据样本数据,估计本校高一年级学生每周体育锻炼时间的方差为___.
【答案】19
【详解】根据平均数的计算公式,全班的平均数为,
由,
设男同学为,女同学为,
则男同学的方差,从而,
则女同学的方差,从而;
所以全班同学的方差为.
故答案为:.
8.(2022·四川·石室中学三模(文))为了考察某校各班参加课外书法小组的人数,在全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为10,样本方差为4,且样本数据互不相同,则样本数据中的最大值为______.
【答案】13
【详解】设样本数据由小到大依次为,,,,,
记,
则,.
由于且可知,.
若,则,
得,,,中要么有1个是4其余3个是0,要么4个都是1,
这与样本数据互不相同矛盾;
若,则,取,,,满足题意;若,则,,,,只有,,,满足,但此时不满足;
若,则,,,,不满足;综上可知,,,即样本数据的最大值为13.
故答案为:13
9.(2022·江苏南京·模拟预测)已知样本数据的平均数与方差满足如下关系式:,若已知15个数的平均数为6,方差为9;现从原15个数中剔除这5个数,且剔除的这5个数的平均数为8,方差为5,则剩余的10个数的方差为___________.
【答案】
【详解】根据题目所给的条件,
,
所以,
所以剩余10个数的平均数为5.
,
,
所以,
所以这10个数的方差为.
故答案为:
突破五:总体百分位数
1.(2022·天津河西·三模)学校组织班级知识竞赛,某班的12名学生的成绩(单位:分)分别是:58、67、73、74、76、82、82、87、90、92、93、98,则这12名学生成绩的第三四分位数是( )
A.88分 B.89分 C.90分 D.91分
【答案】D
【详解】12名学生成绩由小到大排列为58、67、73、74、76、82、82、87、90、92、93、98,
, 这12名学生成绩的第三四分位数是,
故选:D
2.(2022·天津市第四十七中学模拟预测)为了了解居民用电情况,通过抽样,获得了某城市户居民的月平均用电量(单位:度),以,,,,,,分组的频率分布直方图如下图.该样本数据的55%分位数大约是( )
A. B. C. D.
【答案】C
【详解】由直方图的性质可得:
,
解得,
由已知,设该样本数据的55%分位数大约是,由
,
解得.
故选:C.
3.(2022·全国·模拟预测)据某地区气象局发布的气象数据,未来某十天内该地区每天最高温度(单位:℃)分别为:31,29,24,27,26,25,24,26,26,23,则这组数据的第40百分位数为( )
A.27 B.26.5 C.25.5 D.25
【答案】C
【详解】先将这些数据按照从小到大进行排序,分别为23,24,24,25,26,26,26,27,29,31,
又,所以该组数据的第40百分位数为排序后的数列的第4个数和第5个数的平均数,即,
故选:C.
4.(2022·海南华侨中学模拟预测)2022年4月24日是第七个“中国航天日”,今年的主题是“航天点亮梦想”.某校组织学生参与航天知识竞答活动,某班8位同学成绩如下:7,6,8,9,8,7,10,m.若去掉m,该组数据的第25百分位数保持不变,则整数的值可以是___________(写出一个满足条件的m值即可).
【答案】7或8或9或10(填上述4个数中任意一个均可)
【详解】7,6,8,9,8,7,10,m,若去掉m,该组数据从小到大排列为:6,7,7,8,8,9,10,则,故第25百分位数为第二个数即7,所以7,6,8,9,8,7,10,m,第25百分位数为7,而,所以7为第二个数与第三个数的平均数,所以的值可以是7或8或9或10.
故答案为:7或8或9或10.
5.(2022·天津市宁河区芦台第一中学模拟预测)某射击运动员次的训练成绩分别为:,则这次成绩的第百分位数为__________.
【答案】
【详解】该射击运动员次的训练成绩从小到大依次为,因为,所以这次成绩的第百分位数为.
故答案为:
突破六:回归直线方程
1.(2022·陕西·交大附中模拟预测(文))设某大学的女生体重(单位:)与身高(单位:)具有线性相关关系,根据一组样本数据,用最小二乘法建立的回归方程为,则下列结论中正确结论的个数是( )
①与具有正的线性相关关系;
②回归直线过样本点的中心;
③若该大学某女生身高增加,则其体重约增加;
④若该大学某女生身高为,则可断定其体重必为.
A.1 B.2 C.3 D.4
【答案】C
【详解】由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故①正确;
因为回归直线必过样本点的中心,所以②正确;
由线性回归方程的意义知,某女生的身高增加1cm,其体重约增加0.85kg,故③正确;
当某女生的身高为170cm时,其体重估计值是58.79kg,这不是确定值,因此④不正确.
故选:C.
2.(2022·四川·成都七中模拟预测(文))根据一组样本数据,,…,,求得经验回归方程为,且.现发现这组样本数据中有两个样本点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的经验回归直线l的斜率为1.2,则( )
A.变量x与y具有正相关关系
B.去除两个误差较大的样本点后,重新求得的经验回归方程为
C.去除两个误差较大的样本点后,y的估计值增加速度变快
D.去除两个误差较大的样本点后,相应于样本点(2,3.75)的残差为0.05
【答案】A
【详解】解:对A:经验回归方程为,,
变量与具有正相关关系,故选项A正确;
对B:当时,,所以样本中心为,
去掉两个样本点为和,,,
样本中心不变,
去除后重新求得的经验回归直线的斜率为1.2,
,解得,
故去除两个误差较大的样本点后,重新求得的回归方程为,故选项B错误;
对C:,
去除两个误差较大的样本点后,的估计值增加速度变慢,故选项C错误;
对D:,
,
去除两个误差较大的样本点后,相应于样本点(2,3.75)的残差为,故选项D错误.
故选:A.
3.(2022·重庆八中模拟预测)某种活性细胞的存活率()与存放温度(℃)之间具有线性相关关系,样本数据如下表所示:
存放温度(℃)
10
4
存活率()
20
44
56
80
经计算,回归直线的斜率为,若这种活性细胞的存放温度为℃,则其存活率的预报值为( )A.32% B.33% C.34% D.35%
【答案】C
【详解】设回归直线方程为,由表中数据可得,.
因为回归直线经过样本点中心,则.
所以当时,.
故选:C.
4.(2022·江西赣州·一模(理))袁隆平院士是我国的杂交水稻之父,他一生致力于杂交水稻的研究,为解决中国人民的温饱和保障国家粮食安全做出了重大的贡献.某杂交水稻研究小组先培育出第一代杂交水稻,再由第一代培育出第二代,第二代培育出第三代,以此类推.已知第一代至第四代杂交水稻的每穗总粒数分别为197粒,193粒,201粒,209粒,且亲代与子代的每穗总粒数成线性相关.根据以上信息,预测第五代杂交水稻每穗的总粒数为( )
(注:①亲代是产生后一代生物的生物,对后代生物来说是亲代,所产生的后一代叫子代:②,)
A.211 B.212 C.213 D.214
【答案】C
【详解】由题意,设亲代每穗总粒数,子代的每穗总粒数,
则,
,
所以线性回归方程为
当时,
预测第五代杂交水稻每穗的总粒数为213
故选:C
5.(2022·全国·模拟预测)某种新型产品用于推广营销的费用x(单位:万元)与该产品的销售收入y(单位:万元)在某个销售周期内的统计数据如下表:
推广营销费用x
2
3
4
5
6
销售收入y
14
18
32
37.5
41
根据上表可得到y关于x的线性回归方程,则当该产品的销售收入为80万元时,用于推广营销的费用约为______万元.(结果精确到0.01)
【答案】11.36
【详解】由题中统计数表可知,,.
因为回归直线一定过样本点的中心,代入可得,解得,
于是可得线性回归方程为,
当该产品的销售收入为80万元时,,解得.
故答案为:
6.(2022·甘肃武威·模拟预测(理))已知之间具有线性相关关系,若通过10组数据得到的回归方程为,且,则__________.
【答案】8
【详解】依题意知,,因为回归方程为,
所以可以计算出,所以
故答案为:8
7.(2022·广西广西·模拟预测(理))每年的“双十一”既是旺季来临的标志,也是全年营销的大战役.不管是线上,还是线下都会有各种宣传广告推出各类特价商品,包括日用百货、食品、电器、服装、生鲜等等.据一商家统计,某商品的广告支出费用x(单位:万元)与相应利润y(单位:万元)的关系如下表格(变量x、y为线性相关关系).
x
2
4
6
8
y
20
35
61
80
(1)求y关于x的线性回归方程:
(2) 若要使利润不少于121.1万元,则广告支出费用至少要多少万元?
参考公式与数据:,,.
【答案】(1);
(2)12万元.
【详解】(1)解:由题意得:
,
.
.
所以线性回归方程为.
(2)解:由题可得
解得
所以广告费用支出至少要12万元.
8.(2022·河南省叶县高级中学模拟预测(文))生产成本指数概括反映经营生产活动中单位成本水平的综合变动程度,它是企业或部门内部进行成本管理的一个有用工具,成本指数越小,意味着成本控制越好.某企业从2016年开始连续6年的生产成本指数如下表所示:
年份
2016
2017
2018
2019
2020
2021
年数
1
2
3
4
5
6
生产成本指数
23
20.5
20.0
16.5
14.0
13.5
(1)由数据看出,可用线性回归模型拟合与的关系,根据表中前4年数据,求关于的线性回归方程;
【答案】(1);
(1)
由表中的数据可得,,
,,
所以,
,所以所求线性回归方程为;
9.(2022·宁夏·银川一中模拟预测(文))在能源和环保的压力下,新能源汽车无疑将成为未来汽车的发展方向.2016年4月,为促进新能源汽车发展,实施差异化交通管理政策,公安部启用新能源汽车专用号牌.2020年11月,国务院办公厅印发《新能源汽车产业发展规划(2021—2035年)》,要求深入实施发展新能源汽车国家战略,推动中国新能源汽车产业高质量可持续发展.下表是2016年至2020年新能源汽车年销量(单位:十万辆)情况:
年份
2016
2017
2018
2019
2020
年份编号
1
2
3
4
5
年销量
5
7
12
12
14
(1)试建立年销量关于年份编号的线性回归方程;
(2)根据(1)中的线性回归方程预测2023年新能源汽车的年销量.
参考公式:,.
【答案】(1)
(2)万辆
(1),
,
,
所以,
,
所以年销量关于年份编号的线性回归方程
(2)当时,,
所以2023年新能源汽车的年销量约为万辆
10.(2022·安徽师范大学附属中学模拟预测(文))为促进新能源汽车的推广,某市逐渐加大充电基础设施的建设,该市统计了近五年新能源汽车充电站的数量(单位:个),得到如下表格:
年份x
2017
2018
2019
2020
2021
新能源汽车充电站数量y/个
50
85
105
140
170
(1)若y与x成线性相关关系,求y关于x的线性回归方程
(2)预测2025年该市新能源汽车充电站的数量.
参考公式:
【答案】(1)
(2)
(1)
设年份代号为z,2017,2018,2019,2020,2021分别为1,2,3,4,5,
由已知数据得,
,
,
,
所以所求线性回归方程为,
所以;
(2)
将代入线性回归方程得,
故预测2025年市新能源汽车充电站的数量为287个.
突破七:相关系数
1.(2022·全国·模拟预测)住房和城乡建设部等六部门发布通知提出,到2025年,农村生活垃圾无害化处理水平明显提升.我国生活垃圾主要有填埋、焚烧与堆肥三种处理方式,随着我国垃圾处理结构的不断优化调整,焚烧处理逐渐成为市场主流.根据国家统计局公布的数据,对2013—2020年全国生活垃圾焚烧无害化处理厂的个数y(单位:座)进行统计,得到如下表格:
年份
2013
2014
2015
2016
2017
2018
2019
2020
年份代码x
1
2
3
4
5
6
7
8
生活垃圾焚烧无害化处理厂的个数y
166
188
220
249
286
331
389
463
(1)由表中数据可知,可用线性回归模型拟合y与x之间的关系,请用相关系数加以说明;(精确到0.01)
(2)求出y关于x的线性回归方程,并预测2022年全国生活垃圾焚烧无害化处理厂的个数;
(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,还能用所求的线性回归方程预测吗?请简要说明理由.
参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为,.
参考数据:,,,,,,.
【答案】(1)0.98,可用线性回归模型拟合y与x之间的关系;
(2),2022年处理厂个数为513;
(3)不能用所求线性回归方程预测,理由见解析.
【详解】(1)由题意,,,
相关系数
,因为y与x的相关系数,接近于1,
所以y与x的线性相关程度相当高,可用线性回归模型拟合y与x之间的关系;
(2)由题意,
,
,
所以y关于x的线性回归方程为,
易知2022年对应的年份代码,
当时,,所以预测2022年全国生活垃圾焚烧无害化处理厂的个数为513;
(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,不能用所求线性回归方程预测,
理由如下(说出一点即可):
①线性回归方程具有时效性,不能预测较远情况;
②全国生活垃圾焚烧无害化处理厂的个数有可能达到上限,一段时间内不再新建;
③受国家政策的影响,可能产生新的生活垃圾无害化处理方式.
2.(2022·全国·模拟预测)教育部印发的《义务教育课程方案和课程标准(2022年版)》指出,自2022年秋季开始,劳动课将成为中小学一门独立课程.消息一出,“中小学生学做饭”等相关话题引发大量网友关注,儿童厨具也迅速走俏.这类儿童厨具并不是指传统意义上的“过家家”,而是真锅真铲真炉灶,能让孩子煎炒烹炸,把饭菜做熟了吃下肚的“真煮”儿童厨具.一家厨具批发商从2022年5月22日起,每10天就对“真煮”儿童厨具的销量统计一次,得到相关数据如下表所示.
时间
5月22~5月31日
6月1~6月10日
6月11~6月20日
6月21~6月30日
7月1~7月10日
7月11~7月20日
7月21~7月30日
时间代码x
1
2
3
4
5
6
7
销量y/千件
9.4
9.6
9.9
10.1
10.6
11.1
11.4
(1)从这7次统计数据中随机抽取2次,求这2次的销量之和超过21千件的概率.
(2)根据表中数据,判断y与x是否具有线性相关关系?若具有,试求出y关于x的线性回归方程;若不具有,请说明理由.(结果保留两位小数)
附:线性回归方程中斜率和截距的最小二乘估计公式分别为,,相关系数,.
【答案】(1)
(2)有,
【详解】(1)从7次统计数据中任意选取2次有种选法,
其中满足条件的有,,,,,,共6种,
所以所求概率.
(2)由表格数据,得,
,
所以
,
,
,
所以相关系数.
因为相关系数,接近1,所以y与x具有线性相关关系,且正相关性很强.
因为,
所以,
所以y关于x的线性回归方程为.
3.(2022·吉林·东北师大附中模拟预测(文))2015年7月31日,在吉隆坡举行的国际奥委会第128次全会上,北京获得2022年冬奥会举办权.在申冬奥过程中,中国正式向国际社会作出“带动三亿人参与冰雪运动”的庄严承诺.这一承诺,既是我国为国际奥林匹克运动做出重大贡献的大国担当展现,也是根据我国经济水平和全民健身需求做出的群众性运动的战略部署.从北京冬奥会申办成功到2021年10月,全国参与冰雪运动人数累计达到3.46亿,实现了“带动三亿人参与冰雪运动”的目标,这是北京冬奥会给予全球冬季体育运动和奥林匹克运动的最为重要的遗产,可以说是2022年北京冬奥会的第一块金牌.“冬奥热”带动“冰雪热”,也带动了冰雪经济,以冰雪运动为主要内容的冰雪旅游近年来发展迅速,2016至2022六个冰雪季的旅游人次y(单位亿)的数据如下表:
年度
2016—2017
2017—2018
2018—2019
2019—2020
2020—2021
2021—2022
年度代号t
1
2
3
4
5
6
旅游人次y
1.7
1.97
2.24
0.94
2.54
3.15
(1)求y与t的相关系数(精确到0.01),并回答y与t的线性相关关系的强弱;
(2)因受疫情影响,现将2019—2020年度的异常数据剔除,用剩下的5个年度数据(年度代号不变),求y关于t的线性回归方程(系数精确到0.01),并推测没有疫情情况下,2019—2020年度冰雪旅游人次的估计值.
附注:参考数据:,,,,.参考公式:相关系数,回归直线的斜率和截距的最小二乘估计公式分别为:,
【答案】(1),线性相关性不强
(2),亿
【详解】(1)由参考数据计算得
所以,
因为,所以线性相关性不强.
(2)五组数据的均值分别为,
,
关于的线性回归方程为
令,则,
因此,在没有疫情情况下,2019-2020年度冰雪旅游人次的估计值为亿.
4.(2022·甘肃·高台县第一中学模拟预测(文))应对严重威胁人类生存与发展的气候变化,其关键在于“控碳”,其必由之路是先实现“碳达峰”,而后实现“碳中和”,2020年第七十五届联合国大会上,我国向世界郑重承诺:争在2030年前实现“碳达峰”,努力争取在2060年前实现“碳中和”,近年来,国家积极发展新能源汽车,某品牌的新能源汽车某区域销售在2021年11月至2022年3月这5个月的销售量(单位:百辆)的数据如下表:
月份
2021年11月
2021年12月
2022年1月
2022年2月
2022年3月
月份代码:
1
2
3
4
5
销售量(单位:百辆)
45
56
64
68
72
(1)依据表中的统计数据,请判断月份代码与该品牌的新能源汽车区域销售量(单位;百辆)是否具有较高的线性相关程度?(参考:若,则线性相关程度一般,若,则线性相关程度较高,计算时精确度为0.01.
(2)求销售量与月份代码之间的线性回归方程,并预测2022年4月份该区域的销售量(单位:百辆)
参考数据:,,,参考公式:相关系数,
线性回归方程中,,,其中,为样本平均值.
【答案】(1)月份代码与销售量(单位:百辆)具有较高的线性相关程度,可用线性回归模型拟合销售量与月份代码之间的关系.
(2),预测2022年4月该品牌的新能源汽车该区域的销售量为 百辆
(1)
由表中数据可得 ,
所以 ,又, ,
所以.
所以月份代码与销售量(单位: 百辆)具有较高的线性相关程度,可用线性回归模型拟合销售量与月份代码之间的关系.
(2)
由表中数据可得 ,
则,所以 ,
令,可得 (百辆),
故可预测2022年4月该品牌的新能源汽车该区域的销售量为百辆.
5.(2022·全国·模拟预测)数字经济的发展需要、云计算、大数据及物联网等新型基础设施的支撑,作为新基建之首,对我国数字经济的发展有着重要的意义.技术在我国已经进入高速发展阶段,宽带业务办理量也逐渐上升.某营业厅统计了2021年7月至2022年1月宽带业务办理量(单位:单),如表所示:
时间
2021年7月
2021年8月
2021年9月
2021年10月
2021年11月
2021年12月
2022年1月
月份编号
1
2
3
4
5
6
7
宽带业务办理量/单
290
330
360
440
480
520
590
(1)由表中数据可知,可用线性回归模型拟合与之间的关系,请用相关系数加以说明(结果精确到0.01);
(2)求出关于的线性回归方程,并估计该营业厅2022年4月的宽带业务办理量.
参考数据:,,.
参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)答案见解析;
(2),730单.
(1)
解:由题意知,
,
∴相关系数.
∵与的相关系数近似为0.99,∴与之间的线性相关程度相当高,
从而可以用线性回归模型拟合与之间的关系.
(2)
解:,∴,
∴关于的线性回归方程为,
2022年4月对应的编号为10,将代入线性回归方程,得,
∴估计该营业厅在2022年4月的宽带业务办理量为730单.
突破八:残差(相关指数)
1.(2022·重庆八中模拟预测)身高体重指数(BMI)的大小直接关系到人的健康状况,某高中高三(1)班班主任为了解该班学生的身体健康状况,从该班学生中随机选取5名学生,测量其身高、体重的数据如下表.
学生编号
1
2
3
4
5
身高x/cm
l65
170
175
170
170
体重y/kg
58
67
67
65
63
(1)求体重关于身高的线性回归方程,并预测身高为180cm的同学的体重;
(2)试分析学生的体重差异约有多少是由身高引起的?(注:结果保留两位小数)参考公式:线性回归方程中,,,其中,为样本平均值,.
【答案】(1),身高为180cm的同学的体重大约为;
(2)
(1)
解:依题意可,,
,
所以,
所以回归直线方程为,
当时,所以身高为180cm的同学的体重大约为;
(2)
由(1)回归方程可得,各组数据的残差,如表所示:
学生编号
1
2
3
4
5
身高
165
170
175
170
170
体重
58
67
67
65
63
残差
所以,
,
则,
故学生的体重差异约有是由身高引起的.
2.(2022·山东师范大学附中模拟预测)某研究所为了研究某种昆虫的产卵数与温度之间的关系,现将收集到的温度和一组昆虫的产卵数的6组观测数据作了初步处理,得到如图的散点图及一些统计数据.
经计算得到以下数据:,.
(1)若用线性回归模型来拟合数据的变化关系,求y关于x的回归方程(结果精确到0.1);
(2)若用非线性回归模型来拟合数据的变化关系,求得关于的回归方程,且相关指数为.
①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;
②用拟合效果好的模型预测温度为35℃时该组昆虫的产卵数(结果四舍五入取整数).
附参考公式:对于一组具有线性相关关系的数据,其回归直线截距和斜率的最小二乘法估计公式分别为:,相关系数:.参考数据:.
【答案】(1);
(2)①用比拟合效果更好;②190个.
(1)
由题意可知,
;
∴y关于x的线性回归方程是;
(2)
①用指数回归模型拟合y与x的关系,相关指数,
线性回归模型拟合y与x的关系,相关指数,
且,
∴用比拟合效果更好.
②中,令,
则,
故预测温度为时该昆虫产卵数约为190个.
3.(2022·重庆市涪陵高级中学校模拟预测)为响应党中央“扶贫攻坚”的号召,某单位指导一贫困村通过种植紫甘薯来提高经济收入.紫甘薯对环境温度要求较高,根据以往的经验,随着温度的升高,其死亡株数成增长的趋势.下表给出了2021年种植的一批试验紫甘薯在温度升高时6组死亡的株数.
温度/℃
21
23
24
27
29
30
死亡数/株
6
11
20
27
57
77
经计算,,,,,
,,,其中,分别为试验数据中的温度和死亡株数,.
(1)若用一元线性回归模型,求关于的经验回归方程;
(2)若用非线性回归模型求得关于的非线性经验回归方程,且相关指数为.
(ⅰ)试与(1)中的回归模型相比,用说明哪种模型的拟合效果更好;
(ii)用拟合效果好的模型预测温度为35℃时该批紫甘薯的死亡株数(结果取整数).
附:对于一组数据其回归直线的斜率和截距的最小二乘估计分别为:,;相关指数为:.
【答案】(1);
(2)①;②192.
(1)
由题意可知,
,
∴关于的线性回归方程是;
(2)
①用指数回归模型拟合与的关系,相关指数,
线性回归模型拟合与的关系,相关指数,
则,
∴用比拟合效果更好;
②中,令,
则,
故预测温度为时该紫甘薯死亡株数约为192株.
4.(2022·内蒙古·满洲里市教育研修中心三模(文))碳中和,是指企业、团体或个人测算在一定时间内,直接或间接产生的温室气体排放总量,通过植树造林、节能减排等形式,抵消自身产生的二氧化碳排放,实现二氧化碳的“零排放”.碳达峰,是指碳排放进入平台期后,进入平稳下降阶段.简单地说就是让二氧化碳排放量“收支相抵”.中国政府在第七十五届联合国大会上提出:“中国将提高国家自主贡献力度,采取更加有力的政策和措施,二氧化碳排放力争于2030年前达到峰值,努力争取2060年前实现碳中和.”减少碳排放,实现碳中和,人人都可出一份力.某中学数学教师组织开展了题为“家庭燃气灶旋钮的最佳角度”的数学建模活动.实验假设:
①烧开一壶水有诸多因素,本建模的变量设定为燃气用量与旋钮的旋转角度,其他因素假设一样;
②由生活常识知,旋转角度很小或很大,一壶水甚至不能烧开或造成燃气浪费,因此旋转角度设定在10°到90°间,建模实验中选取5个代表性数据:18°,36°,54°,72°,90°.
某支数学建模队收集了“烧开一壶水”的实验数据,如下表:
项目
旋转角度
开始烧水时燃气表计数/dm3
水烧开时燃气表计数/dm3
18°
9080
9210
36°
8958
9080
54°
8819
8958
72°
8670
8819
90°
8498
8670
以x表示旋转角度,y表示燃气用量.
(1)用列表法整理数据(x,y);
x(旋转角度:度)
18
36
54
72
90
y(燃气用量:dm3)
(2)假定x,y线性相关,试求回归直线方程(注:计算结果精确到小数点后三位)
(3)有队员用二次函数进行模拟,得到的函数关系为.求在该模型中,烧开一壶水燃气用量最少时的旋转角度.请用相关指数R2分析二次函数模型与线性回归模型哪种拟合效果更好?(注:计算结果精确到小数点后一位)
参考数据:,,,,
线性回归模型,二次函数模型.
参考公式:,,.
【答案】(1)列表见解析;
(2);
(3)38.7°,二次函数拟合效果更好.
(1)
整理数据如图:
x(旋转角度:度)
18
36
54
72
90
y(燃气用量:dm3)
130
122
139
149
172
(2),,,
,
故回归直线方程为;
(3),即旋转角约为38.7°时,烧开一壶水燃气用量最少.
回归直线与二次函数拟合两者关系时,相关指数分别为,,
则,.
因为,所以二次函数拟合效果更好.
突破九:非线性回归
1.(2022·山东临沂·三模)在疫情防控常态化的背景下,山东省政府各部门在保安全,保稳定的前提下有序恢复生产,生活和工作秩序,五一期间,文旅部门在落实防控举措的同时,推出了多款套票文旅产品,得到消费者的积极回应.下面是文旅部门在某地区推出六款不同价位的旅游套票,每款的套票价格x(单位:元)与购买人数y(单位:万人)的数据如下表:
旅游类别
城市展馆科技游
乡村特色游
齐鲁红色游
登山套票
游园套票
观海套票
套票价格x(元)
39
49
58
67
77
86
购买数量y(万人)
16.7
18.7
20.6
22.5
24.1
25.6
在分析数据、描点绘图中,发现散点集中在一条直线附近,其中
(1)根据所给数据,求y关于x的回归方程;
附:①可能用到的数据;.
②对于一组数据,其回归直线的斜率和截距的最小二乘估计值分别为
【答案】(1)
(1)散点集中在一条直线附近,设回归直线方程为
由,则
变量关于的回归方程为
综上,y关于x的回归方程为
2.(2022·吉林长春·模拟预测(理))今年全国两会期间,习近平总书记在看望参加全国政协十三届五次会议的农业界、社会福利和社会保障界委员时指出“粮食安全是‘国之大者’.悠悠万事,吃饭为大.”某校课题小组针对粮食产量与化肥施用量以及与化肥有效利用率间关系进行研究,收集了10组化肥施用量和粮食亩产量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值.每亩化肥施用量为x(单位:公斤),粮食亩产量为y(单位:百公斤).
参考数据:
650
91.5
52.5
1478.6
30.5
15
15
46.5
表中,
(1)根据散点图判断,与,哪一个适宜作为粮食亩产量y关于每亩化肥施用量x的回归方程(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;并预测每亩化肥施用量为27公斤时,粮食亩产量y的值;()
附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,;②若随机变量,则有,.
【答案】(1);
(2);8.1百公斤;
【详解】(1)根据散点图可知y与x的关系不是线性的关系,则更适宜.
(2)∵,∴,令,,
则,,,
∴,,,
∴,当时,(百公斤).
3.(2022·山东日照·二模)2018年9月10日,全国教育大会在北京召开,习近平总书记在会上提出“培养德智体美劳全面发展的社会主义建设者和接班人”.某学校贯彻大会精神,为学生开设了一门模具加工课,经过一段时间的学习,拟举行一次模具加工大赛,学生小明、小红打算报名参加大赛.
(1)赛前,小明进行了一段时间的强化训练,加工完成一个模具的平均速度y(秒)与训练天数x(天)有关,经统计得到如下表数据:
x(天)
1
2
3
4
5
6
7
y(秒)
990
990
450
320
300
240
210
经研究发现,可用作为回归方程模型,请利用表中数据,求出该回归方程,并预测小明经过50天训练后,加工完成一个模具的平均速度y约为多少秒?
参考数据:(其中)
1845
0.37
0.55
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1);150;
【详解】(1)由题意,,
令,设y关于t的线性回归方程为,
则,
则,
∴,
∴y关于x的回归方程为,
当时,,
∴预测小明经过50天训练后,加工完成一个模具的平均速度y约为150秒;
4.(2022·江西赣州·二模(理))某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次,统计数据如下表所示:
x
1
2
3
4
5
6
7
y
6
11
21
34
66
101
196
根据以上数据,绘制了如图所示的散点图.
(1)根据散点图,判断在推广期内,与(c,d均为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及题干中表格内的数据,建立y关于x的回归方程,并预测活动推出第8天使用扫码支付的人次.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)适宜
(2),活动推出第8天使用扫码支付的人次为347
(1)解:根据散点图判断,适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型
(2)解:因为,所以两边同时取常用对数,得.
设,,则
因为,,
所以.
所以
所以
故
把代入上式,得
所以y关于x的回归方程为,
活动推出第8天使用扫码支付的人次为347.
5.(2022·湖南·雅礼中学二模)“不关注分数,就是对学生的今天不负责:只关注分数,就是对学生的未来不负责.”为锻炼学生的综合实践能力,长沙市某中学组织学生对雨花区一家奶茶店的营业情况进行调查统计,得到的数据如下:
月份x
2
4
6
8
10
12
净利润(万元〕y
0.9
2.0
4.2
3.9
5.2
5.1
(1)设.试建立y关于x的非线性回归方程和(保留2位有效数字);
(2)从相关系数的角度确定哪一个模型的拟合效果更好,并据此预测次年2月()的净利润(保留1位小数).
附:①相关系数,回归直线中斜率和截距的最小二乘估计公式分别为;②参考数据:,
【答案】(1)和;
(2)模型的拟合效果更好,次年2月净利润为万元
(1)
,
,
,
,
所以,,
所以模型的方程为,
,
,
,
所以,,
所以模型的方程为;
(2)
,
所以,
,
因为更接近1,所以模型的拟合效果更好,
则次年2月净利润为万元.
突破十:独立性检验
1.(2022·四川·双流中学模拟预测(文))自《“健康中国2030”规划纲要》颁布实施以来,越来越多的市民加入到绿色运动“健步走”行列以提高自身的健康水平与身体素质. 某调查小组为了解本市不同年龄段的 市民在一周内健步走的情况,在市民中随机抽取了200人进行调查,部分结果如下表所示,其中一周内健步走少于5万步的人数占样本总数的 岁以上(含45岁)的人数占样本总数的.
一周内健步走万步
一周内健步走万
总计
45岁以上(含45岁)
90
45岁以下
总计
200
(1)请将题中表格补充完整,并判断是否有的把握认为该市市民一周内健步走的步数与年龄有关;
附:
0.150
0.100
0.050
0.025
2.072
2.706
3.841
5.024
,其中.
【答案】(1)表格见解析,有的把握认为该市市民一周内健步走的步数与年軨有关
【详解】(1)解:由题意得,总人数为200,
45岁以上(含45岁)的人数为,
45岁以下的人数为 80.
一周内健步走少于5万步的人数为 ,
由此得如下列联表:
一周内健步走5 万步
一周内健步走
相关试卷
这是一份统考版2024高考数学二轮专题复习专题四统计与概率第1讲统计统计案例理,共11页。
这是一份高考数学二轮复习核心专题讲练:统计与概率第4讲 统计与概率综合解答题(含解析),共52页。试卷主要包含了,且规定计分规则如表,关于月份x的数据如表等内容,欢迎下载使用。
这是一份高考数学二轮复习核心专题讲练:统计与概率第3讲 概率及随机变量的分布列(含解析),共52页。试卷主要包含了古典概型的概率计算公式,概率的基本性质,相互独立事件的概念,条件概率,事件的相互独立性,离散型随机变量的均值和方差,二项分布,超几何分布等内容,欢迎下载使用。
