专题8.9 成对数据的统计分析全章综合测试卷(提高篇)-高二数学举一反三系列(人教A版选择性必修第三册)
展开
这是一份专题8.9 成对数据的统计分析全章综合测试卷(提高篇)-高二数学举一反三系列(人教A版选择性必修第三册),文件包含专题89成对数据的统计分析全章综合测试卷举一反三提高篇人教A版选择性必修第三册解析版docx、专题89成对数据的统计分析全章综合测试卷举一反三提高篇人教A版选择性必修第三册原卷版docx等2份试卷配套教学资源,其中试卷共38页, 欢迎下载使用。
第八章 成对数据的统计分析全章综合测试卷(提高篇)
参考答案与试题解析
一.选择题(共8小题,满分40分,每小题5分)
1.(5分)(2022·高二课时练习)下列变量之间的关系是相关关系的是( )
A.正方体的表面积与体积
B.光照时间与果树的产量
C.匀速行驶车辆的行驶距离与时间
D.某运动会中某代表团的足球队的比赛成绩与乒乓球队的比赛成绩
【解题思路】A与C是一种函数关系,D不具备相关关系,B满足相关关系.
【解答过程】对于A,正方体的体积确定,则表面积随之确定,是一种确定性关系,A错误;
对于B,光照时间越长,果树的产量相对越大,是一种线性相关关系,B正确;
对于C,行驶速度与时间是一种确定的函数关系,C错误;
对于D,足球比赛成绩与乒乓球比赛成绩没有关系,不具有相关关系,D错误.
故选:B.
2.(5分)(2023·全国·高三专题练习)根据最小二乘法由一组样本点xi,yi(其中i=1,2,⋯,300),求得的回归方程是y=bx+a,则下列说法正确的是
A.至少有一个样本点落在回归直线y=bx+a上
B.若所有样本点都在回归直线y=bx+a上,则变量同的相关系数为1
C.对所有的解释变量xi(i=1,2,⋯,300),bxi+a的值一定与yi有误差
D.若回归直线y=bx+a的斜率b>0,则变量x与y正相关
【解题思路】对每一个选项逐一分析判断得解.
【解答过程】回归直线必过样本数据中心点,但样本点可能全部不在回归直线上﹐故A错误;
所有样本点都在回归直线y=bx+a上,则变量间的相关系数为±1,故B错误;
若所有的样本点都在回归直线y=bx+a上,则bx+a的值与yi相等,故C错误;
相关系数r与b符号相同,若回归直线y=bx+a的斜率b>0,则r>0,样本点分布应从左到右是上升的,则变量x与y正相关,故D正确.
故选D.
3.(5分)(2022春·新疆昌吉·高二期末)有下列说法:
①若某商品的销售量y(件)关于销售价格x(元/件)的线性回归方程为y=−5x+350,当销售价格为10元时,销售量一定为300件;
②线性回归直线y=bx+a一定过样本点中心(x,y);
③若两个随机变量的线性相关性越强,则相关系数r的值越接近于1;
④在残差图中,残差点比较均匀落在水平的带状区域中即可说明选用的模型比较合适,与带状区域的宽度无关;
⑤在线性回归模型中,相关指数R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好;
其中正确的结论有( )个
A.1 B.2 C.3 D.4
【解题思路】由最小二乘法求解回归直线和回归直线的性质可知①错误,②正确;随机变量为负相关时,线性相关性越强,相关系数r越接近−1,③错误;残差图中带状区域越窄,拟合度越高,④错误;R2越接近1,模型拟合度越高,⑤正确;由此可得结果.
【解答过程】①当销售价格为10时,销售量的预估值为300件,但预估值与实际值未必相同,①错误;
②由最小二乘法可知,回归直线必过x,y,②正确;
③若两个随机变量为负相关,若线性相关性越强,相关系数r越接近−1,③错误;
④残差图中,带状区域越窄,模型拟合度越高,④错误;
⑤相关指数R2越接近1,拟合度越高,则在线性回归模型中,回归效果越好,⑤正确.
可知正确的结论为:②⑤,共2个
故选:B.
4.(5分)(2023·高二单元测试)下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量y(单位:百只)的数据,通过相关理论进行分析,知可用回归模型y=e1+at(a∈R)对y与t的关系进行拟合,则根据该回归模型,预测从第( )个月开始该物种的繁殖数量超过5000只(参考数据:e3≈20.09,e4≈54.60)
第t个月
1
2
3
繁殖数量y
e1.4
e2.2
e2.4
A.4 B.5 C.6 D.7
【解题思路】根据指数计算将回归模型两边取自然对数lny=1+at,并令u=lny,由此构建一个u与t的回归直线模型,根据回归直线必过t,u,可求出a值,得到回归模型解出答案.
【解答过程】由题意,y=e1+at两边取自然对数得lny=1+at,令u=lny,则u=1+at.
u=lny1+lny2+lny3×13=2,t=t1+t2+t3×13=2,将数值代入回归直线,得2=2a+1,得a=12,因此u=1+t2,则y=e1+t2.
当t=4时,y=e3≈20.0910.828,解得m>2.707,
∵m∈N∗,
∴m≥3,
∴Nmin=300.
故选:B.
7.(5分)(2022春·山东临沂·高二期中)某中学共有5000人,其中男生3500人,女生1500人,为了了解该校学生每周平均体育锻炼时间的情况以及该校学生每周平均体育锻炼时间是否与性别有关,现在用分层抽样的方法从中收集300位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如下:
附:K2=nad−bc2a+cb+da+bc+d,其中n=a+b+c+d.
P(K2≥k0)
0.10
0.05
0.01
0.005
k0
2.706
3.841
6.635
7.879
已知在样本数据中,有60位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理,我们( )
A.没有理由认为“该校学生每周平均体育锻炼时间与性别有关”
B.有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”
C.有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”
D.有99.5%的把握认为“该校学生每周平均体育锻炼时间与性别有关”
【解题思路】根据题设收集的数据,得到男生学生的人数,进而得出2×2的列联表,利用计算公式,求解K2的值,对比临界值表即可作出判断.
【解答过程】从5000人中,其中男生3500人,女生1500人,采用分层抽样抽取一个容量为300人的样本,其中男女各抽取的人数为300×35005000=210人,300×15005000=90人,
由频率分布直方图可知,每周体育锻炼时间超过4小时的人数的频率为0.75,
∴在300人中每周体育锻炼时间超过4小时的人数为300×0.75=225人,
又在每周体育锻炼时间超过4小时的人数中,女生有60人,则男生有225−60=165人,
可得如下的2×2的列联表:
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
结合列联表可算得K2=300×(45×60−165×30)2210×90×75×225≈4.762>3.841,
∴有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”,
故选:B.
8.(5分)(2022春·陕西西安·高二期中)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度,厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了A地区的100天日落和夜晚天气,得到如下2×2列联表.
单位:天
日落云里走
夜晚天气
下雨
未下雨
出现
25
5
未出现
25
45
临界值表:
PK2≥k0
0.05
0.010
0.001
k0
3.841
6.635
10.828
并计算得到K2≈19.05,下列小波对A地区天气的判断不正确的是( )
A.夜晚下雨的概率约为12
B.未出现“日落云里走”,夜晚下雨的概率约为514
C.在犯错误的概率不超过0.001的前提下认为“日落云里走”是否出现与夜晚天气有关
D.若出现“日落云里走”,则有99.9%的把握认为夜晚一定会下雨
【解题思路】根据已知数据计算概率可判断AB,计算K2后可判断C,根据概率的意义判断D.
【解答过程】根据列联表可知,100天中有50天下雨,50天未下雨,因此夜晚下雨的概率约为50100=12,A中判断正确;同样,未出现“日落云里走”,夜晚下雨的概率约为2525+45=514,B中判断正确;K2≈19.05>10.828,因此认为“日落云里走”是否出现与夜晚天气有关,C中判断正确;有关只是说可能性,不代表一定下雨,D中判断错误,
故选:D.
二.多选题(共4小题,满分20分,每小题5分)
9.(5分)(2022春·湖北·高三阶段练习)如图,5个数据x,y,去掉点D3,10后,下列说法正确的是( )
A.相关系数r变大
B.残差平方和变大
C.变量x与变量y呈正相关
D.变量x与变量y的相关性变强
【解题思路】根据图中的点,计算去掉D(3,10)前后的相关系数、残差平方和、R2,即可判断各选项的正误.
【解答过程】由图,x−=1+2+3+4+105=4,y−=3+4+5+10+125=6.8,则i=15(xi−x−)(yi−y−)=51.4,i=15(xi−x−)2=50,i=15(yi−y−)2=62.8,
∴相关系数r=51.450×62.8≈0.9173.
令回归方程y=a+bx,则b=51.450=1.028,
∴a=6.8−1.028×4=2.688,即回归方程为y=1.028x+2.688,可得(xi,yi)为(1,3.716),(2,4.744),(3,5.772),(4,6.8),(10,12.968),
∴残差平方和i=15(yi−yi)2=23.1192,故R2=1−i=15(yi−yi)2i=15(yi−y−)2=0.5625,
去掉D(3,10)后,
x−1=1+2+4+104=4.25,y−1=3+4+5+125=4.8,则i=14(xi−x−1)(yi−y−1)=49,i=14(xi−x−1)2=48.75,i=14(yi−y−1)2=55.76,
∴相关系数r1=4948.75×55.76≈0.9398.
∴r1>r,A、D正确;
令回归方程y=m+nx,则n=4948.75≈1.005,
∴m=4.8−1.005×4.25≈0.5288,即回归方程为y=1.005x+0.5288,可得(xi,y1i)为(1,1.5338),(2,2.5388),(4,4.5488),(10,10.5788),
∴残差平方和i=14(y1i−yi)2≈6.5082,故R12=1−i=14(y1i−yi)2i=14(y1i−y−1)2=0.8679,
∴R12>R2,B错误,C正确;
故选:ACD.
10.(5分)(2023·高二单元测试)下列命题正确的是( )
A.若甲、乙两组数据的相关系数分别为0.66和−0.85,则乙组数据的线性相关性更强;
B.在检验A与B是否有关的过程中,根据数据算得χ2=6.352,已知P(χ2≥5.024)=0.025,Pχ2≥6.635=0.01,则有99%的把握认为A与B有关;
C.已知随机变量X服从正态分布N1,σ2,若PX≤2=0.68,则PX|0.66|知:乙组数据的线性相关性更强,正确;
B:由5.0240,i=1,2,⋅⋅⋅,n+1),则( )
A.使用方案①调整,当b=9时,yi>xi(i=1,2,⋅⋅⋅,n+1)
B.使用方案②调整,当c=9时,zi0,又xi∈[0,9]则yi>xi,A正确;
C{xi}=1ni=1n(xi−xi+1)2,C{yi}=a2ni=1n(xi−xi+1)2,
当C{xi}1n且n∈N∗,又a>0,可得a>1,C正确;
使用方案②调整:当c=9时zi=9lg(xi+1),显然若xi=9时zi=9,B错误;
zi=c⋅ln(xi+1)ln10,而0C{zi},D错误.
故选:AC.
三.填空题(共4小题,满分20分,每小题5分)
13.(5分)(2023·全国·高三专题练习)x和y的散点图如图所示,则下列说法中所有正确命题的序号为 ①③ .
①x,y是负相关关系;
②x,y之间不能建立线性回归方程;
③在该相关关系中,若用y=c1ec2x拟合时的相关指数为R12,用y=bx+a拟合时的相关指数为R22,则R12>R22.
【解题思路】由图可知,散点图呈整体下降趋势,据此判断①的正误;由试验数据得到的点将散布在某一直线周围,因此,可以认为关于的回归函数的类型为线性函数,据此判断②的正误;根据散点图比较两个方程的拟合效果,比较那个拟合效果更好,据此判断③;.
【解答过程】在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;
x,,y之间可以建立线性回归方程,但拟合效果不好,故②错误;
由散点图知用y=c1ec2x拟合比用y=bx+a拟合效果要好,则R12>R22,故③正确.
故答案为:①③.
14.(5分)(2022·全国·高三专题练习)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:
使用年限x(单位:年)
1
2
3
4
5
6
7
失效费y(单位:万元)
2.90
3.30
3.60
4.40
4.80
5.20
5.90
由上表数据可知,y与x的相关系数为 0.99 .
(精确到0.01,参考公式和数据:r=i=1nxi−xyi−yi=1nxi−x2i=1nyi−y2,i=17xi−xyi−y=14.00,i=17yi−y2=7.08,198.24≈14.10)
【解题思路】分别求出x,y,i=17xi−x2,再利用参考公式和数据计算即可.
【解答过程】由题意,知x=1+2+3+4+5+6+77=4,
y=2.90+3.30+3.60+4.40+4.80+5.20+5.907=4.30,
i=17xi−x2=1−42+2−42+3−42+4−42+5−42+6−42+7−42=28.
所以r=14.0028×7.08=14.00198.24≈14.0014.10≈0.99.
所以y与x的相关系数近似为0.99.
故答案为:0.99.
15.(5分)(2022·全国·高三专题练习)某品牌餐饮公司准备在10个规模相当的地区开设加盟店,为合理安排各地区加盟店的个数,先在其中5个地区进行试点,得到试点地区加盟店个数x及单店日平均营业额y(万元)的::数据如下:
x
1
2
3
4
5
y
10.9
10.2
9.0
7.8
7.1
根据上表可得y关于x线性相关,为保证规模和效益,该公司要求在其他5个地区需满足同一地区所有加盟店的日平均营业额预计值总和不低于35万元,则一个地区开设的加盟店个数m的所有可能取值为 5,6,7 .(参考数据:i=15xiyi=125,i=15xi2=55)
【解题思路】根据题意求出x、y,利用最小二乘法求出b,进而求出a即可得出线性回归方程,根据题意列出不等式,解之即可.
【解答过程】由题意可得,x=1+2+3+4+55=3,y=10.9+10.2+9+7.8+7.15=9,
i=15xiyi=1×10.9+2×10.2+3×9+4×7.8+5×7.1=125,
i=15xi2=12+22+32+42+52=55,
设线性回归方程为y=bx+a,
则b=i=15xiyi−5xyi=15xi2−5x2=125−13555−45=−1,a=9−(−3)=12,
故线性回归方程为y=−x+12.
根据题意,m12−m≥35,解得5≤m≤7,又m∈N∗,
所以m的所有可能取值为5,6,7.
故答案为:5,6,7.
16.(5分)(2022春·上海黄浦·高二期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关“作了一次调查,其中女生人数是男生人数的13,男生追星的人数占男生人数的14,女生追星的人数占女生人数的12,若有95%的把握认为中学生追星与性别有关,则女生至少有 20 人.
参考数据及公式如下:
P(χ2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
χ2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
【解题思路】设男生人数为x,可得列联表,由此计算χ2的表达式,根据有95%的把握认为中学生追星与性别有关,可得不等式455x>3.841,结合x=12k,k∈N∗,可求得答案.
【解答过程】设男生人数为x,则可得列联表如下:
喜欢追星
不喜欢追星
合计
男生
14x
34x
x
女生
16x
16x
13x
合计
512x
1112x
43x
则计算 χ2=43x⋅(14x×16x−16x⋅34x)2x⋅13x⋅512x⋅1112x=455x ,
若有95%的把握认为中学生追星与性别有关,则需455x>3.841,
解得x>55×3.8414≈52.81,
又x=12k,k∈N∗,故x至少为60,则女生至少有20人,
即有95% 的把握认为中学生追星与性别有关时,女生至少有20人,
故答案为︰20.
四.解答题(共6小题,满分70分)
17.(10分)(2022·高二课时练习)某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销量y(单位:万件)之间的关系如表:
x
1
2
3
4
y
12
28
42
56
在图中画出表中数据的散点图,推断两个变量是否线性相关,计算样本相关系数,并估计它们的相关程度.
附注:参考数据:i=14yi−y2≈32.6,5≈2.24,i=14xiyi=418.
参考公式:相关系数r=i=1nxi−xyi−yi=1nxi−x2i=1nyi−y2
【解题思路】由已知数据作出散点图,由图像可以看出推断x与y线性相关,再由公式计算可得结论.
【解答过程】解:作出散点图如图:
由散点图可知,各点大致分布在一条直线附近,由此推断x与y线性相关.
由题中所给表格及参考数据得:
x=52,y=692,i=14xiyi=418,i=14yi−y2≈32.6,i=14xi2=30,
i=14xi−xyi−y=i=14xiyi−4xy=418−4×52×692=73,
i=14xi−x2=i=14xi2−4x2=30−4×522=5≈2.24,
r=i=14xi−xyi−yi=14xi−x2i=14yi−y2=732.24×32.6≈0.9997.
∵y与x的相关系数近似为0.9997,可以推断该公司的年销量y与第x年呈正线性相关,且线性相关程度很强.
18.(12分)(2022秋·河北沧州·高三阶段练习)某统计部门依据《中国统计年鉴——2017》提供的数据,对我国1997-2016年的国内生产总值(GDP)进行统计研究,作出了两张散点图:图1表示1997-2016年我国的国内生产总值(GDP),图2表示2007-2016年我国的国内生产总值(GDP).
(1)用rii=1,2表示第i张图中的年份与GDP的线性相关系数,ri∈0.9647,0.9980,依据散点图的特征分别写出ri的结果;
(2)分别用线性回归模型和指数回归模型对两张散点图进行回归拟合,分别计算出统计数据——相关指数R2的数值,部分结果如下表所示:
年份
1997-2016
2007-2016
线性回归模型
0.9306
指数回归模型
0.9899
0.978
①将上表中的数据补充完整(结果保留3位小数,直接写在答题卡上);
②若估计2017年的GDP,结合数据说明采用哪张图中的哪种回归模型会更精准一些?若按此回归模型来估计,2020年的GDP能否突破100万亿元?事实上,2020年的GDP刚好突破了100万亿元,估计与事实是否吻合?结合散点图解释说明.
【解题思路】(1)观察两图,根据ri的范围,我们只需要确定哪个图像关联系数更高,即选择较大的那个相关系数;
(2)第一小问可根据第(1)问中确定的r2的值,通过R2=(r2)2来计算;第二小问可通过计算出来的数据跟已有的数据对比,选出最适合模拟最近的年份的回归模型,并且按照这个回归模型来模拟,预测2020年是否能够突破100万亿,并且根据回归模型的增长趋势来判断.
【解答过程】(1)由散点图可知,图2拟合效果更好、相关系数较大,所以r1=0.9647,r2=0.9980.
(2)①0.996
②由图2中的线性回归模型得到的相关指数为0.996,是所有回归模型的相关指数中数值最大的,而且2017年是最近的年份,因此选择图2中的线性回归模型来估计2017年的GDP,是比较精准的.
按照图2中的线性回归模型来估计(延长回归直线可发现),2020年不能突破100万亿元.
估计与事实不吻合.综合两张图来考虑,我国的GDP随年份的增长整体上呈现指数增长的趋势,而且2020年比2016年又多发展了4年,指数回归趋于明显,因此,按照线性回归模型得到的估计值与实际数据有偏差、不吻合,属于正常现象.
19.(12分)(2023春·江西·高二开学考试)近年来,学生职业生涯规划课程逐渐进入课堂,考生选择大学就读专业时不再盲目扎堆热门专业,报考专业分布更加广泛,之前较冷门的数学、物理、化学等专业报考的人数也逐年上升.下表是某高校数学专业近五年的录取平均分与当年该学校的最低提档线对照表:
年份
2017
2018
2019
2020
2021
年份代码t
1
2
3
4
5
该校最低提档分数线
510
511
520
512
526
数学专业录取平均分
522
527
540
536
554
提档线与数学专业录取平均分之差y
12
16
20
24
28
(1)根据上表数据可知,y与t之间存在线性相关关系,请用最小二乘法求y关于t的线性回归方程;
(2)据以往数据可知,该大学每年数学专业的录取分数X服从正态分布Nμ,16,其中μ为当年该大学的数学录取平均分,假设2022年该校最低提档分数线为540分.
①若该大学2022年数学专业录取的学生成绩在584分以上的有3人,本专业2022年录取学生共多少人?进入本专业高考成绩前46名的学生可以获得一等奖学金,则一等奖学金分数线应该设定为多少分?
②在①的条件下,若从该专业获得一等奖学金的学生中随机抽取3人,用ξ表示其中高考成绩在584分以上的人数,求随机变量ξ的分布列与数学期望.
参考公式:b=i=1nti−tyi−yi=1nti−t2,a=y−bt.
参考数据:Pμ−σ