新教材2023年高中数学第7章统计案例检测题北师大版选择性必修第一册
展开第七章检测题
考试时间120分钟,满分150分.
一、单项选择题(本大题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.下列关于χ2的说法正确的是( C )
A.χ2越大,“变量A,B有关联”的可信度越小
B.χ2越大,“变量A,B无关联”的可信度越大
C.χ2越小,“变量A,B有关联”的可信度越小
D.χ2越小,“变量A,B无关联”的可信度越小
[解析] χ2越大,“变量A,B有关联”的可信度越大,“变量A,B无关联”的可信度越小;相反,χ2越小,“变量A,B有关联”的可信度越小,“变量A,B无关联”的可信度越大.
2.对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是( A )
A.模型Ⅰ:相关系数r为0.96
B.模型Ⅱ:相关系数r为-0.81
C.模型Ⅲ:相关系数r为-0.53
D.模型Ⅳ:相关系数r为0.53
[解析] |r|越大,拟合效果越好,故选A.
3.美国癌症协会研究表明,开始吸烟年龄(X)分别为16岁、18岁、20岁和22岁,其得肺癌的相对危险度(Y)依次为15.10,12.81,9.72,3.21;每天吸烟的支数(U)为10,20和30者,其得肺癌的相对危险度(V)分别为7.5,9.5和16.6.用r1表示变量X与Y之间的线性相关系数,用r2表示变量U与V之间的线性相关系数,则下列说法正确的是( D )
A.r1=r2 B.r1>r2>0
C.0<r1<r2 D.r1<0<r2
[解析] 根据题意,开始吸烟年龄(X)与其得肺癌的相对危险度(Y)是负相关关系,所以相关系数r1<0;每天吸烟支数(U)与其得肺癌的相对危险度(V)是正相关关系,所以相关系数r2>0,所以r1<0<r2.
4.现在,很多人都喜欢骑“共享单车”,但也有很多市民并不认可.为了调查人们对这种交通方式的认可度,某同学从交通拥堵不严重的A城市和交通拥堵严重的B城市分别随机调查了20名市民,得到如下2×2列联表:
| A | B | 总计 |
认可 | 13 | 5 | 18 |
不认可 | 7 | 15 | 22 |
总计 | 20 | 20 | 40 |
附:χ2=,n=a+b+c+d.
P(χ2≥k) | 0.1 | 0.05 | 0.010 | 0.005 |
k | 2.706 | 3.841 | 6.635 | 7.879 |
根据表中的数据,下列说法中正确的是( D )
A.没有95%以上的把握认为“是否认可与城市的拥堵情况有关”
B.有99%以上的把握认为“是否认可与城市的拥堵情况有关”
C.可以在犯错误的概率不超过0.01的前提下认为“是否认可与城市的拥堵情况有关”
D.可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”
[解析] 由题意,根据2×2列联表中的数据,得χ2=≈6.465,又3.841<6.465<6.635,所以可以在犯错误的概率不超0.05的前提下认为“是否认可与城市的拥堵情况有关”.故选D.
5.始祖鸟是一种已经灭绝的动物,在一次考古活动中,科学家共发现了6个始祖鸟的化石标本,其中5个同时保有股骨(一种腿骨)和肱骨(上臂的骨头).科学家检查了这5个标本股骨和肱骨的长度,得到的数据如下表:
股骨长度x/cm | 38 | 56 | 59 | 64 | 73 |
肱骨长度y/cm | 41 | 63 | 70 | 72 | 84 |
由资料可知肱骨长度y与股骨长度x呈线性相关关系.若y与x的回归方程=1.23x+,则的值为( A )
A.-5.34 B.5.34
C.-8 D.8
[解析] 依题意得=×(38+56+59+64+73)=58,=×(41+63+70+72+84)=66,=1.23,所以=-=66-1.23×58=-5.34,故选A.
6.对甲、乙两个班级学生的数学考试成绩按照优秀和不优秀统计人数后,得到如下列联表:
| 优秀 | 不优秀 | 总计 |
甲班 | 10 | b | 10+b |
乙班 | c | 30 | 30+c |
总计 | 10+c | 30+b | 40+b+c |
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( C )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为30
C.有95%的把握认为成绩与班级有关系
D.没有95%的把握认为成绩与班级有关
[解析] 由题意,知成绩优秀的学生人数是105×=30,成绩不优秀的学生人数是105-30=75,所以c=20,b=45,选项A,B错误.因为χ2=≈6.1>3.841,因此95%的把握认为成绩与班级有关系.
7.2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播、微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男、女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,且有95%的把握但没有99%的把握认为是否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为( B )
附:χ2=,其中n=a+b+c+d.
A.30 B.130
C.240 D.250
[解析] 依题意,设男、女学生的人数都为5x,则男、女学生总数量为10x,建立2×2列联表如下表所示:
| 喜欢网络课程 | 不喜欢网络课程 | 总计 |
男生 | 4x | x | 5x |
女生 | 3x | 2x | 5x |
总计 | 7x | 3x | 10x |
故χ2==,由题意可知3.841<<6.635,所以80.661<10x<139.335.只有B符合题意,故选B.
8.已知由一组样本数据确定的回归方程为=1.5x+1,且=2,发现有两组数据(2.6,2.8)与(1.4,5.2)误差较大,去掉这两组数据后,重新求得回归直线的斜率的估计值为1.4,那么当x=6时,y的估计值为( A )
A.9.6 B.10
C.10.6 D.9.4
[解析] 由y=1.5x+1和=2,得=1.5×2+1=4,故数据的样本中心点为(2,4).去掉(2.6,2.8)与(1.4,5.2),重新求得的回归直线的斜率估计值为1.4,样本中心点是(2,4),设去掉两组数据后回归直线方程为=1.4x+,代入(2,4),求得=1.2,故去掉(2.6,2.8)与(1.4,5.2)这两组数据后求得的回归直线的方程为=1.4x+1.2,将x=6代入回归直线方程,得y=1.4×6+1.2=9.6.
二、多项选择题(本大题共4小题,每小题5分,共20分.在每小题给出的四个选项中,有多个选项符合题目要求,全部选对的得5分,有选错的得0分,部分选对的得2分)
9.有两个分类变量X,Y,其列联表如下所示,
| Y1 | Y2 |
X1 | a | 20-a |
X2 | 15-a | 30+a |
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为( CD )
A.6 B.7
C.8 D.9
[解析] 根据公式,得
χ2==>3.841,根据a>5且15-a>5,
a∈Z,求得当a=8或9时满足题意.
10.下列说法错误的是( ABD )
A.相关关系是一种不确定的关系,回归分析是对相关关系的分析,因此没有实际意义
B.独立性检验对分类变量关系的研究没有100%的把握,所以独立性检验研究的结果没有实际意义
C.相关关系可以对变量的发展趋势进行预报,这种预报可能是错误的
D.独立性检验如果得出的结论有99%的可信度,就意味着这个结论一定是正确的
[解析] 相关关系虽然是一种不确定的关系,但是回归分析可能在某种程度上对变量的发展趋势进行预测,这种预测在尽量减小误差的条件下可以对生产与生活起到一定的指导作用.独立性检验分类变量的检验也是不确定的,但是其结果也有一定的实际意义.易知只有选项C的说法正确,故选ABD.
11.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了A地区的100天日落和夜晚天气的情况,得到如下2×2列联表:
夜晚天气 日落云里走 | 下雨 | 未下雨 |
出现 | 25 | 5 |
未出现 | 25 | 45 |
并计算得到χ2=19.05,下列小波对A地区天气判断正确的是( ABC )
附:
P(χ2≥k) | 0.1 | 0.05 | 0.01 | 0.001 |
k | 2.706 | 3.841 | 6.635 | 10.828 |
A.夜晚下雨的概率约为
B.在未出现“日落云里走”的条件下,夜晚下雨的概率约为
C.有99.99%的把握认为“日落云里走“是否出现与当晚是否下雨有关
D.出现“日落云里走”,有99.9%的把握认为夜晚会下雨
[解析] 对于选项A,因为夜晚下雨的天数一共有25+25=50(天),所以夜晚下雨的概率约为=,故A正确.对于选项B,未出现“日落云里走”夜晚下雨的有25天,未出现“日落云里走”的一共有25+45=70(天),所以在未出现“日落云里走”的条件下,夜晚下雨的概率约为=,故B正确.对于选项C,因为χ2≈19.05>10.828,所以有99.9%的把握认为“日落云里走”是否出现与当晚是否下雨有关,故C正确,D错误,故选ABC.
12.已知某产品的销售额Y(单位:万元)与广告费用X(单位:万元)之间的关系如下表
X | 0 | 1 | 2 | 3 | 4 |
Y | 10 | 15 | m | 30 | 35 |
若根据表中的数据用最小二乘法求得Y对X的线性回归方程为=6.5X+9,则下列说法中正确的是( ABD )
A.产品的销售额与广告费用正相关
B.该回归直线过点(2,22)
C.当广告费用为10万元时,销售额一定为74万元
D.m的值是20
[解析] 因为线性回归方程中X的系数为6.5>0,因此,该产品的销售额与广告费用相关,A正确;又=2,则Y=6.5×2+9=22,回归直线一定过点(2,22),B正确;当X=10时,Y=6.5×10+9=74,说明广告费用为10万元时,销售额估计为74万元,不是一定为74万元,C错误;由=22,得m=20,D正确.故选ABD.
三、填空题(本大题共4小题,每小题5分,共20分)
13.若两个分类变量x和y的列联表为:
y x | y1 | y2 |
x1 | 5 | 15 |
x2 | 40 | 10 |
则x与y之间有关系的概率约为_0.999__.
[解析] χ2=≈18.822.
∵18.822>10.828,
∴x与y之间有关系的概率约为1-0.001=0.999.
14.某次国际会议为了搞好对外宣传工作,会务组选聘了50名记者担任对外翻译工作,在如表“性别与会外语”的2×2列联表中,a+b+d=_44__.
| 会外语 | 不会外语 | 总计 |
男 | a | b | 20 |
女 | 6 | d |
|
总计 | 18 |
| 50 |
[解析] ∵a+6=18,∴a=12,
又∵a+b=20,∴b=8.
又6+d=30,∴d=24.
∴a+b+d=44.
15.某品牌服装专卖店为了解保暖衬衣的销售量(y件)与平均气温x(℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表.
时间 | 二月 上旬 | 二月 中旬 | 二月 下旬 | 三月 上旬 |
旬平均气温x(℃) | 3 | 8 | 12 | 17 |
旬销售量y(件) | 55 | m | 33 | 24 |
由表中数据算出线性回归方程=bx+a中的b=-2,样本中心点为(10,38).
(1)表中数据m=_40__;
(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为_14__件.
[解析] (1)由=38,得m=40.
(2)由=-得=58,故=-2x+58,
当x=22时,=14,
故三月中旬的销售量约为14件.
16.如图所示是世界19个地区受教育程度的人口百分比与人均收入的散点图,样本点基本集中在一个条型区域,因此两个变量呈线性相关关系.利用散点图中的数据建立的回归方程为=3.193x+88.193,若受教育的人口百分比相差10%,则其人均收入相差_31.93__美元.
[解析] 设所受教育百分比分别为a%,b%,且a-b=10.
收入相差大约为:3.193×a+88.193-(3.193×b+88.193)=3.193×10=31.93(美元).
四、解答题(本大题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤)
17.(本小题满分10分)为了调查某生产线上质量监督员甲在生产现场是否对产品质量有影响,现统计数据如下:质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件.试分析质量监督员甲在生产现场是否对产品质量有影响.
[解析] 由题意列出2×2列联表如下:
| 合格品数 | 次品数 | 总计 |
甲在生产现场 | 982 | 8 | 990 |
甲不在生产现场 | 493 | 17 | 510 |
总计 | 1 475 | 25 | 1 500 |
由2×2列联表中数据,计算得
χ2=≈13.097.
因为13.097>6.635,
所以有99%以上的把握认为质量监督员甲在生产现场对产品质量有影响.
18.(本小题满分12分)某产品的广告支出X(单位:万元)与销售收入Y(单位:万元)之间有如下数据:
广告支出X(单位:万元) | 1 | 2 | 3 | 4 |
销售收入Y(单位:万元) | 12 | 28 | 42 | 56 |
根据以上数据算得:i=138,iyi=418.
(1)求出Y对X的回归直线方程Y=X+,并判断变量Y与X之间是正相关还是负相关;
(2)若销售收入最少为144万元,则广告支出费用至少需要投入多少万元?
[解析] (1)由表中数据得:==2.5,
==34.5,
所以===14.6,
=-=34.5-14.6×2.5=-2,所以回归直线方程为=14.6X-2,且变量Y与X之间是正相关.
(2)依题意有:Y=14.6X-2≥144,解得X≥10,
所以广告支出费用至少需要投入10万元.
19.(本小题满分12分)为了研究玉米品种对产量的影响,某农科院对一块试验田种植的一批共10 000株的玉米的生长情况进行研究,现采用分层抽样的方法抽取50株作为样本,统计结果如下:
| 高茎 | 矮茎 | 合计 |
圆粒 | 11 | 19 | 30 |
皱粒 | 13 | 7 | 20 |
合计 | 24 | 26 | 50 |
(1)现采用分层抽样的方法,从该样本所含的圆粒玉米中取出6株玉米,再从这6株玉米中随机选出2株,求这2株中即有高茎玉米又有矮茎玉米的概率;
(2)根据对玉米生长情况的统计,是否有95%的把握认为玉米的圆粒与玉米的高茎有关?
[解析] (1)依题意,取出的6株圆粒玉米中含高茎2株,记为a,b;矮茎4株,记为A,B,C,D.从中随机选出2株的情况有如下15种:aA,aB,aC,aD,bA,bB,bC,bD,ab,AB,AC,AD,BC,BD,CD.
其中满足题意的有aA,aB,aC,aD,bA,bB,bC,bD,其8种,则所求概率P=.
(2)根据已知列联表可得χ2=≈3.860>3.841,即有95%的把握认为玉米的圆粒与玉米的高茎有关.
20.(本小题满分12分)某城市选用某种植物进行绿化,设其中一株幼苗从观察之日起, 第x天的高度为y cm,测得一些数据如下表所示:
第x天 | 1 | 4 | 9 | 16 | 25 | 36 | 49 |
高度y/cm | 0 | 4 | 7 | 9 | 11 | 12 | 13 |
作出这组数的散点图如图:
(1)请根据散点图判断,y=ax+b与y=c+d中哪一个更适宜作为幼苗高度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测第144 天这株幼苗的高度(结果保留1位小数).
附:=,=-.
参考数据:
xi |
| yi | yi |
140 | 28 | 56 | 283 |
[解析] (1)根据散点图可知,y=c+d更适宜作为幼苗高度y关于时间x的回归方程类型.
(2)令μ=,则y=c+d构造新的成对数据,如下表所示:
x | 1 | 4 | 9 | 16 | 25 | 36 | 49 |
μ= | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
y | 0 | 4 | 7 | 9 | 11 | 12 | 13 |
容易计算,=4,=8.
通过上表计算可得
===.
∵回归直线=μ+过点(,),
∴=-=-,
故y关于μ的回归直线方程为=μ-,从而可得y关于x的回归方程为=-.
令x=144,则=≈24.9,∴预测第144天幼苗的高度大约为24.9 cm.
21.(本小题满分12分)某调查组利用网站进行民意调查,数据调查显示,民生问题是百姓最关心的热点,参与调查者中关注此问题的约占80%,现从参与调查者中随机选出200人,并将这200人按年龄分组,第1组[15,25),第2组[25,35),第3组[35,45),第4组[45,55),第5组[55,65],得到的频率分布直方图如图所示.
(1)求a;
(2)估计参与调查者的平均年龄;
(3)把年龄在第1,2,3组的居民称为青少年组,年龄在第4,5组的居民称为中老年组,若选出的200人中不关注民生问题的中老年人有10人,问是否有99%的把握认为是否关注民生与年龄有关?
附:
P(K2≥k0) | 0.150 | 0.100 | 0.050 | 0.025 | 0.010 | 0.005 | 0.001 |
k0 | 2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
K2=,n=a+b+c+d.
[解析] (1)∵0.010×10+0.015×10+0.030×10+a×10+0.010×10=1,
∴a=0.035.
(2)=0.01×10×20+0.015×10×30+0.035×10×40+0.03×10×50+0.010×10×60=41.5,
∴估计参与调查者的平均年龄为:41.5岁.
(3)选出的200人中,各组的人数分别为:
第1组:200×0.010×10=20人,第2组:200×0.015×10=30人,第3组:200×0.035×10=70人,第4组:200×0.030×10=60人,第5组:200×0.010×10=20人,
∴青少年组有20+30+70=120人,中老年组有200-120=80人,
∵参与调查者中关注此问题的约占80%,
∴有200×(1-80%)=40人不关心民生问题,
∴选出的200人中不关注民生问题的青少年有30人,
∴2×2列联表如下:
| 关注民生问题 | 不关注民生问题 | 合计 |
青少年 | 90 | 30 | 120 |
中老年 | 70 | 10 | 80 |
合计 | 160 | 40 | 200 |
∴K2==4.6875<6.635,
∴没有99%的把握认为是否关注民生与年龄有关.
22.(本小题满分12分)某人计划于2021年7月购买一辆某品牌新能源汽车,他从当地该品牌销售网站了解到近五个月实际销量如表所示:
月份 | 2021.02 | 2021.03 | 2021.04 | 2021.05 | 2021.06 |
月份编号t | 1 | 2 | 3 | 4 | 5 |
实际销量y(万辆) | 0.5 | 0.6 | 1 | 1.4 | 1.7 |
(1)经分析,可用线性回归模型拟合当地该品牌新能源汽车实际销量y(万辆)与月份编号t之间的相关关系.请用最小二乘法求y关于t的线性回归方程:=t+,并预测2021年7月份当地该品牌新能源汽车的销量;
(2)已知某地拟购买新能源汽车的消费群体十分庞大,某调研机构对其中的200名消费者的购车补贴金额的心理预期值进行了一个抽样调查,得到下表:
补贴金额预期值 区间(万元) | [1,2) | [2,3) | [3,4) | [4,5) | [5,6) | [6,7) |
频数 | 20 | 60 | 60 | 30 | 20 | 10 |
将频率视为概率,现用随机抽样的方法从该地区拟购买新能源汽车的所有消费者中随机抽取3人,记被抽取的3人中对补贴金额的心理预期值不低于3万元的人数为ξ.求ξ的分布列及均值E(ξ).
参考公式:==,=-.
[解析] (1)易知==3,
==1.04,
t=12+22+32+44+52=55,
tiyi=1×0.5+2×0.6+3×1+4×1.4+5×1.7=18.8,
====0.32,
=-=1.04-0.32×3=0.08,
则y关于t的线性回归方程为=0.32t+0.08.
当t=6时,=2.
即2021年7月份当地该品牌新能源汽车的销量约为2万辆.
(2)根据题中的频数表可知,任意抽取1名拟购买新能源汽车的消费者,对补贴金额的心理预期值不低于3万元的概率为=.
由题意可知ξ~B,ξ的所有可能取值为0,1,2,3.
P(ξ=0)=C03=,
P(ξ=1)=C12=,
P(ξ=2)=C21=,
P(ξ=3)=C30=,
故ξ的分布列为
ξ | 0 | 1 | 2 | 3 |
P |
所以E(ξ)=3×=.