还剩20页未读,
继续阅读
成套系列资料,整套一键下载
第九章达标检测-2022版数学选择性必修第一册 苏教版(2019) 同步练习 (Word含解析)
展开
这是一份第九章达标检测-2022版数学选择性必修第一册 苏教版(2019) 同步练习 (Word含解析),共23页。
第9章 统计
本章达标检测
(满分:150分;时间:120分钟)
一、单项选择题(本大题共8小题,每小题5分,共40分,在每小题给出的四个选项中,只有一项是符合题目要求的)
1.若线性回归方程为y^=2-3.5x,则变量x每增加一个单位,变量y平均 ( )
A.减少3.5个单位 B.增加2个单位
C.增加3.5个单位 D.减少2个单位
2.在一项调查中有两个变量x和y,如图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y关于x的回归方程类型的是 ( )
A.y=a+bx B.y=c+dx
C.y=m+nx2 D.y=p+qcx(c>0)
3.相关变量x,y的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y^=b^1x+a^1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归方程y^=b^2x+a^2,相关系数为r2,则 ( )
A.0
C.-1
4.党的十九大报告中指出,从2020年到2035年,在全面建成小康社会的基础上,再奋斗15年,基本实现社会主义现代化.若到2035年年底我国人口数量增长至14.4亿,由2013年到2019年的统计数据可得国内生产总值(GDP)y(单位:万亿元)关于年份代号x的回归方程为y^=6.60x+50.36(x=1,2,3,4,5,6,7),由回归方程预测我国在2035年年底的人均国内生产总值(单位:万元)约为 ( )
A.14.04 B.202.16
C.13.58 D.14.50
5.为了研究某种病毒在特定环境下随时间变化的繁殖情况,得到如下试验数据:
天数x
3
4
5
6
繁殖个数y(千)
2.5
3
4
4.5
由最小二乘法得y与x的线性回归方程为y^=0.7x+a^,则当x=8时,繁殖个数y的估计值为 ( )
A.5.95 B.6.15
C.5.25 D.4.9
6.某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有99%的把握但没有99.9%的把握认为偏爱蔬菜还是肉类与性别有关,则χ2的值可能为 ( )
P(χ2≥x0)
0.10
0.05
0.025
0.010
0.005
0.001
x0
2.706
3.841
5.024
6.635
7.879
10.828
A.3.206 B.6.561
C.7.869 D.11.208
7.某班班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:
主动参加
班级工作
不太主动参
加班级工作
合计
学习积
极性高
18
7
25
学习积极
性一般
6
19
25
合计
24
26
50
根据表中数据分析,以下说法正确的是 ( )
临界值表:
P(χ2≥x0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系
B.有99.5%的把握认为学生的学习积极性与对待班级工作的态度没有关系
C.有99%的把握认为学生的学习积极性与对待班级工作的态度没有关系
D.没有充分的证据显示学生的学习积极性与对待班级工作的态度有关系
8.某中学共有5 000人,其中男生有3 500人,女生有1 500人,为了了解该校学生每周平均体育锻炼时间的情况以及该校学生每周平均体育锻炼时间是否与性别有关,现在用分层随机抽样的方法从中收集300位学生每周平均体育锻炼时间(单位:小时)的样本数据,其频率分布直方图如图所示:
已知在样本数据中,有60位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理,可知 ( )
A.没有理由认为“该校学生每周平均体育锻炼时间与性别有关”
B.有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”
C.有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”
D.有99%的把握认为“该校学生每周平均体育锻炼时间与性别有关”
二、多项选择题(本大题共4小题,每小题5分,共20分.在每小题给出的选项中,有多个选项符合题目要求,全部选对的得5分,部分选对的得3分,有选错的得0分)
9.某商品的销售量y(件)与销售价格x(元/件)存在线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=-5x+150,则下列结论正确的是 ( )
A.y与x具有负的线性相关关系
B.若r表示y与x之间的相关系数,则r=-5
C.当销售价格为10元/件时,销售量为100件
D.当销售价格为10元/件时,销售量为100件左右
10.下列命题中正确的是 ( )
A.在线性回归模型中,相关系数r表示变量x对于变量y变化的贡献率,r2越接近于1,表示回归效果越好
B.两个变量相关性越强,则相关系数的绝对值就越接近于1
C.在线性回归方程y^=-0.5x+2中,当变量x每增加1个单位时,变量y平均减少0.5个单位
D.对分类变量X与Y的随机变量χ2的值来说,其越小,“X与Y有关系”的把握程度越大
11.有两个分类变量X,Y,其2×2列联表如下所示,
Y1
Y2
X1
a
20-a
X2
15-a
30+a
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值可以为( )
A.6 B.7 C.8 D.9
12.2020年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.如图是该地某小区2019年12月至2020年12月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码1~13分别对应2019年12月~2020年12月)
根据散点图选择y=a+bx和y=c+dln x两个模型进行拟合,经过数据处理得到的两个回归方程分别为y^=0.936 9+0.028 5x和y^=0.955 4+0.030 6ln x,并得到一些统计量的值如下表:
y^=0.936 9+0.028 5x
y^=0.955 4+0.030 6ln x
相关系数r
0.902 3
0.972 3
若x是样本数据中x的平均数,y是样本数据中y的平均数,则下列说法正确的是 ( )
A.当月在售二手房均价y与月份代码x呈负相关关系
B.由y^=0.936 9+0.028 5x估计2021年3月在售二手房均价为1.050 9万元/平方米
C.曲线y^=0.936 9+0.028 5x与y^=0.955 4+0.030 6ln x都经过点(x,y)
D.模型y^=0.955 4+0.030 6ln x的拟合效果比模型y^=0.936 9+0.028 5x好
三、填空题(本大题共4小题,每小题5分,共20分.将答案填在题中的横线上)
13.下面是关于男婴与女婴出生调查的2×2列联表:
晚上出生
白天出生
合计
男婴
45
A
B
女婴
E
35
C
合计
98
D
180
那么A= ,B= ,C= ,D= ,E= .
14.为了判断高二年级学生是否选修文科与性别的关系,现随机抽取50名高二年级学生,得到如下2×2列联表.
理科
文科
男
13
10
女
7
20
已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025.根据表中数据,得到χ2=50×(13×20-10×7)223×27×20×30≈4.844,则认为学生选修文科与性别有关系出错的可能性为 .
15.已知具有相关关系的两个随机变量的一组观测数据的散点分布在函数y=3e2x+1的图象附近,令u=ln y,则可通过变换得到的线性回归方程为 .
16.某一电视台对年龄高于40岁和不高于40岁的人是否喜欢足球进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下2×2列联表:
不喜欢足球
喜欢足球
总计
高于40岁
p
q
50
不高于40岁
15
35
50
总计
a
b
100
若工作人员从所有被调查的人中任取一人,取到喜欢足球的人的概率为35,则有超过 的把握认为年龄与足球的被喜欢程度有关.
附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
P(χ2≥x0)
0.05
0.025
0.010
0.001
x0
3.841
5.024
6.635
10.828
四、解答题(本大题共6小题,共70分.解答应写出必要的文字说明、证明过程或演算步骤)
17.(本小题满分10分)某省从2021年开始,高考取消文理分科,实行“3+1+2”的模式,其中的“1”表示每位学生必须从物理、历史中选择一个科目且只能选择一个科目,某校为了解高一年级学生对“1”的选课情况,随机抽取了100名学生进行问卷调查,下表是根据调查结果得到的2×2列联表.
选择物理
选择历史
总计
男生
50
b
m
女生
c
20
40
总计
100
(1)求m,b,c的值;
(2)请你依据该列联表判断是否有99.5%的把握认为选择科目与性别有关,说明你的理由.
附:对于2×2列联表:
类1
类2
合计
类A
a
b
a+b
类B
c
d
c+d
合计
a+c
b+d
a+b+c+d
有χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
P(χ2≥x0)
0.100
0.05
0.025
0.010
0.005
0.001
x0
2.706
3.841
5.024
6.635
7.879
10.828
18.(本小题满分12分)某企业的甲、乙两种产品在东部地区三个城市以及西部地区两个城市的销售量x,y的数据如下:
东部
城市A
东部
城市B
东部
城市C
西部
城市D
西部
城市E
x
40
50
60
20
30
y
110
180
210
30
70
(1)已知销售量x和销售量y大致满足线性相关关系,求出y关于x的线性回归方程y^=b^x+a^;
(2)根据上述数据判断是否有99%的把握认为东、西部的地区差异与甲、乙两种产品的销售量相关.
参考公式:
b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-b^x.
χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
临界值表:
P(χ2≥x0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
19.(本小题满分12分)2020年上半年,随着新冠肺炎疫情在全球蔓延,全球超过60个国家或地区宣布进入紧急状态,部分国家或地区直接宣布“封国”或“封城”,随着国外部分活动进入停摆,全球经济缺乏活力,一些企业开始倒闭,下表为2020年第一季度企业成立年限与倒闭分布情况统计表:
企业成立年份
2019
2018
2017
2016
2015
企业成立年限x
1
2
3
4
5
倒闭企业数量(万家)
5.28
4.72
3.58
2.70
2.15
倒闭企业所占比例y%
21.4%
19.1%
14.5%
10.9%
8.7%
(1)由所给数据可用线性回归模型拟合y与x的关系,请用相关系数加以说明;
(2)建立y关于x的回归方程,估计倒闭的企业中2014年成立企业所占的比例.
参考数据:∑i=15yi=74.6,∑i=15xiyi=190.2,∑i=15(yi-y)2≈10.70,10≈3.16,
相关系数r=∑i=1nxiyi-nxy∑i=1n(xi-x)2∑i=1n(yi-y)2,样本(xi,yi)(i=1,2,…,n)的最小二乘估计公式为b^=∑i=1nxiyi-nxy∑i=1nxi2-nx 2,a^=y-b^x.
20.(本小题满分12分)推进垃圾分类处理是落实绿色发展理念的必然选择,也是打赢污染防治攻坚战的重要环节.为了解居民对垃圾分类的了解程度,某社区居委会随机抽取1 000名社区居民参与问卷测试,并将问卷得分绘制成频率分布表如下:
得分
[30,40)
[40,50)
[50,60)
[60,70)
男性人数
40
90
120
130
女性人数
20
50
80
110
得分
[70,80)
[80,90)
[90,100]
男性人数
110
60
30
女性人数
100
40
20
(1)从该社区随机抽取一名居民参与问卷测试,试估计其得分不低于60分的概率;
(2)将居民对垃圾分类的了解程度分为“比较了解(得分不低于60分)”和“不太了解(得分低于60分)”两类,完成2×2列联表,并判断是否有95%的把握认为“居民对垃圾分类的了解程度”与“性别”有关;
不太了解
比较了解
总计
男性
女性
总计
(3)从参与问卷测试且得分不低于80分的居民中,按照性别进行分层随机抽样,共抽取10人,连同n(n∈N*)名男性调查员一起组成3个环保宣传队.若从这(n+10)人中随机抽取3人作为队长,且男性队长人数ξ的期望不小于2,求n的最小值.
附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
临界值表:
P(χ2≥x0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
21. (本小题满分12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层随机抽样的方法从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到的频率分布直方图分别如图1,图2.
图1
图2
(1)从样本中日平均生产件数不足60的工人中随机抽取2人,求至少抽到一名25周岁以下组工人的概率;
(2)规定日平均生产件数不少于80者为生产能手,请你根据已知条件列出2×2列联表,并判断是否有90%的把握认为生产能手与工人所在的年龄组有关.
附:
P(χ2≥x0)
0.10
0.05
0.010
0.005
0.001
x0
2.706
3.841
6.635
7.879
10.828
χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
22. (本小题满分12分)某地区在一次考试后,从全体考生中随机抽取44名,获取他们本次考试的数学成绩x(单位:分)和物理成绩y(单位:分),绘制成如下散点图:
根据散点图可以看出y与x之间具有线性相关关系,但图中有两个异常点A,B.经调查得知,A考生由于感冒导致物理考试发挥失常,B考生因故未能参加物理考试.为了使分析结果更科学准确,剔除这两组数据后,对剩下的数据进行处理,得到一些统计量的值:
∑i=142xi=4 641,∑i=142yi=3 108,∑i=142xiyi=350 350,∑i=142(xi-x)2=13 814.5,∑i=142(yi-y)2=5 250,
其中xi,yi分别表示这42名同学的数学成绩、物理成绩,i=1,2,…,42.y与x的相关系数r≈0.81.
(1)若不剔除A,B两名考生的数据,用44组数据作回归分析,设此时y与x的相关系数为r0,试判断r0与r的大小关系,并说明理由;
(2)求y关于x的线性回归方程(精确到0.01),如果B考生参加了这次物理考试(已知B考生的数学成绩为125分),估计其物理成绩是多少(精确到个位);
(3)从概率统计规律看,本次考试该地区的物理成绩X~N(μ,σ2).以剔除后的物理成绩作为样本,用样本平均数y作为μ的估计值,用样本方差s2作为σ2的估计值.试求该地区5 000名考生中,物理成绩位于区间(62.8,85.2)的人数Z的数学期望.(精确到个位)
附:①线性回归方程y^=b^x+a^中,b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-b^x.
②若X~N(μ,σ2),则P(μ-σ
③125≈11.2.
第9章 统计
本章达标检测
一、单项选择题
1.A 由线性回归方程可知b^=-3.5,则变量x每增加一个单位,变量y平均减少3.5个单位.
2.B 散点图中散点的分布呈曲线,排除A选项,且曲线的增长速度逐渐变慢,排除选项C、D,故选B.
3.D 由散点图可得y与x的线性相关关系为负相关,所以r1<0,r2<0,因为剔除点(10,21)后,y与x的线性相关性更强,|r|更接近1,所以-1
4.A 2035年对应的年份代号为23,由回归方程y^=6.60x+50.36得,2035年年底我国国内生产总值约为6.60×23+50.36=202.16(万亿元),又202.1614.4≈14.04,所以到2035年年底我国人均国内生产总值约为14.04万元.故选A.
5.A 由题表中数据得x=3+4+5+64=4.5,y=2.5+3+4+4.54=3.5,将x=4.5,y=3.5代入y^=0.7x+a^,得3.5=0.7×4.5+a^,即a^=0.35,∴y关于x的线性回归方程为y^=0.7x+0.35.取x=8,得y^=0.7×8+0.35=5.95,∴当x=8时,繁殖个数y的估计值为5.95.
6.C 因为有99%的把握但没有99.9%的把握,所以χ2的值的取值范围为[6.635,10.828),因此χ2的值可能为7.869.
7.A 因为χ2=50×(18×19-7×6)225×25×24×26≈11.54>10.828, 所以有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系,故选A.
8.B 由题意得,男生、女生各抽取的人数为300×35005000=210,300×15005000=90,又由频率分布直方图可知,每周平均体育锻炼时间超过4小时的人数的频率为0.75,所以在300人中每周平均体育锻炼时间超过4小时的人数为300×0.75=225,又有60位女生的每周平均体育锻炼时间超过4小时,所以男生每周平均体育锻炼时间超过4小时的人数为225-60=165,可得如下的2×2列联表:
男生
女生
总计
每周平均体育锻炼
时间不超过4小时
45
30
75
每周平均体育锻炼
时间超过4小时
165
60
225
总计
210
90
300
结合2×2列联表可得χ2=300×(45×60-30×165)275×225×210×90≈4.762>3.841,所以有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”,故选B.
二、多项选择题
9.AD 由回归方程y^=-5x+150可知y与x具有负的线性相关关系,故A正确;y与x之间的相关系数|r|≤1,故B错误;当销售价格为10元/件时,销售量为-5×10+150=100件左右,故C错误,D正确,故选AD.
10.ABC 对于A,根据相关系数r的意义,可知在线性回归模型中,相关系数r表示变量x对于变量y变化的贡献率,r2越接近于1,表示回归效果越好,所以是正确的;对于B,根据相关系数r的意义,可知两个变量相关性越强,则相关系数的绝对值就越接近于1,所以是正确的;对于C,根据线性回归方程中b^的意义,可得在线性回归方程y^=-0.5x+2中,当变量x每增加1个单位时,变量y平均减少0.5个单位,所以是正确的;对于D,对分类变量X与Y的随机变量χ2的值来说,其越小,“X与Y有关系”的把握程度越小,所以不正确.故选ABC.
11.CD χ2=65×[a(30+a)-(20-a)(15-a)]220×45×15×50=13×(13a-60)220×45×3×2≥3.841,根据a>5且15-a>5,a∈Z,求得当a=8或a=9时满足题意.
12.BD 对于A,由题图可知,散点呈从左下到右上方向发展的趋势,所以当月在售二手房均价y与月份代码x具有正相关关系,故A不正确;对于B,2021年3月对应的月份代码为16,当x=16时,y^=0.936 9+0.028 516=1.050 9,所以可以估计2021年3月在售二手房均价为1.050 9万元/平方米,故B正确;对于C,非线性回归曲线不一定经过点(x,y) ,故C不正确;对于D,|r|越大,拟合效果越好,由0.902 3<0.972 3,知D正确.故选BD.
三、填空题
13.答案 47;92;88;82;53
解析 ∵45+E=98,∴E=53.
∵E+35=C,∴C=88.
∵98+D=180,∴D=82.
∵A+35=D,∴A=47.
∵45+A=B,∴B=92.
14.答案 5%
解析 ∵4.844>3.841,且P(χ2≥3.841)≈0.05,
∴认为选修文科与性别有关系出错的可能性为5%.
15.答案 u=2x+1+ln 3
解析 由y=3e2x+1,得ln y=ln(3e2x+1),即ln y=ln 3+2x+1,则线性回归方程为u=2x+1+ln 3.
16.答案 95%
解析 设“从所有被调查的人中任取一人,取到喜欢足球的人”为事件A,由已知得P(A)=q+35100=35,所以q=25,所以p=25,a=40,b=60.故χ2=100×(25×35-25×15)250×50×40×60=256≈4.167>3.841,
故有超过95%的把握认为年龄与足球的被喜欢程度有关.
四、解答题
17.解析 (1)随机抽取的100名学生中女生有40人,则男生有100-40=60(人), (2分)
所以m=60,b=10,c=20. (4分)
(2)根据题目所给数据得到如下完整的2×2列联表:
选择物理
选择历史
总计
男生
50
10
60
女生
20
20
40
总计
70
30
100
(6分)
则χ2=100×(50×20-10×20)260×40×70×30≈12.698, (8分)
因为12.698>7.879,所以有99.5%的把握认为选择科目与性别有关. (10分)
18.解析 (1)由题表中数据,可得x=15×(40+50+60+20+30)=40,
y=15×(110+180+210+30+70)=120,
∑i=15(xi-x)(yi-y)=0×(-10)+10×60+20×90+(-20)×(-90)+(-10)×(-50)=4 700,
∑i=15(xi-x)2=02+102+202+(-20)2+(-10)2=1 000, (2分)
所以b^=∑i=15(xi-x)(yi-y)∑i=15(xi-x)2=47001000=4.7,
a^=y-b^x=120-4.7×40=-68, (4分)
所以y关于x的线性回归方程是y^=4.7x-68. (6分)
(2)根据题意得到如下2×2列联表:
东部城市
西部城市
总计
x
150
50
200
y
500
100
600
总计
650
150
800
(8分)
根据表中数据,得χ2=800×(150×100-50×500)2200×600×650×150≈6.838>6.635, (10分)
所以有99%的把握认为东、西部的地区差异与甲、乙两种产品的销售量相关. (12分)
19.解析 (1)由题表中数据及参考数据可得x=1+2+3+4+55=3,
∑i=15(xi-x)2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,
∑i=15(yi-y)2≈10.70,∑i=15xiyi=190.2,
由∑i=15yi=74.6,得y=∑i=15yi5=14.92,
所以∑i=15xiyi-5x y=190.2-5×3×14.92=-33.6, (2分)
所以r=∑i=15xiyi-5xy∑i=15(xi-x)2∑i=15(yi-y)2≈-33.63.16×10.70≈-0.99, (4分)
因为y与x的相关系数近似为-0.99,说明y与x的相关程度很高,所以可以用线性回归模型拟合y与x的关系. (6分)
(2)易得∑i=15xi2=12+22+32+42+52=55,
再结合(1)中数据可得b^=∑i=15xiyi-5xy∑i=15xi2-5x 2=-33.655-5×9=-3.36, (8分)
则a^=y-b^x=14.92+3.36×3=25,
所以y关于x的回归方程为y^=-3.36x+25. (10分)
当x=6时,y^=-3.36×6+25=4.84,
所以估计倒闭的企业中2014年成立企业所占的比例为4.84%. (12分)
20.解析 (1)由调查数据,知问卷得分不低于60分的频率为
130+110+60+30+110+100+40+201000=0.6,
故从该社区随机抽取一名居民参与问卷测试,其得分不低于60分的概率为0.6. (3分)
(2)由题意得2×2列联表如下:
不太了解
比较了解
总计
男性
250
330
580
女性
150
270
420
总计
400
600
1 000
χ2=1000×(250×270-330×150)2580×420×400×600≈5.542, (5分)
因为5.542>3.841,
所以有95%的把握认为居民对垃圾分类的了解程度与性别有关. (7分)
(3)由题意知,分层随机抽样抽取的10人中,男性有6人,女性有4人,
随机变量ξ的可能取值为0,1,2,3,
其中P(ξ=0)=Cn+60C43Cn+103,P(ξ=1)=Cn+61C42Cn+103,
P(ξ=2)=Cn+62C41Cn+103,P(ξ=3)=Cn+63C40Cn+103,
所以随机变量ξ的概率分布为
ξ
0
1
2
3
P
Cn+60C43Cn+103
Cn+61C42Cn+103
Cn+62C41Cn+103
Cn+63C40Cn+103
(9分)
则E(ξ)=Cn+60C43Cn+103×0+Cn+61C42Cn+103×1+Cn+62C41Cn+103×2+Cn+63C40Cn+103×3≥2,
即Cn+61C42×1+Cn+62C41×2+Cn+63×3≥2Cn+103,
可得6(n+6)+4(n+6)(n+5)+12(n+6)×(n+5)(n+4)≥13(n+10)(n+9)(n+8),
整理得3(n+6)(n2+17n+72)≥2(n+10)×(n+9)(n+8),
即3(n+6)≥2(n+10),解得n≥2,
所以n的最小值为2. (12分)
21.解析 (1)由已知得,样本中有25周岁以上(含25周岁)组工人60名,25周岁以下组工人40名.
所以样本中日平均生产件数不足60的工人中,25周岁以上(含25周岁)组工人有60×0.05=3(人),分别记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),分别记为B1,B2.
从中随机抽取2名工人,所有的可能结果共有10种,它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少有1名25周岁以下组工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2),故所求概率P=710. (5分)
(2)由题中频率分布直方图可知,在抽取的100名工人中,25周岁以上(含25周岁)组中的生产能手有60×0.25=15(人),25周岁以下组中的生产能手有40×0.375=15(人),
据此可得2×2列联表如下:
生产能手
非生产能手
合计
25周岁以上
(含25周岁)组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
(8分)
χ2=100×(15×25-45×15)260×40×30×70≈1.79.
因为1.79<2.706, (10分)
所以没有90%的把握认为生产能手与工人所在的年龄组有关. (12分)
22.解析 (1)r0
理由如下:由题图可知,y与x呈现正相关,
①异常点A,B会降低变量之间的线性相关程度.
②44个数据点与其回归直线的总偏差更大,回归效果更差,所以相关系数更小.
③42个数据点与其回归直线的总偏差更小,回归效果更好,所以相关系数更大.
④42个数据点更贴近其回归直线.
⑤44个数据点与其回归直线更离散. (4分)
(2)设y关于x的线性回归方程为y^=b^x+a^.由题中数据可得x=142∑i=142xi=110.5,
y=142∑i=142yi=74,
所以∑i=142(xi-x)(yi-y)=∑i=142xiyi-42xy=350 350-42×110.5×74=6 916.
又因为∑i=142(xi-x)2=13 814.5,
所以b^=∑i=142(xi-x)(yi-y)∑i=142(xi-x)2≈0.50,
a^=y-b^x≈74-0.50×110.5≈18.75,
所以y^=0.50x+18.75.
将x=125代入,得y^=0.50×125+18.75=62.5+18.75≈81,
所以估计B考生的物理成绩为81分. (8分)
(3)y=142∑i=142yi=74,s2=142∑i=142(yi-y)2=142×5 250=125,所以X~N(74,125),
又因为125≈11.2,
所以P(62.8
所以Z~B(5 000,0.683),
所以E(Z)≈5 000×0.683=3 415,
即该地区本次考试物理成绩位于区间(62.8,85.2)的人数Z的数学期望约为3 415. (12分)
第9章 统计
本章达标检测
(满分:150分;时间:120分钟)
一、单项选择题(本大题共8小题,每小题5分,共40分,在每小题给出的四个选项中,只有一项是符合题目要求的)
1.若线性回归方程为y^=2-3.5x,则变量x每增加一个单位,变量y平均 ( )
A.减少3.5个单位 B.增加2个单位
C.增加3.5个单位 D.减少2个单位
2.在一项调查中有两个变量x和y,如图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y关于x的回归方程类型的是 ( )
A.y=a+bx B.y=c+dx
C.y=m+nx2 D.y=p+qcx(c>0)
3.相关变量x,y的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y^=b^1x+a^1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归方程y^=b^2x+a^2,相关系数为r2,则 ( )
A.0
A.14.04 B.202.16
C.13.58 D.14.50
5.为了研究某种病毒在特定环境下随时间变化的繁殖情况,得到如下试验数据:
天数x
3
4
5
6
繁殖个数y(千)
2.5
3
4
4.5
由最小二乘法得y与x的线性回归方程为y^=0.7x+a^,则当x=8时,繁殖个数y的估计值为 ( )
A.5.95 B.6.15
C.5.25 D.4.9
6.某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有99%的把握但没有99.9%的把握认为偏爱蔬菜还是肉类与性别有关,则χ2的值可能为 ( )
P(χ2≥x0)
0.10
0.05
0.025
0.010
0.005
0.001
x0
2.706
3.841
5.024
6.635
7.879
10.828
A.3.206 B.6.561
C.7.869 D.11.208
7.某班班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:
主动参加
班级工作
不太主动参
加班级工作
合计
学习积
极性高
18
7
25
学习积极
性一般
6
19
25
合计
24
26
50
根据表中数据分析,以下说法正确的是 ( )
临界值表:
P(χ2≥x0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系
B.有99.5%的把握认为学生的学习积极性与对待班级工作的态度没有关系
C.有99%的把握认为学生的学习积极性与对待班级工作的态度没有关系
D.没有充分的证据显示学生的学习积极性与对待班级工作的态度有关系
8.某中学共有5 000人,其中男生有3 500人,女生有1 500人,为了了解该校学生每周平均体育锻炼时间的情况以及该校学生每周平均体育锻炼时间是否与性别有关,现在用分层随机抽样的方法从中收集300位学生每周平均体育锻炼时间(单位:小时)的样本数据,其频率分布直方图如图所示:
已知在样本数据中,有60位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理,可知 ( )
A.没有理由认为“该校学生每周平均体育锻炼时间与性别有关”
B.有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”
C.有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”
D.有99%的把握认为“该校学生每周平均体育锻炼时间与性别有关”
二、多项选择题(本大题共4小题,每小题5分,共20分.在每小题给出的选项中,有多个选项符合题目要求,全部选对的得5分,部分选对的得3分,有选错的得0分)
9.某商品的销售量y(件)与销售价格x(元/件)存在线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=-5x+150,则下列结论正确的是 ( )
A.y与x具有负的线性相关关系
B.若r表示y与x之间的相关系数,则r=-5
C.当销售价格为10元/件时,销售量为100件
D.当销售价格为10元/件时,销售量为100件左右
10.下列命题中正确的是 ( )
A.在线性回归模型中,相关系数r表示变量x对于变量y变化的贡献率,r2越接近于1,表示回归效果越好
B.两个变量相关性越强,则相关系数的绝对值就越接近于1
C.在线性回归方程y^=-0.5x+2中,当变量x每增加1个单位时,变量y平均减少0.5个单位
D.对分类变量X与Y的随机变量χ2的值来说,其越小,“X与Y有关系”的把握程度越大
11.有两个分类变量X,Y,其2×2列联表如下所示,
Y1
Y2
X1
a
20-a
X2
15-a
30+a
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值可以为( )
A.6 B.7 C.8 D.9
12.2020年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.如图是该地某小区2019年12月至2020年12月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码1~13分别对应2019年12月~2020年12月)
根据散点图选择y=a+bx和y=c+dln x两个模型进行拟合,经过数据处理得到的两个回归方程分别为y^=0.936 9+0.028 5x和y^=0.955 4+0.030 6ln x,并得到一些统计量的值如下表:
y^=0.936 9+0.028 5x
y^=0.955 4+0.030 6ln x
相关系数r
0.902 3
0.972 3
若x是样本数据中x的平均数,y是样本数据中y的平均数,则下列说法正确的是 ( )
A.当月在售二手房均价y与月份代码x呈负相关关系
B.由y^=0.936 9+0.028 5x估计2021年3月在售二手房均价为1.050 9万元/平方米
C.曲线y^=0.936 9+0.028 5x与y^=0.955 4+0.030 6ln x都经过点(x,y)
D.模型y^=0.955 4+0.030 6ln x的拟合效果比模型y^=0.936 9+0.028 5x好
三、填空题(本大题共4小题,每小题5分,共20分.将答案填在题中的横线上)
13.下面是关于男婴与女婴出生调查的2×2列联表:
晚上出生
白天出生
合计
男婴
45
A
B
女婴
E
35
C
合计
98
D
180
那么A= ,B= ,C= ,D= ,E= .
14.为了判断高二年级学生是否选修文科与性别的关系,现随机抽取50名高二年级学生,得到如下2×2列联表.
理科
文科
男
13
10
女
7
20
已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025.根据表中数据,得到χ2=50×(13×20-10×7)223×27×20×30≈4.844,则认为学生选修文科与性别有关系出错的可能性为 .
15.已知具有相关关系的两个随机变量的一组观测数据的散点分布在函数y=3e2x+1的图象附近,令u=ln y,则可通过变换得到的线性回归方程为 .
16.某一电视台对年龄高于40岁和不高于40岁的人是否喜欢足球进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下2×2列联表:
不喜欢足球
喜欢足球
总计
高于40岁
p
q
50
不高于40岁
15
35
50
总计
a
b
100
若工作人员从所有被调查的人中任取一人,取到喜欢足球的人的概率为35,则有超过 的把握认为年龄与足球的被喜欢程度有关.
附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
P(χ2≥x0)
0.05
0.025
0.010
0.001
x0
3.841
5.024
6.635
10.828
四、解答题(本大题共6小题,共70分.解答应写出必要的文字说明、证明过程或演算步骤)
17.(本小题满分10分)某省从2021年开始,高考取消文理分科,实行“3+1+2”的模式,其中的“1”表示每位学生必须从物理、历史中选择一个科目且只能选择一个科目,某校为了解高一年级学生对“1”的选课情况,随机抽取了100名学生进行问卷调查,下表是根据调查结果得到的2×2列联表.
选择物理
选择历史
总计
男生
50
b
m
女生
c
20
40
总计
100
(1)求m,b,c的值;
(2)请你依据该列联表判断是否有99.5%的把握认为选择科目与性别有关,说明你的理由.
附:对于2×2列联表:
类1
类2
合计
类A
a
b
a+b
类B
c
d
c+d
合计
a+c
b+d
a+b+c+d
有χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
P(χ2≥x0)
0.100
0.05
0.025
0.010
0.005
0.001
x0
2.706
3.841
5.024
6.635
7.879
10.828
18.(本小题满分12分)某企业的甲、乙两种产品在东部地区三个城市以及西部地区两个城市的销售量x,y的数据如下:
东部
城市A
东部
城市B
东部
城市C
西部
城市D
西部
城市E
x
40
50
60
20
30
y
110
180
210
30
70
(1)已知销售量x和销售量y大致满足线性相关关系,求出y关于x的线性回归方程y^=b^x+a^;
(2)根据上述数据判断是否有99%的把握认为东、西部的地区差异与甲、乙两种产品的销售量相关.
参考公式:
b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-b^x.
χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
临界值表:
P(χ2≥x0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
19.(本小题满分12分)2020年上半年,随着新冠肺炎疫情在全球蔓延,全球超过60个国家或地区宣布进入紧急状态,部分国家或地区直接宣布“封国”或“封城”,随着国外部分活动进入停摆,全球经济缺乏活力,一些企业开始倒闭,下表为2020年第一季度企业成立年限与倒闭分布情况统计表:
企业成立年份
2019
2018
2017
2016
2015
企业成立年限x
1
2
3
4
5
倒闭企业数量(万家)
5.28
4.72
3.58
2.70
2.15
倒闭企业所占比例y%
21.4%
19.1%
14.5%
10.9%
8.7%
(1)由所给数据可用线性回归模型拟合y与x的关系,请用相关系数加以说明;
(2)建立y关于x的回归方程,估计倒闭的企业中2014年成立企业所占的比例.
参考数据:∑i=15yi=74.6,∑i=15xiyi=190.2,∑i=15(yi-y)2≈10.70,10≈3.16,
相关系数r=∑i=1nxiyi-nxy∑i=1n(xi-x)2∑i=1n(yi-y)2,样本(xi,yi)(i=1,2,…,n)的最小二乘估计公式为b^=∑i=1nxiyi-nxy∑i=1nxi2-nx 2,a^=y-b^x.
20.(本小题满分12分)推进垃圾分类处理是落实绿色发展理念的必然选择,也是打赢污染防治攻坚战的重要环节.为了解居民对垃圾分类的了解程度,某社区居委会随机抽取1 000名社区居民参与问卷测试,并将问卷得分绘制成频率分布表如下:
得分
[30,40)
[40,50)
[50,60)
[60,70)
男性人数
40
90
120
130
女性人数
20
50
80
110
得分
[70,80)
[80,90)
[90,100]
男性人数
110
60
30
女性人数
100
40
20
(1)从该社区随机抽取一名居民参与问卷测试,试估计其得分不低于60分的概率;
(2)将居民对垃圾分类的了解程度分为“比较了解(得分不低于60分)”和“不太了解(得分低于60分)”两类,完成2×2列联表,并判断是否有95%的把握认为“居民对垃圾分类的了解程度”与“性别”有关;
不太了解
比较了解
总计
男性
女性
总计
(3)从参与问卷测试且得分不低于80分的居民中,按照性别进行分层随机抽样,共抽取10人,连同n(n∈N*)名男性调查员一起组成3个环保宣传队.若从这(n+10)人中随机抽取3人作为队长,且男性队长人数ξ的期望不小于2,求n的最小值.
附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
临界值表:
P(χ2≥x0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
21. (本小题满分12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层随机抽样的方法从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到的频率分布直方图分别如图1,图2.
图1
图2
(1)从样本中日平均生产件数不足60的工人中随机抽取2人,求至少抽到一名25周岁以下组工人的概率;
(2)规定日平均生产件数不少于80者为生产能手,请你根据已知条件列出2×2列联表,并判断是否有90%的把握认为生产能手与工人所在的年龄组有关.
附:
P(χ2≥x0)
0.10
0.05
0.010
0.005
0.001
x0
2.706
3.841
6.635
7.879
10.828
χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
22. (本小题满分12分)某地区在一次考试后,从全体考生中随机抽取44名,获取他们本次考试的数学成绩x(单位:分)和物理成绩y(单位:分),绘制成如下散点图:
根据散点图可以看出y与x之间具有线性相关关系,但图中有两个异常点A,B.经调查得知,A考生由于感冒导致物理考试发挥失常,B考生因故未能参加物理考试.为了使分析结果更科学准确,剔除这两组数据后,对剩下的数据进行处理,得到一些统计量的值:
∑i=142xi=4 641,∑i=142yi=3 108,∑i=142xiyi=350 350,∑i=142(xi-x)2=13 814.5,∑i=142(yi-y)2=5 250,
其中xi,yi分别表示这42名同学的数学成绩、物理成绩,i=1,2,…,42.y与x的相关系数r≈0.81.
(1)若不剔除A,B两名考生的数据,用44组数据作回归分析,设此时y与x的相关系数为r0,试判断r0与r的大小关系,并说明理由;
(2)求y关于x的线性回归方程(精确到0.01),如果B考生参加了这次物理考试(已知B考生的数学成绩为125分),估计其物理成绩是多少(精确到个位);
(3)从概率统计规律看,本次考试该地区的物理成绩X~N(μ,σ2).以剔除后的物理成绩作为样本,用样本平均数y作为μ的估计值,用样本方差s2作为σ2的估计值.试求该地区5 000名考生中,物理成绩位于区间(62.8,85.2)的人数Z的数学期望.(精确到个位)
附:①线性回归方程y^=b^x+a^中,b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-b^x.
②若X~N(μ,σ2),则P(μ-σ
第9章 统计
本章达标检测
一、单项选择题
1.A 由线性回归方程可知b^=-3.5,则变量x每增加一个单位,变量y平均减少3.5个单位.
2.B 散点图中散点的分布呈曲线,排除A选项,且曲线的增长速度逐渐变慢,排除选项C、D,故选B.
3.D 由散点图可得y与x的线性相关关系为负相关,所以r1<0,r2<0,因为剔除点(10,21)后,y与x的线性相关性更强,|r|更接近1,所以-1
5.A 由题表中数据得x=3+4+5+64=4.5,y=2.5+3+4+4.54=3.5,将x=4.5,y=3.5代入y^=0.7x+a^,得3.5=0.7×4.5+a^,即a^=0.35,∴y关于x的线性回归方程为y^=0.7x+0.35.取x=8,得y^=0.7×8+0.35=5.95,∴当x=8时,繁殖个数y的估计值为5.95.
6.C 因为有99%的把握但没有99.9%的把握,所以χ2的值的取值范围为[6.635,10.828),因此χ2的值可能为7.869.
7.A 因为χ2=50×(18×19-7×6)225×25×24×26≈11.54>10.828, 所以有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系,故选A.
8.B 由题意得,男生、女生各抽取的人数为300×35005000=210,300×15005000=90,又由频率分布直方图可知,每周平均体育锻炼时间超过4小时的人数的频率为0.75,所以在300人中每周平均体育锻炼时间超过4小时的人数为300×0.75=225,又有60位女生的每周平均体育锻炼时间超过4小时,所以男生每周平均体育锻炼时间超过4小时的人数为225-60=165,可得如下的2×2列联表:
男生
女生
总计
每周平均体育锻炼
时间不超过4小时
45
30
75
每周平均体育锻炼
时间超过4小时
165
60
225
总计
210
90
300
结合2×2列联表可得χ2=300×(45×60-30×165)275×225×210×90≈4.762>3.841,所以有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”,故选B.
二、多项选择题
9.AD 由回归方程y^=-5x+150可知y与x具有负的线性相关关系,故A正确;y与x之间的相关系数|r|≤1,故B错误;当销售价格为10元/件时,销售量为-5×10+150=100件左右,故C错误,D正确,故选AD.
10.ABC 对于A,根据相关系数r的意义,可知在线性回归模型中,相关系数r表示变量x对于变量y变化的贡献率,r2越接近于1,表示回归效果越好,所以是正确的;对于B,根据相关系数r的意义,可知两个变量相关性越强,则相关系数的绝对值就越接近于1,所以是正确的;对于C,根据线性回归方程中b^的意义,可得在线性回归方程y^=-0.5x+2中,当变量x每增加1个单位时,变量y平均减少0.5个单位,所以是正确的;对于D,对分类变量X与Y的随机变量χ2的值来说,其越小,“X与Y有关系”的把握程度越小,所以不正确.故选ABC.
11.CD χ2=65×[a(30+a)-(20-a)(15-a)]220×45×15×50=13×(13a-60)220×45×3×2≥3.841,根据a>5且15-a>5,a∈Z,求得当a=8或a=9时满足题意.
12.BD 对于A,由题图可知,散点呈从左下到右上方向发展的趋势,所以当月在售二手房均价y与月份代码x具有正相关关系,故A不正确;对于B,2021年3月对应的月份代码为16,当x=16时,y^=0.936 9+0.028 516=1.050 9,所以可以估计2021年3月在售二手房均价为1.050 9万元/平方米,故B正确;对于C,非线性回归曲线不一定经过点(x,y) ,故C不正确;对于D,|r|越大,拟合效果越好,由0.902 3<0.972 3,知D正确.故选BD.
三、填空题
13.答案 47;92;88;82;53
解析 ∵45+E=98,∴E=53.
∵E+35=C,∴C=88.
∵98+D=180,∴D=82.
∵A+35=D,∴A=47.
∵45+A=B,∴B=92.
14.答案 5%
解析 ∵4.844>3.841,且P(χ2≥3.841)≈0.05,
∴认为选修文科与性别有关系出错的可能性为5%.
15.答案 u=2x+1+ln 3
解析 由y=3e2x+1,得ln y=ln(3e2x+1),即ln y=ln 3+2x+1,则线性回归方程为u=2x+1+ln 3.
16.答案 95%
解析 设“从所有被调查的人中任取一人,取到喜欢足球的人”为事件A,由已知得P(A)=q+35100=35,所以q=25,所以p=25,a=40,b=60.故χ2=100×(25×35-25×15)250×50×40×60=256≈4.167>3.841,
故有超过95%的把握认为年龄与足球的被喜欢程度有关.
四、解答题
17.解析 (1)随机抽取的100名学生中女生有40人,则男生有100-40=60(人), (2分)
所以m=60,b=10,c=20. (4分)
(2)根据题目所给数据得到如下完整的2×2列联表:
选择物理
选择历史
总计
男生
50
10
60
女生
20
20
40
总计
70
30
100
(6分)
则χ2=100×(50×20-10×20)260×40×70×30≈12.698, (8分)
因为12.698>7.879,所以有99.5%的把握认为选择科目与性别有关. (10分)
18.解析 (1)由题表中数据,可得x=15×(40+50+60+20+30)=40,
y=15×(110+180+210+30+70)=120,
∑i=15(xi-x)(yi-y)=0×(-10)+10×60+20×90+(-20)×(-90)+(-10)×(-50)=4 700,
∑i=15(xi-x)2=02+102+202+(-20)2+(-10)2=1 000, (2分)
所以b^=∑i=15(xi-x)(yi-y)∑i=15(xi-x)2=47001000=4.7,
a^=y-b^x=120-4.7×40=-68, (4分)
所以y关于x的线性回归方程是y^=4.7x-68. (6分)
(2)根据题意得到如下2×2列联表:
东部城市
西部城市
总计
x
150
50
200
y
500
100
600
总计
650
150
800
(8分)
根据表中数据,得χ2=800×(150×100-50×500)2200×600×650×150≈6.838>6.635, (10分)
所以有99%的把握认为东、西部的地区差异与甲、乙两种产品的销售量相关. (12分)
19.解析 (1)由题表中数据及参考数据可得x=1+2+3+4+55=3,
∑i=15(xi-x)2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,
∑i=15(yi-y)2≈10.70,∑i=15xiyi=190.2,
由∑i=15yi=74.6,得y=∑i=15yi5=14.92,
所以∑i=15xiyi-5x y=190.2-5×3×14.92=-33.6, (2分)
所以r=∑i=15xiyi-5xy∑i=15(xi-x)2∑i=15(yi-y)2≈-33.63.16×10.70≈-0.99, (4分)
因为y与x的相关系数近似为-0.99,说明y与x的相关程度很高,所以可以用线性回归模型拟合y与x的关系. (6分)
(2)易得∑i=15xi2=12+22+32+42+52=55,
再结合(1)中数据可得b^=∑i=15xiyi-5xy∑i=15xi2-5x 2=-33.655-5×9=-3.36, (8分)
则a^=y-b^x=14.92+3.36×3=25,
所以y关于x的回归方程为y^=-3.36x+25. (10分)
当x=6时,y^=-3.36×6+25=4.84,
所以估计倒闭的企业中2014年成立企业所占的比例为4.84%. (12分)
20.解析 (1)由调查数据,知问卷得分不低于60分的频率为
130+110+60+30+110+100+40+201000=0.6,
故从该社区随机抽取一名居民参与问卷测试,其得分不低于60分的概率为0.6. (3分)
(2)由题意得2×2列联表如下:
不太了解
比较了解
总计
男性
250
330
580
女性
150
270
420
总计
400
600
1 000
χ2=1000×(250×270-330×150)2580×420×400×600≈5.542, (5分)
因为5.542>3.841,
所以有95%的把握认为居民对垃圾分类的了解程度与性别有关. (7分)
(3)由题意知,分层随机抽样抽取的10人中,男性有6人,女性有4人,
随机变量ξ的可能取值为0,1,2,3,
其中P(ξ=0)=Cn+60C43Cn+103,P(ξ=1)=Cn+61C42Cn+103,
P(ξ=2)=Cn+62C41Cn+103,P(ξ=3)=Cn+63C40Cn+103,
所以随机变量ξ的概率分布为
ξ
0
1
2
3
P
Cn+60C43Cn+103
Cn+61C42Cn+103
Cn+62C41Cn+103
Cn+63C40Cn+103
(9分)
则E(ξ)=Cn+60C43Cn+103×0+Cn+61C42Cn+103×1+Cn+62C41Cn+103×2+Cn+63C40Cn+103×3≥2,
即Cn+61C42×1+Cn+62C41×2+Cn+63×3≥2Cn+103,
可得6(n+6)+4(n+6)(n+5)+12(n+6)×(n+5)(n+4)≥13(n+10)(n+9)(n+8),
整理得3(n+6)(n2+17n+72)≥2(n+10)×(n+9)(n+8),
即3(n+6)≥2(n+10),解得n≥2,
所以n的最小值为2. (12分)
21.解析 (1)由已知得,样本中有25周岁以上(含25周岁)组工人60名,25周岁以下组工人40名.
所以样本中日平均生产件数不足60的工人中,25周岁以上(含25周岁)组工人有60×0.05=3(人),分别记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),分别记为B1,B2.
从中随机抽取2名工人,所有的可能结果共有10种,它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少有1名25周岁以下组工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2),故所求概率P=710. (5分)
(2)由题中频率分布直方图可知,在抽取的100名工人中,25周岁以上(含25周岁)组中的生产能手有60×0.25=15(人),25周岁以下组中的生产能手有40×0.375=15(人),
据此可得2×2列联表如下:
生产能手
非生产能手
合计
25周岁以上
(含25周岁)组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
(8分)
χ2=100×(15×25-45×15)260×40×30×70≈1.79.
因为1.79<2.706, (10分)
所以没有90%的把握认为生产能手与工人所在的年龄组有关. (12分)
22.解析 (1)r0
①异常点A,B会降低变量之间的线性相关程度.
②44个数据点与其回归直线的总偏差更大,回归效果更差,所以相关系数更小.
③42个数据点与其回归直线的总偏差更小,回归效果更好,所以相关系数更大.
④42个数据点更贴近其回归直线.
⑤44个数据点与其回归直线更离散. (4分)
(2)设y关于x的线性回归方程为y^=b^x+a^.由题中数据可得x=142∑i=142xi=110.5,
y=142∑i=142yi=74,
所以∑i=142(xi-x)(yi-y)=∑i=142xiyi-42xy=350 350-42×110.5×74=6 916.
又因为∑i=142(xi-x)2=13 814.5,
所以b^=∑i=142(xi-x)(yi-y)∑i=142(xi-x)2≈0.50,
a^=y-b^x≈74-0.50×110.5≈18.75,
所以y^=0.50x+18.75.
将x=125代入,得y^=0.50×125+18.75=62.5+18.75≈81,
所以估计B考生的物理成绩为81分. (8分)
(3)y=142∑i=142yi=74,s2=142∑i=142(yi-y)2=142×5 250=125,所以X~N(74,125),
又因为125≈11.2,
所以P(62.8
所以E(Z)≈5 000×0.683=3 415,
即该地区本次考试物理成绩位于区间(62.8,85.2)的人数Z的数学期望约为3 415. (12分)
相关资料
更多