


还剩8页未读,
继续阅读
成套系列资料,整套一键下载
- 广西专版2023_2024学年新教材高中数学第8章成对数据的统计分析8.2一元线性回归模型及其应用训练提升新人教版选择性必修第三册 试卷 0 次下载
- 广西专版2023_2024学年新教材高中数学第8章成对数据的统计分析8.3列联表与独立性检验训练提升新人教版选择性必修第三册 试卷 0 次下载
- 广西专版2023_2024学年新教材高中数学第8章成对数据的统计分析过关检测B卷新人教版选择性必修第三册 试卷 0 次下载
- 广西专版2023_2024学年新教材高中数学综合检测A卷新人教版选择性必修第三册 试卷 0 次下载
- 广西专版2023_2024学年新教材高中数学综合检测B卷新人教版选择性必修第三册 试卷 0 次下载
广西专版2023_2024学年新教材高中数学第8章成对数据的统计分析过关检测A卷新人教版选择性必修第三册
展开
这是一份广西专版2023_2024学年新教材高中数学第8章成对数据的统计分析过关检测A卷新人教版选择性必修第三册,共11页。
第八章过关检测(A卷)
(时间:120分钟 满分:150分)
一、选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.对有线性相关关系的两个变量建立的经验回归方程x中,回归系数( )
A.可以小于0 B.大于0
C.能等于0 D.只能小于0
答案:A
解析:当=0时,r=0,这时不具有线性相关关系,但可以大于0也可以小于0.
2.根据如下样本数据:
x
3
4
5
6
7
8
y
4
2.5
-0.5
0.5
-2
-3
得到的经验回归方程为x+,则( )
A.>0,<0
B.>0,>0
C.<0,>0
D.<0,<0
答案:A
解析:根据题意,画出散点图.
根据散点图,知两个变量为负相关,且经验回归直线与y轴的交点在y轴正半轴,所以>0,<0.
3.对于一组具有线性相关关系的数据(xi,yi)(i=1,2,3,…,n),根据最小二乘法求得经验回归方程为x+,则以下说法正确的是( )
A.响应变量的值由解释变量唯一确定
B.在回归分析中,R2=0.80的模型比R2=0.98的模型拟合效果好
C.所有的样本点均落在经验回归直线x+上
D.残差图中,若残差点分布水平带状区域的宽度越窄,则经验回归方程的预报精确度越高
答案:D
解析:选项A,响应变量由解释变量进行估计,即选项A错误;
选项B,决定系数R2越大,说明拟合效果越好,即选项B错误;
选项C,可能所有的样本点都不在回归直线上,即选项C错误;
选项D,在残差图中,残差点分布水平带状区域的宽度越窄,则经验回归方程的预报精确度越高,即选项D正确.
故选D.
4.“关注夕阳、爱老敬老”——某马拉松协会从2018年开始每年向敬老院捐赠物资和现金.下表记录了第x年(2018年是第一年)与捐赠的现金y(单位:万元)的对应数据.由此表中的数据得到了变量y关于变量x的经验回归方程=mx+0.35,则预测2024年捐赠的现金大约是( )
x
3
4
5
6
y
2.5
3
4
4.5
A.5万元 B.5.2万元
C.5.25万元 D.5.5万元
答案:C
解析:由已知得,=4.5,
=3.5,
即样本点的中心的坐标为(4.5,3.5),
将该坐标代入经验回归方程=mx+0.35,
得3.5=4.5m+0.35,即m=0.7,
故经验回归方程为=0.7x+0.35.
当x=7时,得=0.7×7+0.35=5.25,
预测2024年捐赠的现金大约是5.25万元.
5.为研究某种细菌在特定环境下随时间变化的繁殖情况,得到如表实验数据:
天数x/天
1
2
3
4
5
繁殖个数y/千个
5
5
6
6
8
由最小二乘法得y与x的经验回归方程为x+3.9,则样本在(4,6)处的残差为( )
A.-0.7 B.0.7
C.-0.25 D.0.25
答案:A
解析:因为×(1+2+3+4+5)=3,
×(5+5+6+6+8)=6,回归直线经过样本点的中心,
所以6=3+3.9,解得=0.7.
经验回归方程为=0.7x+3.9,
当x=4时,=0.7×4+3.9=6.7.
所以样本在(4,6)处的残差为6-6.7=-0.7.
6.某学校开展研究性学习活动,某同学获得一组统计数据如下表:
x
1.99
3
4
5.1
6.12
y
1.5
4.04
7.5
12
18.01
对于表中数据,现给出以下拟合曲线,其中拟合程度最好的是( )
A.y=2x-2 B.y=
C.y=log2x D.y=(x2-1)
答案:D
解析:本题若用R2或残差来分析拟合效果,运算将会很烦琐,计算量太大,可以将各组数据代入检验,发现D最接近.
7.在两个学习基础相当的班级实行某种教学措施的试验,试验结果见下表,根据小概率值α=0.01的独立性检验,推断试验效果与教学措施( )
单位:人
班级
成绩
合计
优、良、中
差
实验班
48
2
50
对比班
38
12
50
合计
86
14
100
A.有关 B.无关
C.关系不明确 D.以上都不正确
答案:A
解析:随机变量χ2=≈8.306>6.635=x0.01,
根据小概率值α=0.01的独立性检验,有充分证据推断试验效果与教学措施有关,且犯错误的概率不大于0.01.
8.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如表数据:
单价x/元
4
5
6
7
8
9
销量y/件
90
84
83
80
75
68
由表中数据,求得经验回归方程为x+106.若在这些样本点中任取一点,则它在直线右上方的概率为( )
A. B. C. D.
答案:C
解析:由表中数据知,×(4+5+6+7+8+9)=6.5,×(90+84+83+80+75+68)=80,
因为经验回归直线x+106恒过样本点的中心(),
即点(6.5,80),所以80=×6.5+106,
解得=-4,
所以=-4x+106.
由此得到如下表格:
单价x/元
4
5
6
7
8
9
销量y/件
90
84
83
80
75
68
估计值/件
90
86
82
78
74
70
所以6个点中,在直线右上方的点有(6,83),(7,80),(8,75),共3个,所以概率为.
故选C.
二、选择题:本题共4小题,每小题5分,共20分.在每小题给出的选项中,有多项符合题目要求.全部选对的得5分,部分选对的得2分,有选错的得0分.
9.下列两个变量之间具有相关关系的是( )
A.球的半径R和表面积S
B.一个人的身高h和右手一拃长x
C.真空中的自由落体运动其下落的距离h和下落的时间t
D.一个人的身高h和他的体重x
答案:BD
解析:对于A,球的半径R和表面积S是函数关系,不是相关关系;
对于B,一般情况下,一个人的身高h和右手一拃长x是正相关关系;
对于C,真空中的自由落体运动其下落的距离h和下落的时间t是函数关系,不是相关关系;
对于D,一般情况下,一个人的身高h和他的体重x是正相关关系.
10.如图,5个(x,y)数据,去掉点D(3,10)后,下列说法正确的是( )
A.样本相关系数r变大
B.残差平方和变大
C.R2变小
D.解释变量x与响应变量y的相关性变强
答案:AD
解析:由题中散点图知,去掉D点后,x,y的相关性变强,且为正相关,因此r变大,R2变大,残差平方和变小.
11.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在A地区的100天日落和夜晚天气,得到如下表格:
单位:天
日落云里走
夜晚天气
下雨
未下雨
出现
25
5
未出现
25
45
临界值表
α
0.1
0.05
0.01
0.001
xα
2.706
3.841
6.635
10.828
并计算得到χ2≈19.05,下列小波对A地区夜晚天气判断正确的是( )
A.夜晚下雨的概率约为
B.未出现“日落云里走”且夜晚下雨的概率约为
C.依据α=0.001的独立性检验可认为“‘日落云里走’是否出现”与“当晚是否下雨”有关
D.样本中出现“日落云里走”且夜晚下雨的频率是未出现“日落云里走”且夜晚下雨的频率的2.5倍
答案:ABC
解析:对于选项A,因为夜晚下雨的天数为25+25=50,所以夜晚下雨的概率约为,故A正确;
对于选项B,未出现“日落云里走”且夜晚下雨的有25天,未出现“日落云里走”一共25+45=70天,所以未出现“日落云里走”且夜晚下雨的概率约为,故B正确;
对于选项C,因为χ2≈19.05>10.828=x0.001,所以依据α=0.001的独立性检验,认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,此推断犯错误的概率不大于0.001,故C正确;
对于选项D,样本中出现“日落云里走”且夜晚下雨的频率是,未出现“日落云里走”且夜晚下雨的频率是,故D错误.
12.某电子商务平台每年都会举行“年中狂欢节”商业促销狂欢活动,现统计了该平台从2014年到2022年共9年“年中狂欢节”期间的销售额(单位:亿元)并作出散点图,将销售额y看成年份序号x(2014年作为第1年)的函数.运用Excel软件,分别选择经验回归直线和三次函数回归曲线进行拟合,效果如图所示,则下列说法正确的是( )
A.销售额y与年份序号x呈正相关关系
B.销售额y与年份序号x线性相关显著
C.三次函数回归曲线的拟合效果好于经验回归直线的拟合效果
D.根据三次函数回归曲线可以预测2024年“年中狂欢节”期间的销售额约为8 454亿元
答案:ABC
解析:对于A,根据题中图象可知,散点从左下到右上分布,销售额y与年份序号x呈正相关关系,故A正确;
对于B,因为决定系数0.936>0.75,靠近1,销售额y与年份序号x线性相关显著,故B正确;
对于C,根据三次函数回归曲线的决定系数0.999>0.936,决定系数越大,拟合效果越好,三次函数回归曲线的拟合效果好于经验回归直线的拟合效果,故C正确;
对于D,由三次函数y=0.168x3+28.141x2-29.027x+6.889,当x=11时,y=3316.261亿元,故D错误.
故选ABC.
三、填空题:本题共4小题,每小题5分,共20分.请把正确答案填在题中的横线上.
13.一组样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n),都在直线y=-x-3上,则这组样本数据的相关系数r= .
答案:-1
解析:根据方程可知这两个变量负相关,即这组数据的样本相关系数为负值,又所有的样本点(xi,yi)(i=1,2,…,n)都在一条直线上,则有|r|=1,即r=-1.
14.某小卖部为了解热茶销售量y(单位:杯)与气温x(单位:℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温度数,并制作了对照表:
气温/℃
18
13
10
-1
杯数/杯
24
34
38
64
由表中数据算得经验回归方程x+中的≈-2,预测当气温为-5 ℃时,热茶销售量大约为 杯.
答案:70
解析:根据表格中的数据可求得×(18+13+10-1)=10,
×(24+34+38+64)=40,
∴=40-(-2)×10=60,
∴经验回归方程为=-2x+60.
故当x=-5时,=-2×(-5)+60=70.
15.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:这种血清不能起到预防感冒的作用.利用2×2列联表计算得χ2≈3.918,经查临界值表知P(χ2≥3.841)=0.05.则下列结论中正确的序号是 .
①根据小概率值α=0.05的独立性检验,有充分证据推断这种血清能起到预防感冒的作用;
②若某人未使用该血清,则他在一年中有95%的可能性得感冒;
③这种血清预防感冒的有效率为95%;
④这种血清预防感冒的有效率为5%.
答案:①
16.某种细胞的存活率表示为y%,其中y与存放温度x(单位:℃)之间具有线性相关关系,其样本数据如表所示:
存放温度x/℃
20
15
10
5
0
-5
-10
y
6
14
26
33
43
60
63
计算得=5,=35,xiyi=-175,=875,并求得经验回归方程为=-2x+45,但实验人员发现表中数据x=-5的对应值y=60录入有误,更正为y=53,则更正后的经验回归方程为 .
答案:=-1.9x+43.5
解析:由题意可得,更正后的=5,×(35×7-60+53)=34,
xiyi=-175+5×60-5×53=-140,=875,
所以=-1.9,=34+1.9×5=43.5,
故更正后的经验回归方程为=-1.9x+43.5.
四、解答题:本题共6小题,共70分.解答应写出必要的文字说明、证明过程或演算步骤.
17.(10分)为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到的统计结果如下表所示:
表1:男生上网时间与频数分布表
上网时间/分
[30,40)
[40,50)
[50,60)
[60,70)
[70,80]
人数
5
25
30
25
15
表2:女生上网时间与频数分布表
上网时间/分
[30,40)
[40,50)
[50,60)
[60,70)
[70,80]
人数
10
20
40
20
10
(1)若该大学共有女生7 500人,试估计其中上网时间不少于60分钟的人数.
(2)完成下面的2×2列联表,根据小概率值α=0.1的独立性检验,能否推断出大学生上网时间与性别有关?
单位:人
性别
上网时间
合计
上网时间少于60分钟
上网时间不少于60分钟
男生
女生
合计
附:χ2=,其中n=a+b+c+d为样本容量.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
解:(1)设上网时间不少于60分钟的人数为x,依题意有,解得x=2250,
估计其中上网时间不少于60分钟的人数是2250.
(2)填列联表如下:
单位:人
性别
上网时间
合计
上网时间少于
60分钟
上网时间不少于
60分钟
男生
60
40
100
女生
70
30
100
合计
130
70
200
零假设为H0:大学生上网时间与性别无关.
由表中数据可得到χ2=≈2.20<2.706=x0.1.
根据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,
即认为大学生上网时间与性别无关.
18.(12分)期中考试后,对某班60名学生的成绩优秀和不优秀与学生近视和不近视的情况进行调查,其中成绩优秀的36名学生中,有20人近视,另外24名成绩不优秀的学生中,有6人近视.
(1)请列出列联表并画出等高堆积条形图,判断成绩与患近视是否有关系.
(2)根据小概率值α=0.05的独立性检验,能否推断出成绩与患近视有关?
解(1)列联表如下:
单位:人
成绩
是否近视
合计
近视
不近视
成绩优秀
20
16
36
成绩不优秀
6
18
24
合计
26
34
60
等高堆积条形图如图所示:
由图知成绩与患近视有关.
(2)零假设为H0:成绩与患近视无关.
χ2=≈5.475>3.841=x0.05.
根据小概率值α=0.05的独立性检验,有充分证据推断H0不成立,即成绩与患近视有关,此推断犯错误的概率不超过0.05.
19.(12分)某个服装店经营某种服装,在某周内获纯利y(单位:元)与该周每天销售这种服装数x(单位:件)之间的一组数据关系见下表:
x/件
3
4
5
6
7
8
9
y/元
66
69
73
81
89
90
91
已知=280,=45 309,xiyi=3 487.
(1)求;
(2)判断纯利y与每天销售件数x之间是否线性相关,如果线性相关,求出经验回归方程.
解(1)=6;
.
(2)画出散点图如图,可知y与x的样本数据呈现出线性相关关系,设经验回归方程为x+.
=4.75,
-6×4.75≈51.36.
故经验回归方程为=4.75x+51.36.
20.(12分)电视传媒公司为了解某地区某类体育节目的收视情况,随机抽取了100名观众进行调查,并根据调查结果绘制了观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,根据小概率值α=0.05的独立性检验,能否推断出“体育迷”与性别有关?
单位:人
性别
是不是体育迷
合计
非体育迷
体育迷
男
女
10
55
合计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列、均值E(X)和方差D(X).
附:χ2=
α
0.05
0.01
xα
3.841
6.635
解(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而列联表如下:
单位:人
性别
是不是体育迷
合计
非体育迷
体育迷
男
30
15
45
女
45
10
55
合计
75
25
100
零假设为H0:“体育迷”与性别无关.
将2×2列联表中的数据代入公式计算,得
χ2===≈3.030<3.841=x0.05.
根据小概率值α=0.05的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即“体育迷”与性别无关.
(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为.
由题意知X~B,从而X的分布列为
X
0
1
2
3
P
E(X)=np=3×,
D(X)=np(1-p)=3×.
21.(12分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加,为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法.并说明理由.
附:样本相关系数r=≈1.414.
解(1)由已知得样本平均数yi=60,从而该地区这种野生动物数量的估计值为60×200=12000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r=≈0.94.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
22.(12分)某公司为了解年研发资金投入量x(单位:亿元)对年销售额y(单位:亿元)的影响.对公司近12年的年研发资金投入量xi和年销售额yi的数据,进行了对比分析,建立了两个函数模型:y=α+βx2和y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数,并得到一些统计量的值.令ui=,vi=ln yi(i=1,2,…,12),经计算得如下数据:
(xi-)2
(yi-)2
20
66
77
2
460
4.20
(ui-)2
(ui-
)(yi-)
(vi-)2
(xi-
)(vi-)
31 250
215
3.08
14
(1)请从样本相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的选择及表中数据,①建立y关于x的经验回归方程;
②若下一年销售额y需达到90亿元,预测下一年的研发资金投入量x是多少亿元?
附:a.样本相关系数r=,
经验回归方程x中,.
b.参考数据:308=4×77,≈9.486 8,e4.499 8≈90.
解(1)设变量u和y的样本相关系数为r1,变量x和v的样本相关系数为r2.
由题意,r1==0.86,
r2=≈0.91,
则|r1|<|r2|,从样本相关系数的角度分析,模型y=eλx+t的拟合程度更好.
(2)①先建立v关于x的经验回归方程,
由y=eλx+t,得lny=t+λx,即v=t+λx,
由于λ=≈0.18,
t=-λ=4.20-×20≈0.56,
所以v关于x的经验回归方程为=0.18x+0.56,
所以ln =0.18x+0.56,
则=e0.18x+0.56.
②下一年销售额y需达到90亿元,即=90,
代入=e0.18x+0.56,得90=e0.18x+0.56,
又e4.499 8≈90,所以4.499 8≈0.18x+0.56,
所以x≈≈21.89,
所以预测下一年的研发资金投入量约是21.89亿元.
第八章过关检测(A卷)
(时间:120分钟 满分:150分)
一、选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.对有线性相关关系的两个变量建立的经验回归方程x中,回归系数( )
A.可以小于0 B.大于0
C.能等于0 D.只能小于0
答案:A
解析:当=0时,r=0,这时不具有线性相关关系,但可以大于0也可以小于0.
2.根据如下样本数据:
x
3
4
5
6
7
8
y
4
2.5
-0.5
0.5
-2
-3
得到的经验回归方程为x+,则( )
A.>0,<0
B.>0,>0
C.<0,>0
D.<0,<0
答案:A
解析:根据题意,画出散点图.
根据散点图,知两个变量为负相关,且经验回归直线与y轴的交点在y轴正半轴,所以>0,<0.
3.对于一组具有线性相关关系的数据(xi,yi)(i=1,2,3,…,n),根据最小二乘法求得经验回归方程为x+,则以下说法正确的是( )
A.响应变量的值由解释变量唯一确定
B.在回归分析中,R2=0.80的模型比R2=0.98的模型拟合效果好
C.所有的样本点均落在经验回归直线x+上
D.残差图中,若残差点分布水平带状区域的宽度越窄,则经验回归方程的预报精确度越高
答案:D
解析:选项A,响应变量由解释变量进行估计,即选项A错误;
选项B,决定系数R2越大,说明拟合效果越好,即选项B错误;
选项C,可能所有的样本点都不在回归直线上,即选项C错误;
选项D,在残差图中,残差点分布水平带状区域的宽度越窄,则经验回归方程的预报精确度越高,即选项D正确.
故选D.
4.“关注夕阳、爱老敬老”——某马拉松协会从2018年开始每年向敬老院捐赠物资和现金.下表记录了第x年(2018年是第一年)与捐赠的现金y(单位:万元)的对应数据.由此表中的数据得到了变量y关于变量x的经验回归方程=mx+0.35,则预测2024年捐赠的现金大约是( )
x
3
4
5
6
y
2.5
3
4
4.5
A.5万元 B.5.2万元
C.5.25万元 D.5.5万元
答案:C
解析:由已知得,=4.5,
=3.5,
即样本点的中心的坐标为(4.5,3.5),
将该坐标代入经验回归方程=mx+0.35,
得3.5=4.5m+0.35,即m=0.7,
故经验回归方程为=0.7x+0.35.
当x=7时,得=0.7×7+0.35=5.25,
预测2024年捐赠的现金大约是5.25万元.
5.为研究某种细菌在特定环境下随时间变化的繁殖情况,得到如表实验数据:
天数x/天
1
2
3
4
5
繁殖个数y/千个
5
5
6
6
8
由最小二乘法得y与x的经验回归方程为x+3.9,则样本在(4,6)处的残差为( )
A.-0.7 B.0.7
C.-0.25 D.0.25
答案:A
解析:因为×(1+2+3+4+5)=3,
×(5+5+6+6+8)=6,回归直线经过样本点的中心,
所以6=3+3.9,解得=0.7.
经验回归方程为=0.7x+3.9,
当x=4时,=0.7×4+3.9=6.7.
所以样本在(4,6)处的残差为6-6.7=-0.7.
6.某学校开展研究性学习活动,某同学获得一组统计数据如下表:
x
1.99
3
4
5.1
6.12
y
1.5
4.04
7.5
12
18.01
对于表中数据,现给出以下拟合曲线,其中拟合程度最好的是( )
A.y=2x-2 B.y=
C.y=log2x D.y=(x2-1)
答案:D
解析:本题若用R2或残差来分析拟合效果,运算将会很烦琐,计算量太大,可以将各组数据代入检验,发现D最接近.
7.在两个学习基础相当的班级实行某种教学措施的试验,试验结果见下表,根据小概率值α=0.01的独立性检验,推断试验效果与教学措施( )
单位:人
班级
成绩
合计
优、良、中
差
实验班
48
2
50
对比班
38
12
50
合计
86
14
100
A.有关 B.无关
C.关系不明确 D.以上都不正确
答案:A
解析:随机变量χ2=≈8.306>6.635=x0.01,
根据小概率值α=0.01的独立性检验,有充分证据推断试验效果与教学措施有关,且犯错误的概率不大于0.01.
8.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如表数据:
单价x/元
4
5
6
7
8
9
销量y/件
90
84
83
80
75
68
由表中数据,求得经验回归方程为x+106.若在这些样本点中任取一点,则它在直线右上方的概率为( )
A. B. C. D.
答案:C
解析:由表中数据知,×(4+5+6+7+8+9)=6.5,×(90+84+83+80+75+68)=80,
因为经验回归直线x+106恒过样本点的中心(),
即点(6.5,80),所以80=×6.5+106,
解得=-4,
所以=-4x+106.
由此得到如下表格:
单价x/元
4
5
6
7
8
9
销量y/件
90
84
83
80
75
68
估计值/件
90
86
82
78
74
70
所以6个点中,在直线右上方的点有(6,83),(7,80),(8,75),共3个,所以概率为.
故选C.
二、选择题:本题共4小题,每小题5分,共20分.在每小题给出的选项中,有多项符合题目要求.全部选对的得5分,部分选对的得2分,有选错的得0分.
9.下列两个变量之间具有相关关系的是( )
A.球的半径R和表面积S
B.一个人的身高h和右手一拃长x
C.真空中的自由落体运动其下落的距离h和下落的时间t
D.一个人的身高h和他的体重x
答案:BD
解析:对于A,球的半径R和表面积S是函数关系,不是相关关系;
对于B,一般情况下,一个人的身高h和右手一拃长x是正相关关系;
对于C,真空中的自由落体运动其下落的距离h和下落的时间t是函数关系,不是相关关系;
对于D,一般情况下,一个人的身高h和他的体重x是正相关关系.
10.如图,5个(x,y)数据,去掉点D(3,10)后,下列说法正确的是( )
A.样本相关系数r变大
B.残差平方和变大
C.R2变小
D.解释变量x与响应变量y的相关性变强
答案:AD
解析:由题中散点图知,去掉D点后,x,y的相关性变强,且为正相关,因此r变大,R2变大,残差平方和变小.
11.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在A地区的100天日落和夜晚天气,得到如下表格:
单位:天
日落云里走
夜晚天气
下雨
未下雨
出现
25
5
未出现
25
45
临界值表
α
0.1
0.05
0.01
0.001
xα
2.706
3.841
6.635
10.828
并计算得到χ2≈19.05,下列小波对A地区夜晚天气判断正确的是( )
A.夜晚下雨的概率约为
B.未出现“日落云里走”且夜晚下雨的概率约为
C.依据α=0.001的独立性检验可认为“‘日落云里走’是否出现”与“当晚是否下雨”有关
D.样本中出现“日落云里走”且夜晚下雨的频率是未出现“日落云里走”且夜晚下雨的频率的2.5倍
答案:ABC
解析:对于选项A,因为夜晚下雨的天数为25+25=50,所以夜晚下雨的概率约为,故A正确;
对于选项B,未出现“日落云里走”且夜晚下雨的有25天,未出现“日落云里走”一共25+45=70天,所以未出现“日落云里走”且夜晚下雨的概率约为,故B正确;
对于选项C,因为χ2≈19.05>10.828=x0.001,所以依据α=0.001的独立性检验,认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,此推断犯错误的概率不大于0.001,故C正确;
对于选项D,样本中出现“日落云里走”且夜晚下雨的频率是,未出现“日落云里走”且夜晚下雨的频率是,故D错误.
12.某电子商务平台每年都会举行“年中狂欢节”商业促销狂欢活动,现统计了该平台从2014年到2022年共9年“年中狂欢节”期间的销售额(单位:亿元)并作出散点图,将销售额y看成年份序号x(2014年作为第1年)的函数.运用Excel软件,分别选择经验回归直线和三次函数回归曲线进行拟合,效果如图所示,则下列说法正确的是( )
A.销售额y与年份序号x呈正相关关系
B.销售额y与年份序号x线性相关显著
C.三次函数回归曲线的拟合效果好于经验回归直线的拟合效果
D.根据三次函数回归曲线可以预测2024年“年中狂欢节”期间的销售额约为8 454亿元
答案:ABC
解析:对于A,根据题中图象可知,散点从左下到右上分布,销售额y与年份序号x呈正相关关系,故A正确;
对于B,因为决定系数0.936>0.75,靠近1,销售额y与年份序号x线性相关显著,故B正确;
对于C,根据三次函数回归曲线的决定系数0.999>0.936,决定系数越大,拟合效果越好,三次函数回归曲线的拟合效果好于经验回归直线的拟合效果,故C正确;
对于D,由三次函数y=0.168x3+28.141x2-29.027x+6.889,当x=11时,y=3316.261亿元,故D错误.
故选ABC.
三、填空题:本题共4小题,每小题5分,共20分.请把正确答案填在题中的横线上.
13.一组样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n),都在直线y=-x-3上,则这组样本数据的相关系数r= .
答案:-1
解析:根据方程可知这两个变量负相关,即这组数据的样本相关系数为负值,又所有的样本点(xi,yi)(i=1,2,…,n)都在一条直线上,则有|r|=1,即r=-1.
14.某小卖部为了解热茶销售量y(单位:杯)与气温x(单位:℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温度数,并制作了对照表:
气温/℃
18
13
10
-1
杯数/杯
24
34
38
64
由表中数据算得经验回归方程x+中的≈-2,预测当气温为-5 ℃时,热茶销售量大约为 杯.
答案:70
解析:根据表格中的数据可求得×(18+13+10-1)=10,
×(24+34+38+64)=40,
∴=40-(-2)×10=60,
∴经验回归方程为=-2x+60.
故当x=-5时,=-2×(-5)+60=70.
15.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:这种血清不能起到预防感冒的作用.利用2×2列联表计算得χ2≈3.918,经查临界值表知P(χ2≥3.841)=0.05.则下列结论中正确的序号是 .
①根据小概率值α=0.05的独立性检验,有充分证据推断这种血清能起到预防感冒的作用;
②若某人未使用该血清,则他在一年中有95%的可能性得感冒;
③这种血清预防感冒的有效率为95%;
④这种血清预防感冒的有效率为5%.
答案:①
16.某种细胞的存活率表示为y%,其中y与存放温度x(单位:℃)之间具有线性相关关系,其样本数据如表所示:
存放温度x/℃
20
15
10
5
0
-5
-10
y
6
14
26
33
43
60
63
计算得=5,=35,xiyi=-175,=875,并求得经验回归方程为=-2x+45,但实验人员发现表中数据x=-5的对应值y=60录入有误,更正为y=53,则更正后的经验回归方程为 .
答案:=-1.9x+43.5
解析:由题意可得,更正后的=5,×(35×7-60+53)=34,
xiyi=-175+5×60-5×53=-140,=875,
所以=-1.9,=34+1.9×5=43.5,
故更正后的经验回归方程为=-1.9x+43.5.
四、解答题:本题共6小题,共70分.解答应写出必要的文字说明、证明过程或演算步骤.
17.(10分)为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到的统计结果如下表所示:
表1:男生上网时间与频数分布表
上网时间/分
[30,40)
[40,50)
[50,60)
[60,70)
[70,80]
人数
5
25
30
25
15
表2:女生上网时间与频数分布表
上网时间/分
[30,40)
[40,50)
[50,60)
[60,70)
[70,80]
人数
10
20
40
20
10
(1)若该大学共有女生7 500人,试估计其中上网时间不少于60分钟的人数.
(2)完成下面的2×2列联表,根据小概率值α=0.1的独立性检验,能否推断出大学生上网时间与性别有关?
单位:人
性别
上网时间
合计
上网时间少于60分钟
上网时间不少于60分钟
男生
女生
合计
附:χ2=,其中n=a+b+c+d为样本容量.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
解:(1)设上网时间不少于60分钟的人数为x,依题意有,解得x=2250,
估计其中上网时间不少于60分钟的人数是2250.
(2)填列联表如下:
单位:人
性别
上网时间
合计
上网时间少于
60分钟
上网时间不少于
60分钟
男生
60
40
100
女生
70
30
100
合计
130
70
200
零假设为H0:大学生上网时间与性别无关.
由表中数据可得到χ2=≈2.20<2.706=x0.1.
根据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,
即认为大学生上网时间与性别无关.
18.(12分)期中考试后,对某班60名学生的成绩优秀和不优秀与学生近视和不近视的情况进行调查,其中成绩优秀的36名学生中,有20人近视,另外24名成绩不优秀的学生中,有6人近视.
(1)请列出列联表并画出等高堆积条形图,判断成绩与患近视是否有关系.
(2)根据小概率值α=0.05的独立性检验,能否推断出成绩与患近视有关?
解(1)列联表如下:
单位:人
成绩
是否近视
合计
近视
不近视
成绩优秀
20
16
36
成绩不优秀
6
18
24
合计
26
34
60
等高堆积条形图如图所示:
由图知成绩与患近视有关.
(2)零假设为H0:成绩与患近视无关.
χ2=≈5.475>3.841=x0.05.
根据小概率值α=0.05的独立性检验,有充分证据推断H0不成立,即成绩与患近视有关,此推断犯错误的概率不超过0.05.
19.(12分)某个服装店经营某种服装,在某周内获纯利y(单位:元)与该周每天销售这种服装数x(单位:件)之间的一组数据关系见下表:
x/件
3
4
5
6
7
8
9
y/元
66
69
73
81
89
90
91
已知=280,=45 309,xiyi=3 487.
(1)求;
(2)判断纯利y与每天销售件数x之间是否线性相关,如果线性相关,求出经验回归方程.
解(1)=6;
.
(2)画出散点图如图,可知y与x的样本数据呈现出线性相关关系,设经验回归方程为x+.
=4.75,
-6×4.75≈51.36.
故经验回归方程为=4.75x+51.36.
20.(12分)电视传媒公司为了解某地区某类体育节目的收视情况,随机抽取了100名观众进行调查,并根据调查结果绘制了观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,根据小概率值α=0.05的独立性检验,能否推断出“体育迷”与性别有关?
单位:人
性别
是不是体育迷
合计
非体育迷
体育迷
男
女
10
55
合计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列、均值E(X)和方差D(X).
附:χ2=
α
0.05
0.01
xα
3.841
6.635
解(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而列联表如下:
单位:人
性别
是不是体育迷
合计
非体育迷
体育迷
男
30
15
45
女
45
10
55
合计
75
25
100
零假设为H0:“体育迷”与性别无关.
将2×2列联表中的数据代入公式计算,得
χ2===≈3.030<3.841=x0.05.
根据小概率值α=0.05的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即“体育迷”与性别无关.
(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为.
由题意知X~B,从而X的分布列为
X
0
1
2
3
P
E(X)=np=3×,
D(X)=np(1-p)=3×.
21.(12分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加,为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法.并说明理由.
附:样本相关系数r=≈1.414.
解(1)由已知得样本平均数yi=60,从而该地区这种野生动物数量的估计值为60×200=12000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r=≈0.94.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
22.(12分)某公司为了解年研发资金投入量x(单位:亿元)对年销售额y(单位:亿元)的影响.对公司近12年的年研发资金投入量xi和年销售额yi的数据,进行了对比分析,建立了两个函数模型:y=α+βx2和y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数,并得到一些统计量的值.令ui=,vi=ln yi(i=1,2,…,12),经计算得如下数据:
(xi-)2
(yi-)2
20
66
77
2
460
4.20
(ui-)2
(ui-
)(yi-)
(vi-)2
(xi-
)(vi-)
31 250
215
3.08
14
(1)请从样本相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的选择及表中数据,①建立y关于x的经验回归方程;
②若下一年销售额y需达到90亿元,预测下一年的研发资金投入量x是多少亿元?
附:a.样本相关系数r=,
经验回归方程x中,.
b.参考数据:308=4×77,≈9.486 8,e4.499 8≈90.
解(1)设变量u和y的样本相关系数为r1,变量x和v的样本相关系数为r2.
由题意,r1==0.86,
r2=≈0.91,
则|r1|<|r2|,从样本相关系数的角度分析,模型y=eλx+t的拟合程度更好.
(2)①先建立v关于x的经验回归方程,
由y=eλx+t,得lny=t+λx,即v=t+λx,
由于λ=≈0.18,
t=-λ=4.20-×20≈0.56,
所以v关于x的经验回归方程为=0.18x+0.56,
所以ln =0.18x+0.56,
则=e0.18x+0.56.
②下一年销售额y需达到90亿元,即=90,
代入=e0.18x+0.56,得90=e0.18x+0.56,
又e4.499 8≈90,所以4.499 8≈0.18x+0.56,
所以x≈≈21.89,
所以预测下一年的研发资金投入量约是21.89亿元.
相关资料
更多