高考数学(文数)一轮复习考点测试54《变量间的相关关系与统计案例》(教师版)
展开考纲研读
1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程
3.了解独立性检验的基本思想、方法及其简单应用
4.了解回归分析的基本思想、方法及其简单应用
一、基础小题
1.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( )
A.eq \(y,\s\up6(^))=1.23x+4 B.eq \(y,\s\up6(^))=1.23x+5
C.eq \(y,\s\up6(^))=1.23x+0.08 D.eq \(y,\s\up6(^))=0.08x+1.23
答案 C
解析 选项D显然错误.因为回归方程必过样本中心点,把点(4,5)代入选项A,B,C检验,满足的只有选项C.故选C.
2.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=eq \f(1,2)x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C.eq \f(1,2) D.1
答案 D
解析 由题设知,这组样本数据完全正相关,故其相关系数为1.故选D.
3.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:
则试验结果体现A,B两变量有更强的线性相关性的是( )
A.甲 B.乙 C.丙 D.丁
答案 D
解析 r越大,m越小,线性相关性越强,丁同学的试验结果体现A,B两变量有更强的线性相关性.故选D.
4.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )
A.100个吸烟者中至少有99人患肺癌
B.1个人吸烟,那么这人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
答案 D
解析 统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生.故选D.
5.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为eq \(y,\s\up6(^))=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(eq \(x,\s\up6(-)),eq \(y,\s\up6(-)))
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
答案 D
解析 由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本点的中心(eq \x\t(x),eq \x\t(y)),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.
6.以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=ln y,其变换后得到线性回归方程z=0.3x+4,则c=________.
答案 e4
解析 因为y=cekx,所以两边取对数,可得ln y=ln (cekx)=ln c+ln ekx=ln c+kx,令z=ln y,可得z=ln c+kx.因为z=0.3x+4,所以ln c=4,所以c=e4.
二、高考小题
7.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)).已知eq \i\su(i=1,10,x)i=225,eq \i\su(i=1,10,y)i=1600,eq \(b,\s\up6(^))=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163 C.166 D.170
答案 C
解析 ∵eq \i\su(i=1,10,x)i=225,∴eq \x\t(x)=eq \f(1,10)eq \i\su(i=1,10,x)i=22.5.
∵eq \i\su(i=1,10,y)i=1600,∴eq \x\t(y)=eq \f(1,10)eq \i\su(i=1,10,y)i=160.又eq \(b,\s\up6(^))=4,∴eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x)=160-4×22.5=70.
∴回归直线方程为eq \(y,\s\up6(^))=4x+70.将x=24代入上式得eq \(y,\s\up6(^))=4×24+70=166.
故选C.
8.某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
答案 A
解析 对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;对于选项C,D,由图可知显然正确.故选A.
三、模拟小题
9.某公司一种型号的产品近期销售情况如下表:
根据上表可得到回归直线方程eq \(y,\s\up6(^))=0.75x+eq \(a,\s\up6(^)),据此估计,该公司7月份这种型号产品的销售额约为( )
A.19.5万元 B.19.25万元 C.19.15万元 D.19.05万元
答案 D
解析 由表可知eq \x\t(x)=eq \f(1,5)×(2+3+4+5+6)=4,
eq \x\t(y)=eq \f(1,5)×(15.1+16.3+17+17.2+18.4)=16.8,
则样本中心点(4,16.8)在线性回归直线上,故16.8=0.75×4+eq \(a,\s\up6(^)),得eq \(a,\s\up6(^))=13.8.
故当x=7时,eq \(y,\s\up6(^))=0.75×7+13.8=19.05.故选D.
10.某城市收集并整理了该市2018年1月份至10月份每月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该市每月的最低气温与当月的最高气温两变量具有较好的线性关系,则根据该折线图,下列结论错误的是( )
A.每月的最低气温与当月的最高气温两变量为正相关
B.10月份的最高气温不低于5月份的最高气温
C.月温差(最高气温减最低气温)的最大值出现在1月份
D.最低气温低于0 ℃的月份有4个
答案 D
解析 由图观察可得,当最低气温较大时,最高气温也较大,故A正确;10月份的最高气温大于20 ℃,而5月份的最高气温不超过20 ℃,故B正确;从各月的温差看,1月份的温差最大,故C正确;而最低气温低于0 ℃的月份是1,2,4三个月份.故选D.
11.观察下面频率等高条形图,其中两个分类变量x,y之间关系最强的是( )
答案 D
解析 在频率等高条形图中,eq \f(a,a+b)与eq \f(c,c+d)相差很大时,我们认为两个分类变量有关系,在四个选项中(等高的条形图)中,若x1,x2所占比例相差越大,则分类变量x,y的相关性越强.故选D.
12.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是( )
A.l1和l2有交点(s,t)
B.l1与l2相交,但交点不一定是(s,t)
C.l1与l2必定平行
D.l1与l2必定重合
答案 A
解析 由题意知(s,t)是甲、乙两位同学所做试验的样本点的中心,而线性回归直线恒过样本点的中心.故选A.
13.已知x与y之间的几组数据如下表:
假设根据上表数据所得线性回归直线方程为eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)).若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.eq \(b,\s\up6(^))>b′,eq \(a,\s\up6(^))>a′ B.eq \(b,\s\up6(^))>b′,eq \(a,\s\up6(^))a′ D.eq \(b,\s\up6(^))答案 C
解析 解法一:由两组数据(1,0)和(2,2)可求得直线方程为y=2x-2,从而b′=2,
a′=-2.而利用线性回归方程的公式与已知表格中的数据,
可求得eq \(b,\s\up6(^))=eq \f(\i\su(i=1,6,x)iyi-6\x\t(x) \x\t(y),\i\su(i=1,6,x)\\al(2,i)-6\x\t(x)2)=eq \f(58-6×\f(7,2)×\f(13,6),91-6×\b\lc\(\rc\)(\a\vs4\al\c1(\f(7,2)))2)=eq \f(5,7),eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x)=eq \f(13,6)-eq \f(5,7)×eq \f(7,2)=-eq \f(1,3),所以eq \(b,\s\up6(^))a′.
选C.
解法二:根据所给数据画出散点图,如图所示,可直接判断:从l2旋转到l1,斜率变大,纵截距变小,即eq \(b,\s\up6(^))a′.选C.
一、高考大题
1.下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:eq \(y,\s\up6(^))=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:eq \(y,\s\up6(^))=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为
eq \(y,\s\up6(^))=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为
eq \(y,\s\up6(^))=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型eq \(y,\s\up6(^))=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
2.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=eq \f(nad-bc2,a+bc+da+cb+d),
解 (1)第二种生产方式的效率更高.理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)
(2)由茎叶图知m=eq \f(79+81,2)=80.列联表如下:
(3)由于K2的观测值k=eq \f(40×15×15-5×52,20×20×20×20)=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
3.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
eq \a\vs4\al(附:)
,
K2=eq \f(nad-bc2,a+bc+da+cb+d).
解 (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率的估计值为0.62×0.66=0.4092.
(2)根据箱产量的频率分布直方图得列联表
K2=eq \f(200×62×66-34×382,100×100×96×104)≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为
(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为
(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法产量的中位数的估计值为
50+eq \f(0.5-0.34,0.068)≈52.35(kg).
二、模拟大题
4.为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:
若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高条形图.
(1)根据抽样结果估计该校学生的每天平均阅读时间(同一组数据用该区间的中点值作为代表);
(2)根据已知条件完成下面的2×2列联表,并判断是否有99%的把握认为“阅读达人”跟性别有关?
附:参考公式:
K2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.
临界值表:
解 (1)该校学生的每天平均阅读时间为
10×eq \f(8,50)+30×eq \f(10,50)+50×eq \f(12,50)+70×eq \f(11,50)+90×eq \f(7,50)+110×eq \f(2,50)=1.6+6+12+15.4+12.6+4.4
=52(分钟).
(2)由频数分布表得“阅读达人”的人数是11+7+2=20(人),
根据等高条形图得2×2列联表如下:
K2=eq \f(50×6×12-18×142,20×30×24×26)=eq \f(225,52)≈4.327,
由于4.327<6.635,故没有99%的把握认为“阅读达人”跟性别有关.
5.菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但蔬菜上市时仍存在少量的残留农药,食用时需要用清水清洗干净,下表是用清水x(单位:千克)清洗该蔬菜1千克后,蔬菜上残留的农药y(单位:微克)的统计表:
(1)在右面的坐标系中,描出散点图,并判断变量x与y是正相关还是负相关;
(2)若用解析式eq \(y,\s\up6(^))=cx2+d作为蔬菜上农药残留量eq \(y,\s\up6(^))与用水量x的回归方程,令w=x2,计算平均值eq \x\t(w)与eq \x\t(y),完成以下表格,求出eq \(y,\s\up6(^))与x的回归方程(c,d保留两位有效数字);
(3)对于某种残留在蔬菜上的农药,当它的残留量低于20微克时对人体无害,为了放心食用该蔬菜,请估计需要用多少千克的清水清洗一千克蔬菜?(精确到0.1,参考数据:eq \r(5)≈2.236)
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线eq \(v,\s\up6(^))=eq \(α,\s\up6(^))+eq \(β,\s\up6(^))u的斜率和截距的最小二乘估计分别为eq \(β,\s\up6(^))=eq \f(\i\su(i=1,n,)ui-\x\t(u)vi-\x\t(v),\i\su(i=1,n,)ui-\x\t(u)2),eq \(α,\s\up6(^))=eq \x\t(v)-eq \(β,\s\up6(^))eq \x\t(u).
解 (1)
变量x与y是负相关.
(2)由题中表格易得eq \x\t(w)=11,eq \x\t(y)=38,
c=eq \f(-10×20+-7×16+-2×1+5×-9+14×-28,-102+-72+-22+52+142)=-eq \f(751,374)≈-2.0,
d=eq \x\t(y)-ceq \x\t(w)=38--eq \f(751,374)×11≈60,∴eq \(y,\s\up6(^))=-2.0w+60=-2.0x2+60.
(3)当eq \(y,\s\up6(^))<20时,-2.0x2+60<20,即x>2eq \r(5)≈4.5,
∴为了放心食用该蔬菜,估计需要用4.5千克的清水清洗一千克蔬菜.
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
月份(x)
2
3
4
5
6
销售额y/万元
15.1
16.3
17.0
17.2
18.4
x
1
2
3
4
5
6
y
0
2
1
3
3
4
超过m
不超过m
第一种生产方式
第二种生产方式
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
阅读
时间
[0,20)
[20,40)
[40,60)
[60,80)
[80,100)
[100,120)
人数
8
10
12
11
7
2
男生
女生
总计
阅读达人
非阅读达人
总计
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
男生
女生
总计
阅读达人
6
14
20
非阅读达人
18
12
30
总计
24
26
50
x
1
2
3
4
5
y
58
54
39
29
10
w
1
4
9
16
25
y
58
54
39
29
10
wi-eq \x\t(w)
yi-eq \x\t(y)
w
1
4
9
16
25
y
58
54
39
29
10
wi-eq \x\t(w)
-10
-7
-2
5
14
yi-eq \x\t(y)
20
16
1
-9
-28
2023年高考数学(文数)一轮复习课时54《变量间的相关关系统计案例》达标练习(2份,答案版+教师版): 这是一份2023年高考数学(文数)一轮复习课时54《变量间的相关关系统计案例》达标练习(2份,答案版+教师版),文件包含2023年高考数学文数一轮复习课时54《变量间的相关关系统计案例》达标练习含详解doc、2023年高考数学文数一轮复习课时54《变量间的相关关系统计案例》达标练习教师版doc等2份试卷配套教学资源,其中试卷共10页, 欢迎下载使用。
高考数学(文数)一轮复习创新思维课时练10.4《变量间的相关关系与统计案例》(教师版): 这是一份高考数学(文数)一轮复习创新思维课时练10.4《变量间的相关关系与统计案例》(教师版),共10页。试卷主要包含了已知x,y的取值如表所示等内容,欢迎下载使用。
高考数学(文数)一轮复习课时练习:10.4《变量间的相关关系与统计案例》(教师版): 这是一份高考数学(文数)一轮复习课时练习:10.4《变量间的相关关系与统计案例》(教师版),共7页。试卷主要包含了已知x,y的取值如表所示等内容,欢迎下载使用。