2020版新一线高考理科数学一轮复习教学案:第9章第3节 变量间的相关关系、统计案例
展开第三节 变量间的相关关系、统计案例
[考纲传真] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用.
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为=x+,其中=,=-.
(3)通过求Q= (yi-bxi-a)2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
(5)相关指数:R2=1-.其中(yi-i)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.
3.独立性检验
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
| y1 | y2 | 总计 |
x1 | a | b | a+b |
x2 | c | d | c+d |
总计 | a+c | b+d | a+b+c+d |
K2=(其中n=a+b+c+d).
1.从散点图观察相关性;
(1)正相关:样本点分布在从左下角到右上角的区域;
(2)负相关:样本点分布在从左上角到右下角的区域.
2.的几何意义:体现平均增加或平均减少.
3.线性回归方程=x+一定过样本点的中心(,).
4.由回归直线求出的数据是估算值,不是精确值.
[基础自测]
1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系. ( )
(2)只有两个变量有相关关系,所得到的回归模型才有预测价值. ( )
(3)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大. ( )
(4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )
[答案] (1)× (2)√ (3)√ (4)×
2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
C [“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.]
3.(教材改编)已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
A [因为变量x和y正相关,排除选项C,D.又样本中心(3,3.5) 在回归直线上,排除B,选项A满足.]
4.下面是2×2列联表:则表中a,b的值分别为( )
| y1 | y2 | 合计 |
x1 | a | 21 | 73 |
x2 | 22 | 25 | 47 |
合计 | b | 46 | 120 |
A.94,72 B.52,50
C.52,74 D.74,52
C [∵a+21=73,∴a=52.又a+22=b,∴b=74.]
5.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )
附:
P(K2≥k0) | 0.100 | 0.050 | 0.025 | 0.010 | 0.001 |
k0 | 2.706 | 3.841 | 5.024 | 6.635 | 10.828 |
A.0.1% B.1%
C.99% D.99.9%
C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]
相关关系的判断 |
1.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
C [因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关.]
2.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:
| 甲 | 乙 | 丙 | 丁 |
r | 0.82 | 0.78 | 0.69 | 0.85 |
m | 106 | 115 | 124 | 103 |
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲 B.乙 C.丙 D.丁
D [在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.]
3.(2019·泰安月考)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x,y是负相关关系;
②在该相关关系中,若用y=c1ec2x拟合时的相关指数为R,用=x+拟合时的相关指数为R,则R>R;
③x,y之间不能建立线性回归方程.
①② [在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用=x+拟合效果要好,则R>R,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.]
[规律方法] 判定两个变量正、负相关性的方法
1画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
2相关系数:r>0时,正相关;r<0时,负相关.
3线性回归方程中:时,正相关;时,负相关.
线性回归分析及应用 |
【例1】 (2018·全国卷Ⅱ)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为
=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势,2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
[规律方法] 线性回归分析问题的类型及解题方法
1求线性回归方程:
①利用公式,求出回归系数
②待定系数法:利用回归直线过样本点中心求系数.
2利用回归方程进行预测:,把回归直线方程看作一次函数,求函数值.
3利用回归直线判断正、负相关:,决定正相关还是负相关的是系数
(2018·临沂期末)某市春节期间7家超市广告费支出xi(万元)和销售额yi(万元)数据如下表:
超市 | A | B | C | D | E | F | G |
广告费支出xi | 1 | 2 | 4 | 6 | 11 | 13 | 19 |
销售额yi | 19 | 32 | 40 | 44 | 52 | 53 | 54 |
(1)若用线性回归模型拟合y与x的关系,求y与x的线性回归方程;
(2)若用二次函数回归模型拟合y与x的关系,可得回归方程:=-0.17x2+5x+20,经计算,二次函数回归模型和线性回归模型的R2分别约为0.93和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出3万元时的销售额.
参考数据:=8,=42,=2 794,=708.
参考公式:=,=- .
[解] (1)=
==1.7,
∴=-=28.4,
故y关于x的线性回归方程是=1.7x+28.4.
(2)∵0.75<0.93,∴二次函数回归模型更合适.
当x=3时,=33.5.
故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.5万元.
独立性检验及应用 |
【例2】 (2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
| 箱产量<50 kg | 箱产量≥50 kg |
旧养殖法 |
|
|
新养殖法 |
|
|
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
z附:
P(K2≥k0) | 0.050 | 0.010 | 0.001 |
k0 | 3.841 | 6.635 | 10.828, |
K2=.
[解] (1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
| 箱产量<50 kg | 箱产量≥50 kg |
旧养殖法 | 62 | 38 |
新养殖法 | 34 | 66 |
K2的观测值k=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
[规律方法] 独立性检验的一般步骤
1根据样本数据制成2×2列联表;
2根据公式计算K2的观测值k的值;
3查表比较K2的观测值k与临界值的大小关系,作统计判断.
(2019·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.
(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?
(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?
| 选择自然科学类 | 选择社会科学类 | 合计 |
男生 |
|
|
|
女生 |
|
|
|
合计 |
|
|
|
附:K2=,其中n=a+b+c+d.
P(K2 ≥k0) | 0.500 | 0.400 | 0.250 | 0.150 | 0.100 | 0.050 | 0.025 | 0.010 | 0.005 | 0.001 |
k0 | 0.455 | 0.708 | 1.323 | 2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
[解] (1)从高一年级学生中随机抽取1人,抽到男生的概率约为=.
(2)根据统计数据,可得2×2列联表如下:
| 选择自然科学类 | 选择社会科学类 | 合计 |
男生 | 60 | 45 | 105 |
女生 | 30 | 45 | 75 |
合计 | 90 | 90 | 180 |
则K2的观测值为k==≈5.142 9>5.024,
所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.
(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
| 超过m | 不超过m |
第一种生产方式 |
|
|
第二种生产方式 |
|
|
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k0) | 0.050 | 0.010 | 0.001 |
k0 | 3.841 | 6.635 | 10.828 |
[解] (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间
分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)
(2)由茎叶图知m==80.
列联表如下:
| 超过m | 不超过m |
第一种生产方式 | 15 | 5 |
第二种生产方式 | 5 | 15 |
(3)由于K2的观测值k==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
自我感悟:______________________________________________________
________________________________________________________________
________________________________________________________________