2020版高考理科数学(人教版)一轮复习讲义:第十一章第四节变量间的相关关系、统计案例
展开第四节变量间的相关关系、统计案例
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为=x+❶,其中==, =-.
(3)通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.❷
3.独立性检验
| y1 | y2 | 总计 |
x1 | a | b | a+b |
x2 | c | d | c+d |
总计 | a+c | b+d | a+b+c+d |
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表称为2×2列联表为
K2=(其中n=a+b+c+d为样本容量).
相关关系与函数关系异同点
共同点:二者都是指两个变量间的关系.
不同点:函数关系是一种确定性关系,体现的是因果关系;而相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系.
回归直线=x+必过样本点的中心(,),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.
r的符号表明两个变量是正相关还是负相关;|r|的大小表示线性相关性的强弱.
独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
[小题查验基础]
一、判断题(对的打“√”,错的打“×”)
(1)散点图是判断两个变量是否相关的一种重要方法和手段.( )
(2)回归直线方程=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )
(3)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.( )
(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( )
答案:(1)√ (2)× (3)× (4)√
二、选填题
1.已知变量x,y之间具有线性相关关系,其散点图如图所示,回归直线l的方程为=x+,则下列说法正确的是( )
A.>0,<0
B.>0,>0
C.<0,<0
D.<0,>0
解析:选D 由题图可知,回归直线的斜率是正数,即>0;回归直线在y轴上的截距是负数,即<0,故选D.
2.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是( )
A.l1和l2必定平行
B.l1与l2必定重合
C.l1和l2一定有公共点(s,t)
D.l1与l2相交,但交点不一定是(s,t)
解析:选C 注意到回归直线必经过样本中心点.
3.下面是2×2列联表:
| y1 | y2 | 总计 |
x1 | a | 21 | 73 |
x2 | 22 | 25 | 47 |
总计 | b | 46 | 120 |
则表中a,b的值分别为________,________.
解析:∵a+21=73,∴a=52,又a+22=b,∴b=74.
答案:52 74
4.已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为=0.95x+,则=________.
x | 0 | 1 | 3 | 4 |
y | 2.2 | 4.3 | 4.8 | 6.7 |
解析:∵回归直线必过样本点的中心(,),又=2,=4.5,代入回归方程,得=2.6.
答案:2.6
[题组练透]
1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③ D.①③②
解析:选D 第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.
2.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
解析:选C 因为y=-0.1x+1的斜率小于0,
故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关.
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
解析:选D 所有样本点均在同一条斜率为正数的直线上,则样本相关系数最大,为1,故选D.
4.变量X与Y相应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1 D.r2=r1
解析:选C 对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选C.
[名师微点]
判断相关关系的2种方法
(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.
[典例精析]
下图是我国2011年至2017年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2019年我国生活垃圾无害化处理量.
参考数据:i=9.32,iyi=40.17, =0.55,≈2.646.
参考公式:相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=- .
[解] (1)由折线图中的数据和附注中的参考数据得
=4,(ti-)2=28, =0.55,
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,
∴r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103.
=- ≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2019年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以,预测2019年我国生活垃圾无害化处理量约为1.82亿吨.
[解题技法]
1.线性回归分析问题的类型及解题方法
(1)求线性回归方程
①利用公式,求出回归系数,.
②待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
2.模型拟合效果的判断
(1)残差平方和越小,模型的拟合效果越好.
(2)相关指数R2越大,模型的拟合效果越好.
(3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
[过关训练]
1.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.
(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:
周光照量X/小时 | 30<X<50 | 50≤X≤70 | X>70 |
光照控制仪运行台数 | 3 | 2 | 1 |
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.
参考数据:≈0.55,≈0.95.
解:(1)由已知数据可得==5,
==4.
因为(xi-)(yi-)=(-3)×(-1)+0+0+0+3×1=6,
==2,
==,
所以相关系数r=== ≈0.95.
因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
(2)由条件可得在过去50周里,
当X>70时,共有10周,此时只有1台光照控制仪运行,
每周的周总利润为1×3 000-2×1 000=1 000(元).
当50≤X≤70时,共有35周,此时有2台光照控制仪运行,
每周的周总利润为2×3 000-1×1 000=5 000(元).
当30<X<50时,共有5周,此时3台光照控制仪都运行,
每周的周总利润为3×3 000=9 000(元).
所以过去50周的周总利润的平均值为
=4 600(元),
所以商家在过去50周的周总利润的平均值为4 600元.
2.某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.
(xi-)2 | (xi-)(yi-) | (ui-)2 | (ui-)(yi-) | |||
15.25 | 3.63 | 0.269 | 2 085.5 | -230.3 | 0.787 | 7.049 |
表中ui=,=i.
(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01).
(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)
附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其回归直线=+ω的斜率和截距的最小二乘估计分别为=,=-.
解:(1)由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程.
(2)令u=,先建立y关于u的线性回归方程,
由于==≈8.957≈8.96,
∴=-·=3.63-8.957×0.269≈1.22,
∴y关于u的线性回归方程为=1.22+8.96u,
∴y关于x的回归方程为=1.22+.
(3)假设印刷x千册,
依题意得10x-x≥78.840,
解得x≥10,
∴至少印刷10 000册才能使销售利润不低于78 840元.
[典例精析]
(2019·河北名校联考)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
分组 | [29.86,29.90) | [29.90,29.94) | [29.94,29.98) | [29.98,30.02) |
频数 | 12 | 63 | 86 | 182 |
| ||||
分组 | [30.02,30.06) | [30.06,30.10) | [30.10,30.14] |
|
频数 | 92 | 61 | 4 |
|
乙厂:
分组 | [29.86,29.90) | [29.90,29.94) | [29.94,29.98) | [29.98,30.02) |
频数 | 29 | 71 | 85 | 159 |
| ||||
分组 | [30.02,30.06) | [30.06,30.10) | [30.10,30.14] |
|
频数 | 76 | 62 | 18 |
|
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据完成下面2×2列联表,并判断是否有99%的把握认为“两个分厂生产的零件的质量有差异”.
甲厂 | 乙厂 | 总计 |
优质品 |
|
|
非优质品 |
|
|
总计 |
|
|
[解] (1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为×100%=72%;
乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为×100%=64%.
(2)完成的2×2列联表如下:
| 甲厂 | 乙厂 | 总计 |
优质品 | 360 | 320 | 680 |
非优质品 | 140 | 180 | 320 |
总计 | 500 | 500 | 1 000 |
由表中数据计算得,
K2=≈7.353>6.635,
所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
[解题技法]
独立性检验的一般步骤
(1)根据样本数据列出2×2列联表.
(2)计算随机变量K2的观测值k,查下表确定临界值k0:
P(K2≥k0) | 0.50 | 0.40 | 0.25 | 0.15 | 0.10 |
k0 | 0.455 | 0.708 | 1.323 | 2.072 | 2.706 |
| |||||
P(K2≥k0) | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 |
k0 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关”.
[过关训练]
(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
| 超过m | 不超过m |
第一种生产方式 |
|
|
第二种生产方式 |
|
|
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
解:(1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间高于80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间低于79 min.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分)
(2)由茎叶图知m==80.
列联表如下:
| 超过m | 不超过m |
第一种生产方式 | 15 | 5 |
第二种生产方式 | 5 | 15 |
(3)因为K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.