2020高考数学文科大一轮复习导学案:第九章算法初步、统计、统计案例9.4
展开知识点一 两个变量的相关关系
1.相关关系的分类
(1)正相关:从散点图上看,点散布在从左下角到右上角的区域内;
(2)负相关:从散点图上看,点散布在从左上角到右下角的区域内.
2.线性相关关系
从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.
1.观察下列各图形,
其中两个变量x,y具有相关关系的图是( C )
A.①② B.①④ C.③④ D.②③
解析:由散点图知③④具有相关关系.
2.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( D )
A.①②③ B.②③①
C.②①③ D.①③②
解析:第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.
知识点二 回归分析
1.回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则==,=- ,其中,是回归方程的斜率,是在y轴上的截距.
2.样本相关系数
r=,用它来衡量两个变量间的线性相关关系的强弱.
(1)当r>0时,表明两个变量正相关;
(2)当r<0时,表明两个变量负相关;
(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.
3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( A )
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
解析:由相关系数的定义以及散点图所表达的含义可知r2<r4<0<r3<r1.
4.(2019·福州四校联考)某汽车的使用年数x与所支出的维修总费用y的统计数据如表:
使用年数x/年 | 1 | 2 | 3 | 4 | 5 |
维修总费用y/万元 | 0.5 | 1.2 | 2.2 | 3.3 | 4.5 |
根据上表可得y关于x的线性回归方程=x-0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( D )
A.8年 B.9年
C.10年 D.11年
解析:由y关于x的线性回归直线=x-0.69过样本点的中心(3,2.34),得=1.01,即线性回归方程为=1.01x-0.69,由=1.01x-0.69=10得x≈10.6,所以预测该汽车最多可使用11年,故选D.
知识点三 独立性检验
1.分类变量:变量的不同“值”表示个体所属的不同类型,像这类变量称为分类变量.
2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
| y1 | y2 | 总计 |
x1 | a | b | a+b |
x2 | c | d | c+d |
总计 | a+c | b+d | a+b+c+d |
K2=(其中n=a+b+c+d为样本容量),则利用独立性检验判断表来判断“X与Y的关系”.
5.在性别与吃零食这两个分类变量的计算中,下列说法正确的是③.
①若K2的观测值为k=6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%;
③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.
解析:由独立性检验的基本思想可得,只有③正确.
1.函数关系与相关关系的区别与联系
(1)区别:
①函数关系是一种确定性关系,相关关系是一种非确定性关系.
②函数关系是一种因果关系,相关关系不一定是因果关系,也可能是伴随关系.
(2)联系:对线性相关关系求回归方程后,可以通过确定的函数关系对两个变量间的取值进行估计.
2.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(,).
3.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
4.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
考向一 相关关系的判断
【例1】 (1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x,y是负相关关系;
②在该相关关系中,若用y=c1ec2x拟合时的相关系数的平方为r,用=x+拟合时的相关系数的平方为r,则r>r;
③x、y之间不能建立线性回归方程.
【解析】 (1)所有点均在直线上,则样本相关系数最大即为1.故选D.
(2)①显然正确;由散点图知,用y=c1ec2x拟合的效果比用=x+拟合的效果要好,故②正确;x,y之间能建立线性回归方程,只不过预报精度不高,故③不正确.
【答案】 (1)D (2)①②
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:>0时,正相关;<0时,负相关.
(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是( C )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:
| 甲 | 乙 | 丙 | 丁 |
r | 0.82 | 0.78 | 0.69 | 0.85 |
m | 106 | 115 | 124 | 103 |
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( D )
A.甲 B.乙 C.丙 D.丁
解析:(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.
(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.
考向二 线性回归分析
【例2】 (2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
【解】 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
以上给出了2种理由,答出其中任意一种或其他合理理由均可.
为探究车流量与PM2.5浓度是否相关,现对北方某城市中心车流量最大的地区进行检测,采集到12月某天7个不同时段车流量与PM2.5浓度的数据如下表:
车流量x |
|
|
|
|
|
|
|
(万辆/小时) | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
PM2.5浓度y |
|
|
|
|
|
|
|
(微克/立方米) | 30 | 36 | 38 | 40 | 42 | 44 | 50 |
(1)根据上表中的数据,用最小二乘法求出y关于x的线性回归方程.
(2)规定:当PM2.5浓度平均值在(0,50]内时,空气质量等级为优;当PM2.5浓度平均值在(50,100]内时,空气质量等级为良.为使该城市空气质量为优和良,利用(1)中回归方程,预测要将车流量控制在每小时多少万辆以内(结果以万辆作为单位,保留整数).
解:(1)∵=4,=40,iyi=1 200,=140,
∴==,∴=-=,
故y关于x的线性回归方程是=x+.
(2)由题意需满足x+≤100,
即x≤25,故预测要将车流量控制在每小时25万辆以内.
考向三 独立性检验
【例3】 (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
| 超过m | 不超过m |
第一种生产方式 |
|
|
第二种生产方式 |
|
|
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
【解】 (1)第二种生产方式的效率更高.
理由如下:
①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
以上给出了4种理由,答出其中任意一种或其他合理理由均可.
(2)由茎叶图知m==80.列联表如下:
| 超过m | 不超过m |
第一种生产方式 | 15 | 5 |
第二种生产方式 | 5 | 15 |
(3)由于K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,具体做法是根据公式计算随机变量K2的观测值k,k越大,说明“两个变量有关系”的可能性越大.
已知某班n名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a,b,c成等差数列,且成绩在[90,100]内的有6人.
(1)求n的值;
(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析能否在犯错误的概率不超过0.010的前提下认为“本次测试的及格情况与性别有关”?
附:
P(K2≥k0) | 0.10 | 0.05 | 0.010 | 0.005 |
k2 | 2.706 | 3.841 | 6.635 | 7.879 |
K2=.
解:(1)依题意得
解得b=0.01.
因为成绩在[90,100]内的有6人,
所以n==60.
(2)由于2b=a+c,而b=0.01,可得a+c=0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,
设及格的人中,女生有x人,则男生有x-4人,于是x+x-4=48,解得x=26,故及格的人中,女生有26人,男生有22人.
于是本次测试的及格情况与性别的2×2列联表如下:
| 及格 | 不及格 | 总计 |
男 | 22 | 8 | 30 |
女 | 26 | 4 | 30 |
总计 | 48 | 12 | 60 |
所以K2==1.667<2.706,故不能在犯错误的概率不超过0.010的前提下认为“本次测试的及格情况与性别有关”.