2021高三人教B版数学一轮(经典版)教师用书:第10章第3讲 变量相关关系与统计案例
展开第3讲 变量相关关系与统计案例
基础知识整合
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.回归方程与回归分析
(1)线性相关关系与回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程
①最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
②回归方程:方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定数.
(3)回归分析
①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
②样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,=(x1+…+xn),
=(y1+…+yn),=- ,(,)称为样本点的中心.
③相关系数,当r>0时,两变量正相关;当r<0时,两变量负相关;当|r|≤1且|r|越接近于1,相关程度越强;当|r|≤1且|r|越接近于0,相关程度越弱.
3.独立性检验
(1)独立性检验的有关概念
①分类变量
可用变量的不同“值”表示个体所属的不同类别的变量称为分类变量.
②2×2列联表
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
| y1 | y2 | 总计 |
x1 | a | b | a+b |
x2 | c | d | c+d |
总计 | a+c | b+d | a+b+c+d |
(2)独立性检验
利用随机变量 (其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
步骤如下:
①计算随机变量K2的观测值k,查表确定临界值k0:
P(K2≥k0) | 0.5 | 0.40 | 0.25 | 0.15 | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 |
k0 | 0.455 | 0.708 | 1.323 | 2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
②如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.
1.相关关系与函数关系的异同
共同点:二者都是指两个变量间的关系;
不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.
2.从散点图看相关性
正相关:样本点分布在从左下角到右上角的区域内;
负相关:样本点分布在从左上角到右下角的区域内.
3.回归直线=x+必过样本点的中心.
1.下面是一个2×2列联表:
| y1 | y2 | 总计 |
x1 | a | 21 | 73 |
x2 | 22 | 25 | 47 |
合计 | b | 46 | 120 |
其中a,b处填的值分别为( )
A.94 72 B.52 50
C.52 74 D.74 52
答案 C
解析 由a+21=73,得a=52,a+22=b,得b=74.故选C.
2.(2019·湖南衡阳联考)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做了试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:
| 甲 | 乙 | 丙 | 丁 |
r | 0.82 | 0.78 | 0.69 | 0.85 |
m | 106 | 115 | 124 | 103 |
则哪位同学的试验结果体现的A,B两变量有更强的线性相关性( )
A.甲 B.乙
C.丙 D.丁
答案 D
解析 r越大,m越小,线性相关性越强,故选D.
3.(2019·湖北荆州模拟)已知相关变量x和y满足关系y=-0.1x+1,相关变量y与z负相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
答案 D
解析 因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z负相关,可设z=y+,<0,则z=y+=-0.1x++,故x与z正相关.
4.通过随机询问110名不同的大学生是否爱好某项运动,得到了如下的列联表.参照附表,能得到的正确结论是( )
| 男 | 女 | 总计 |
爱好 | 40 | 20 | 60 |
不爱好 | 20 | 30 | 50 |
总计 | 60 | 50 | 110 |
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
附:,n=a+b+c+d.
P(K2≥k0) | 0.05 | 0.010 | 0.001 |
k0 | 3.841 | 6.635 | 10.828 |
答案 A
解析 由列联表中的数据可得
≈7.822>6.635,故有99%以上的把握认为“爱好该项运动与性别有关”.故选A.
5.(2020·山西太原摸底)某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元) | 4 | 2 | 3 | 5 |
销售额y(万元) | 49 | 26 | 39 | 54 |
根据上表可得回归方程=x+中的为9.4,据此模型预测广告费用为6万元时销售额约为________万元.
答案 65.5
解析 由表可计算
==3.5,==42,
因为点(3.5,42)在回归直线=x+上,且=9.4,
所以42=9.4×3.5+,解得=9.1.
故回归方程为=9.4x+9.1.令x=6,得=65.5.
故预测广告费用为6万元时销售额约为65.5万元.
核心考向突破
考向一 两个变量的相关性
角度 相关关系的判断
例1 为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用回归直线方程=x+近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )
A.线性相关关系较强,b的值为1.25
B.线性相关关系较强,b的值为0.83
C.线性相关关系较强,b的值为-0.87
D.线性相关关系较弱,无研究价值
答案 B
解析 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些,综上可知应选B.
角度 相关系数的意义
例2 (2019·广西联考)某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如表:
x | 1 | 2 | 3 | 4 |
y | 12 | 28 | 42 | 56 |
(1)在图中画出表中数据的散点图;
(2)根据(1)中的散点图拟合y与x的回归模型,并用相关系数加以说明;
(3)建立y关于x的回归方程,预测第5年的销售量约为多少?
参考数据: ,
≈2.24,xiyi=418.
参考公式:相关系数,回归方程y=a+bx的斜率和截距的最小二乘估计分别为
解 (1)作出散点图如图:
(2)由(1)中的散点图可知,各点大致分布在一条直线附近,由题中所给表格及参考数据,得
∵y与x的相关系数近似为0.9966,说明y与x的线性相关程度相当强,
∴可以用线性回归模型拟合y与x的关系.
(3)由(2),知=,=,xiyi=418,x=30,
∴==,
=- =-×=-2.
故y关于x的回归直线方程为=x-2,
当x=5时,=×5-2=71,
∴预测第5年的销售量约为71万件.
判断相关关系的两种方法
(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:利用相关系数判定,|r|越趋近于1相关性越强.
[即时训练] 1.(2020·贵阳摸底)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
答案 A
解析 易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.
2.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
零件尺寸 | 9.95 | 10.12 | 9.96 | 9.96 | 10.01 | 9.92 | 9.98 | 10.04 |
|
|
|
|
|
|
|
|
|
抽取次序 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
零件尺寸 | 10.26 | 9.91 | 10.13 | 10.02 | 9.22 | 10.04 | 10.05 | 9.95 |
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
①从这一天抽检的结果看,是否需对当天的生产过程进行检查?
②在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数
参考数据:≈0.09.
解 (1)由样本数据,得(xi,i)(i=1,2,…,16)的相关系数
≈≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)①由于=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.
②剔除离群值,即第13个数据,剩下数据的平均数为
×(16×9.97-9.22)=10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
≈16×0.2122+16×9.972≈1591.134,
剔除第13个数据,剩下数据的样本方差为
×(1591.134-9.222-15×10.022)≈0.008,
这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.
考向二 回归分析
例3 (2019·昆明模拟)某县畜牧技术员张三和李四9年来一直对该县山羊养殖业的规模进行着跟踪调查,张三提供了该县某山羊养殖场年养殖数量y(单位:万只)与相应年份x(序号)的数据表和散点图(如图所示),根据散点图,发现y与x有较强的线性相关关系,李四提供了该县山羊养殖场的个数z(单位:个)关于x的回归方程=-2x+30.
年份序号x | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
年养殖山羊 y/万只 | 1.2 | 1.5 | 1.6 | 1.6 | 1.8 | 2.5 | 2.5 | 2.6 | 2.7 |
(1)根据表中的数据和所给统计量,求y关于x的线性回归方程;
(2)试估计:①该县第一年养殖山羊多少万只?
②到第几年,该县养殖山羊的数量与第1年相比减少了?
参考统计量: (xi-)2=60, (xi-)(yi-)=12.
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=βu+α的斜率和截距的最小二乘估计分别为.
解 (1)设y关于x的线性回归方程为=x+,
因为==5,
==2,
=2-0.2×5=1.
所以y关于x的线性回归方程为=0.2x+1.
(2)①估计第x年山羊养殖的只数为·=(0.2x+1)·(-2x+30)=-0.4x2+4x+30.
令x=1,则-0.4+4+30=33.6,
故该县第一年养殖山羊约33.6万只.
②由题意,得-0.4x2+4x+30<33.6,整理得
(x-9)(x-1)>0,解得x>9或x<1(舍去),
所以到第10年该县养殖山羊的数量与第1年相比减少了.
(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.
(2)回归直线方程=x+必过样本点中心(,).
(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
(4)对非线性回归分析问题可通过适当的换元转化为线性回归分析问题求解.
[即时训练] 3.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2 | (wi-)2 | (xi-)(yi-) | (wi-) (yi-) | |||
46.6 | 563 | 6.8 | 289.8 | 1.6 | 1469 | 108.8 |
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.由于
,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值
=100.6+68=576.6,
年利润z的预报值
=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
考向三 独立性检验
例4 (1)为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对预防禽流感有效果的图形是( )
答案 D
解析 在频率等高条形图中,与相差很大时,我们认为两个分类变量有关系,在四个选项中(等高的条形图)中,选项D中不服药样本中患病的频率与服药样本中患病的频率相差最大,故选D.
(2)(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
| 满意 | 不满意 |
男顾客 | 40 | 10 |
女顾客 | 30 | 20 |
①分别估计男、女顾客对该商场服务满意的概率;
②能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
P(K2≥k0) | 0.050 | 0.010 | 0.001 |
k0 | 3.841 | 6.635 | 10.828 |
解 ①由调查数据,得男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.
女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
1.比较几个分类变量有关联的可能性大小的方法
(1)通过计算K2的大小判断:K2越大,两变量有关联的可能性越大.
(2)通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.
(3)通过计算与的大小判断:相差越大,两变量有关联的可能性越大.
2.独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式计算K2的观测值k.
(3)比较k与临界值的大小关系,作统计推断.
[即时训练] 4.(2020·南阳市一中第一次目标考试)为考察A,B两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图.根据图中信息,在下列各项中,说法最佳的一项是( )
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
答案 B
解析 由题图可得服用药物A的患病数量少于服用药物B的患病数量,而服用药物A的未患病数量多于服用药物B的未患病数量,所以药物A的预防效果优于药物B的预防效果.故选B.
5.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
| 超过m | 不超过m |
第一种生产方式 |
|
|
第二种生产方式 |
|
|
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
,
P(K2≥k0) | 0.050 | 0.010 | 0.001 |
k0 | 3.841 | 6.635 | 10.828 |
解 (1)第二种生产方式的效率更高.理由如下:
①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间超过80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间不超过79分钟.因此第二种生产方式的效率更高.
②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,且关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,且关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分)
(2)由茎叶图,知m==80.列联表如下:
| 超过m | 不超过m |
第一种生产方式 | 15 | 5 |
第二种生产方式 | 5 | 15 |
(3)由于K2的观测值k==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
则当每毫升血液酒精含量大于80毫克时,认定为“醉驾”.