


高中数学高考第2讲 变量间的相关关系、统计案例 试卷
展开
第2讲 变量间的相关关系、统计案例
一、知识梳理
1.变量间的相关关系
常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
(3)回归方程为=x+,其中=,=-.
(4)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
(1)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
(2)K2统计量
K2=(其中n=a+b+c+d为样本容量).
常用结论
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(,).
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
二、教材衍化
1.已知x与y之间的一组数据如表:
x
0
1
2
3
y
m
3
5.5
7
已求得y关于x的线性回归方程为=2.1x+0.85,则m的值为________.
答案:0.5
2.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2的观测值
k=≈4.844.则认为选修文科与性别有关系出错的可能性为________.
解析:K2的观测值k≈4.844>3.841,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
答案:5%
一、思考辨析
判断正误(正确的打“√”,错误的打“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )
(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(4)事件X,Y的关系越密切,由观测数据计算得到的K2的观测值越大.( )
(5)通过回归方程=x+可以估计和观测变量的取值和变化趋势.( )
答案:(1)× (2)√ (3)√ (4)√ (5)√
二、易错纠偏
(1)混淆相关关系与函数关系;
(2)对独立性检验K2值的意义不清楚;
(3)不知道回归直线必过样本点中心.
1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③ D.①③②
解析:选D.第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.
2.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )
附:
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
A.0.1% B.1%
C.99% D.99.9%
解析:选C.因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.
3.已知x,y的取值如下表,从散点图可以看出y与x线性相关,且回归方程为=0.95x+,则=________.
x
0
1
3
4
y
2.2
4.3
4.8
6.7
解析:由已知得=2,=4.5,因为回归方程经过点(,),所以=4.5-0.95×2=2.6.
答案:2.6
考点一 相关关系的判断(基础型)
通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.
核心素养:直观想象
1.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
解析:选C.因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关.
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:选C.由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.
3.某公司在2019年上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:
月份
1月份
2月份
3月份
4月份
5月份
6月份
收入x
12.3
14.5
15.0
17.0
19.8
20.6
支出y
5.63
5.75
5.82
5.89
6.11
6.18
根据统计资料,则( )
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
解析:选C.月收入的中位数是=16,收入增加,支出增加,故x与y有正线性相关关系.
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:>0时,正相关;<0时,负相关.
考点二 回归分析(应用型)
经历用不同估算方法描述两个变量线性相关的过程,知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程,并进一步了解回归的基本思想、方法及初步应用.
核心素养:数学建模、数据分析
角度一 线性回归方程及其应用
(2020·福州市第一学期抽测)随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:
日期
2日
7日
15日
22日
30日
温度x/℃
10
11
13
12
8
产卵数y/个
23
25
30
26
16
科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.
(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y关于x的线性回归方程;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?
附:回归直线的斜率和截距的最小二乘估计公式分别为=,=-.
【解】 (1)由已知数据得=12,=27, (xi-)(yi-)=5, (xi-)2=2.
所以==,
=-=27-×12=-3.
所以y关于x的线性回归方程为=x-3.
(2)由(1)知,y关于x的线性回归方程为=x-3.
当x=10时,=×10-3=22,|22-23|<2,
当x=8时,=×8-3=17,|17-16|<2.
所以(1)中所得的线性回归方程=x-3是可靠的.
求回归直线方程的步骤
角度二 相关系数及其应用
某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.
依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
相关系数公式:r=,
参考数据:≈0.55,≈0.95.
【解】 由已知数据可得==5,==4.
因为(xi-)(yi-)=(-3)×(-1)+0+0+0+3×1=6,
==2,
==,
所以相关系数r===≈0.95.因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
1.对两个变量x,y进行线性回归分析,计算得到相关系数r=-0.996 2,则下列说法中正确的是( )
A.x与y正相关
B.x与y具有较强的线性相关关系
C.x与y几乎不具有线性相关关系
D.x与y的线性相关关系还需进一步确定
解析:选B.因为相关系数r=-0.996 2,所以x与y负相关,因为|r|=0.996 2,非常接近1,所以相关性很强,故选B.
2.(2020·成都第一次诊断性检测)在2018年俄罗斯世界杯期间,莫斯科的部分餐厅销售了来自中国的小龙虾,这些小龙虾均标有等级代码.为得到小龙虾等级代码数值x与销售单价y(单位:元)之间的关系,经统计得到如下数据:
等级代码数值x
38
48
58
68
78
88
销售单价y/元
16.8
18.8
20.8
22.8
24
25.8
(1)已知销售单价y与等级代码数值x之间存在线性相关关系,求y关于x的线性回归方程(系数精确到0.1);
(2)若莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多少元?
参考公式:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为=,=-.
参考数据:xiyi=8 440,x=25 564.
解:(1)由题意,得==63,
==21.5,
==≈0.2,
=-=21.5-0.2×63=8.9.
故所求线性回归方程为=0.2x+8.9.
(2)由(1),知当x=98时,y=0.2×98+8.9=28.5.
所以估计该等级的中国小龙虾销售单价为28.5元.
考点三 独立性检验(应用型)
通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用.
核心素养:数学建模、数据分析
(2019·高考全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:K2=.
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【解】 (1)由调查数据知,男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.
女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)K2=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
(1)独立性检验的一般步骤
①根据样本数据制成2×2列联表;
②根据公式K2=计算K2的值;
③查表比较K2与临界值的大小关系,作出统计判断.
(2)解独立性检验的应用问题的关注点
①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题;
②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解K2.
(2020·长沙市统一模拟考试)为了解某校学生参加社区服务的情况,采用按性别分层抽样的方法进行调查,已知该校共有学生960人,其中男生560人,从全校学生中抽取了容量为n的样本,得到一周参加社区服务时间的统计数据如下表:
超过1小时
不超过1小时
男
20
8
女
12
m
(1)求m,n的值;
(2)能否有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关?
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=
解:(1)由已知,该校有女生400人,故=,得m=8,
从而n=20+8+12+8=48.
(2)作出2×2列联表如下:
超过1小时的人数
不超过1小时的人数
总计
男
20
8
28
女
12
8
20
合计
32
16
48
K2==≈0.685 7<3.841.
所以没有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关.
[基础题组练]
1.(2020·陕西西安陕师大附中等八校联考)设两个变量x和y之间具有线性相关关系,它们的相关系数为r,y关于x的回归直线方程为=kx+b,则( )
A.k与r的符号相同 B.b与r的符号相同
C.k与r的符号相反 D.b与r的符号相反
解析:选A.因为相关系数r为正,表示正相关,回归直线方程上升,r为负,表示负相关,回归直线方程下降,所以k与r的符号相同.故选A.
2.在一次对性别与说谎是否相关的调查中,得到如下数据:
说谎
不说谎
总计
男
6
7
13
女
8
9
17
总计
14
16
30
根据表中数据,得到如下结论正确的一项是( )
A.在此次调查中有95%的把握认为是否说谎与性别有关
B.在此次调查中有99%的把握认为是否说谎与性别有关
C.在此次调查中有99.5%的把握认为是否说谎与性别有关
D.在此次调查中没有充分的证据显示说谎与性别有关
解析:选D.由已知得k=≈0.002<0.455,所以在犯错误的概率不超过50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证据显示说谎与性别有关.
3.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的回归直线方程:=0.245x+0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:x变为x+1,=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.
答案:0.245
4.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体情况如下表:
专业
性别
非统计专业
统计专业
男
13
10
女
7
20
为了检验主修统计专业是否与性别有关,根据表中的数据得到K2=________(精确到0.001).若断定主修统计专业与性别有关系,这种判断出错的可能性为________.
0.025,
,
解析:由题意,根据公式可得K2=≈4.844.
因为5.024>4.844>3.841,所以断定主修统计专业与性别有关系,这种判断出错的可能性为0.05.
答案:4.844 0.05
5.某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x个月)和市场占有率(y%)的几组相关对应数据:
x
1
2
3
4
5
y
0.02
0.05
0.1
0.15
0.18
(1)根据上表中的数据,用最小二乘法求出y关于x的线性回归方程;
(2)根据上述回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过0.5%(精准到月).
解:(1)根据表中数据,
计算=×(1+2+3+4+5)=3,
=×(0.02+0.05+0.1+0.15+0.18)=0.1,
所以==0.042,
所以=0.1-0.042×3=-0.026,
所以线性回归方程为=0.042x-0.026.
(2)由上面的回归方程可知,上市时间与市场占有率正相关,
即上市时间每增加1个月,市场占有率都增加0.042个百分点;
由=0.042x-0.026>0.5,解得x≥13;
预计上市13个月时,该款旗舰机型市场占有率能超过0.5%.
6.(2020·辽宁五校模拟)进入二十一世纪以来,科技发展日新月异,工业生产更加依赖科技的发展,沈阳某企业积极进行升级,对现有设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取了200件产品作为样本,检测一项质量指标值,若该项质量指标值落在[20,40)内的产品视为合格品,否则为不合格品,图1是设备改造前的样本的频率分布直方图,表1是设备改造后的样本的频数分布表:
图1:设备改造前的样本的频率分布直方图
表1:设备改造后的样本的频数分布表
质量指标值
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
[40,45]
频数
4
36
96
28
32
4
(1)完成下面的2×2列联表,并判断是否有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关.
设备改造前
设备改造后
合计
合格品
不合格品
合计
(2)根据图1和表1提供的数据,试从产品合格率的角度对改造前后设备的优劣进行比较.
附
P(K2≥k0)
0.150
0.100
0.050
0.025
0.010
k0
2.072
2.706
3.841
5.024
6.635
K2=,其中n=a+b+c+d.
解:(1)根据题意填写2×2列联表
设备改造前
设备改造后
合计
合格品
172
192
364
不合格品
28
8
36
合计
200
200
400
K2=≈12.210>6.635,
所以有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关.
(2)根据频率分布直方图和频数分布表知,设备改造前产品为合格品的概率为=,
设备改造后产品为合格品的概率为=>,
显然设备改造后产品合格率更高,因此设备改造后性能更优.
[综合题组练]
1.(2020·兰州市诊断考试)“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:
平均每周进行长跑训练天数
不大于2
3或4
不少于5
人数
30
130
40
若某人平均每周进行长跑训练天数不少于5,则称其为“热烈参与者”,否则称为“非热烈参与者”.
(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数;
(2)根据上表的数据,填写下列2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关?
热烈参与者
非热烈参与者
总计
男
140
女
55
总计
附:K2=(n为样本容量)
P(K2≥k0)
0.500
0.400
0.250
0.150
0.100
0.050
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解:(1)以200人中“热烈参与者”的频率作为概率,则该市“热烈参与者”的人数约为20 000×=4 000.
(2)2×2列联表为
热烈参与者
非热烈参与者
总计
男
35
105
140
女
5
55
60
总计
40
160
200
K2=≈7.292>6.635.
故能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关.
2.(2020·长沙市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如下表:
月份
1
2
3
4
5
6
广告投入量/万元
2
4
6
8
10
12
收益/万元
14.21
20.31
31.8
31.18
37.83
44.67
他们用两种模型①y=bx+a,②y=aebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:
xiyi
x
7
30
1 464.24
364
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除.
①剔除异常数据后,求出(1)中所选模型的回归方程;
②广告投入量x=18时,(1)中所选模型收益的预报值是多少?
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为:==,=-.
解:(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.
(2)①剔除异常数据,即3月份的数据后,得
=×(7×6-6)=7.2,
=×(30×6-31.8)=29.64.
xiyi=1 464.24-6×31.8=1 273.44,
x=364-62=328.
====3,
=-=29.64-3×7.2=8.04.
所以y关于x的回归方程为=3x+8.04.
②把x=18代入①中所求回归方程得=3×18+8.04=62.04.
故预报值为62.04万元.
