还剩18页未读,
继续阅读
所属成套资源:2020高考人教A版文科数学一轮复习文档《微点教程》
成套系列资料,整套一键下载
2020版《微点教程》高考人教A版文科数学一轮复习文档:第九章第四节 变量间的相关关系、统计案例 学案
展开
第四节 变量间的相关关系、统计案例
2019考纲考题考情
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关。
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,对于两个变量的这种相关关系,我们将它称为负相关。
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。
2.回归方程
(1)最小二乘法
使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法。
(2)回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中 , 是待定参数。
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法。
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中(,)称为样本点的中心。
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关。
r的绝对值越接近于1,表明两个变量的线性相关性越强。r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系。通常|r|大于0.75时,认为两个变量有很强的线性相关性。
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量。
(2)列联表:列出两个分类变量的频数表,称为列联表。假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量。
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验。
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(,)。
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大。
3.根据回归方程计算的值,仅是一个预报值,不是真实发生的值。
一、走进教材
1.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:
x
6
8
10
12
y
2
3
5
6
则y对x的线性回归直线方程为( )
A.=2.3x-0.7 B.=2.3x+0.7
C.=0.7x-2.3 D.=0.7x+2.3
解析 因为iyi=6×2+8×3+10×5+12×6=158,==9,==4。所以==0.7,=4-0.7×9=-2.3。故线性回归直线方程为=0.7x-2.3。故选C。
答案 C
2.(选修1-2P16习题1.2T2改编)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025。
根据表中数据,得到K2的观测值
k=≈4.844。则认为选修文科与性别有关系出错的可能性为________。
解析 K2的观测值k≈4.844>3.841,这表明小概率事件发生。根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%。
答案 5%
二、走近高考
3.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+。已知i=225,i=1 600,=4。该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163
C.166 D.170
解析 易知==22.5,==160。因为=4,所以160=4×22.5+,解得=70,所以回归直线方程为=4x+70,当x=24时,=96+70=166。故选C。
答案 C
三、走出误区
微提醒:①混淆相关关系与函数关系;②不知道回归直线必过样本点中心;③对独立性检验K2值的意义不清楚。
4.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③ D.①③②
解析 第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②。
答案 D
5.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和K2统计量研究患肺病是否与吸烟有关。计算得K2=4.453,经查阅临界值表知P(K2≥3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”。故选C。
答案 C
6.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验。根据收集到的数据(如下表),由最小二乘法求得回归方程为=0.67x+54.9。
零件数x/个
10
20
30
40
50
加工时间y/min
62
75
81
89
现发现表中有一个数据模糊看不清,则该数据为________。
解析 设表中那个模糊看不清的数据为m。由表中数据得=30,=,所以样本点的中心为,因为样本点的中心在回归直线上,所以=0.67×30+54.9,解得m=68。
答案 68
考点一 变量相关关系的判断
【例1】 (1)下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
(2)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用回归直线方程=x+近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )
A.线性相关关系较强,的值为1.25
B.线性相关关系较强,的值为0.83
C.线性相关关系较强,的值为-0.87
D.线性相关关系较弱,无研究价值
解析 (1)观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系。故选D。
(2)由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些,综上可知应选B。
答案 (1)D (2)B
相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具有相关性。
【变式训练】 (1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C.- D.1
(2)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关。下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
解析 (1)完全的线性关系,且为负相关,故其相关系数为-1。故选A。
(2)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关,故选C。
答案 (1)A (2)C
考点二 线性回归分析
【例2】 改革开放40年来,全国居民人均可支配收入由171元增加到2.6万元,中等收入群体持续扩大。我国贫困人口累计减少7.4亿人,贫困发生率下降94.4个百分点,谱写了人类反贫困史上的辉煌篇章。
某地级市共有200 000名中学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元。经济学家调查发现,当地人均可支配年收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“精准扶贫”政策,很困难的学生中有2n%转为一般困难学生,特别困难的学生中有n%转为很困难学生。现统计了该地级市2013年到2017年共5年的人均可支配年收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x取13时代表2013年,x取14时代表2014年,…依此类推,且x与y(单位:万元)近似满足关系式=x+,(2013年至2019年该市中学生人数大致保持不变)
(yi-)2
(xi-)(yi-)
0.8
3.1
1
(1)估计该市2018年人均可支配年收入为多少万元?
(2)试问该市2018年的“专项教育基金”的财政预算大约为多少万元?
附:对于一组具有线性相关关系的数据(u1,v1),(u2,v2),…,(un,vn),其回归直线方程=u+的斜率和截距的最小二乘估计分别为=,=-。
解 (1)因为=(13+14+15+16+17)=15,
所以(xi-)2=(-2)2+(-1)2+12+22=10,
所以==0.1,
=-=0.8-0.1×15=-0.7,
所以=0.1x-0.7。
当x=18时,2018年人均可支配年收入y=0.1×18-0.7=1.1(万元)。
(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生共200 000×7%=14 000人。
一般困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配年收入比2017年增长=0.1=10%。
故2018年该市特别困难的中学生有2 800×(1-10%)=2 520人,
很困难的学生有4 200×(1-20%)+2 800×10%=3 640人,
一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人。
所以2018年的“专项教育基金”的财政预算大约为5 740×0.1+3 640×0.15+2 520×0.2=1 624(万元)。
1.对变量值的预测主要是由给出的变量的值预测与其有相关关系的变量的值,一般方法是:若已知回归直线方程,则直接将数值代入求得预测值。
2.回归模型的拟合效果主要有两种途径判断
(1)利用数据的散点图,观察数据对应的点与回归直线的位置关系进行分析;
(2)利用残差进行分析,最简单的作法是选择数据中的具有代表性的点进行预报,比较预报值与真实值的差距进行分析。
【变式训练】 (2018·全国卷Ⅱ)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图。
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型。根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t。
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由。
解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元)。
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元)。
(2)利用模型②得到的预测值更可靠。
理由如下:
a.从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势。2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠。
b.从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠。
以上2种理由,答出其中一种或其他合理理由均可。
考点三 独立性检验
【例3】 (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式。为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人。第一组工人用第一种生产方式,第二组工人用第二种生产方式。根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
解 (1)第二种生产方式的效率更高。
理由如下:
①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟。因此第二种生产方式的效率更高。
②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟。因此第二种生产方式的效率更高。
③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高。
④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布。又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高。
以上4种理由,答出其中一种或其他合理理由均可。
(2)由茎叶图知m==80。列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异。
1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0。|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强。
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论。独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=计算K2的观测值k;
(3)比较观测值k与临界值的大小关系,作统计推断。
【变式训练】 某省会城市地铁将于2019年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:
月收入(单
位:百元)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75]
赞成定价
者人数
1
2
3
5
3
4
认为价格偏
高者人数
4
8
12
5
2
1
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);
(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”。
月收入不低于55百元的人数
月收入低于55百元的人数
总计
认为价格偏
高者
赞成定价者
总计
附:K2=。
P(K2≥k0)
0.05
0.01
k0
3.841
6.635
解 (1)“赞成定价者”的月平均收入为
x1=≈50.56。
“认为价格偏高者”的月平均收入为
x2==38.75,
所以“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元)。
(2)根据条件可得2×2列联表如下:
月收入不低于55百元的人数
月收入低于55百元的人数
总计
认为价格偏
高者
3
29
32
赞成定价者
7
11
18
总计
10
40
50
K2=≈6.272<6.635,
所以没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”。
1.(配合例2使用)如图是某企业2012年至2018年的污水净化量(单位:吨)的折线图。
注:年份代码1~7分别对应年份2012~2018。
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程,预测2019年该企业的污水净化量;
(3)请用数据说明回归方程预报的效果。
参考数据:=54,(ti-)(yi-)=21,≈3.74,(yi-i)2=。
参考公式:相关系数r=,
线性回归方程=+t,=,
=-。
反映回归效果的公式为:R2=1-,其中R2越接近于1,表示回归的效果越好。
解 (1)由折线图中的数据得,
=4,(ti-)2=28,(yi-)2=18,
所以r=≈0.935。
因为y与t的相关系数近似为0.935,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系。
(2)因为=54,===,
所以=-=54-×4=51,
所以y关于t的线性回归方程为=t+=t+51。
将2019年对应的t=8代入得=×8+51=57,
所以预测2019年该企业污水净化量约为57吨。
(3)因为R2=1-=1-×=1-==0.875,
所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的。
2.(配合例3使用)近代统计学的发展起源于二十世纪初,它是在概率论的基础上发展起来的,统计性质的工作则可以追溯到远古的“结绳记事”和《二十四史》中大量的关于我国人口、钱粮、水文、天文、地震等资料的记录。近几年,雾霾来袭,对某市该年11月份的天气情况进行统计,结果如下表:
表一
日期
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
天气
晴
霾
霾
阴
霾
霾
阴
霾
霾
霾
阴
晴
霾
霾
霾
日期
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
天气
霾
霾
霾
阴
晴
霾
霾
晴
霾
晴
霾
霾
霾
晴
霾
对于此种情况,该市政府为减少雾霾于次年采取了全年限行的政策。下表是一个调查机构对比以上两年11月份(该年不限行30天、次年限行30天,共60天)的调查结果:
表二
不限行
限行
总计
没有雾霾
a
有雾霾
b
总计
30
30
60
(1)请由表一中数据求a,b的值,并估计在该年11月份任取一天是晴天的概率;
(2)请用统计学原理计算,若没有90%的把握认为雾霾与限行有关系,则限行时有多少天没有雾霾?
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
(表中数据使用时四舍五入取整数)
思路点拨 (1)统计没有雾霾的天数为10,有雾霾的天数为20,晴天天数为6,根据古典概型概率公式求概率;(2)设限行时有x天没有雾霾,代入公式求K2的观测值k,再由没有90%的把握可得k≤3,化简可得一元二次不等式21x2-440x+1 500≤0,解得5≤x≤16,x∈N*。
解 (1)a=10,b=20,所求概率P==。
(2)设限行时有x天没有雾霾,则有雾霾的天数为30-x,
由题意得K2的观测值k=≤3,
代入数据化简得21x2-440x+1 500≤0,x∈[0,30],x∈N*,即(7x-30)(3x-50)≤0,解得≤x≤,
所以5≤x≤16,且x∈N*,
所以若没有90%的把握认为雾霾与限行有关系,则限行时有5~16天没有雾霾。
总结反思 独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,具体做法是根据公式K2=计算随机变量K2的观测值k,k越大,说明“两个变量有关系”的可能性越大。
2019考纲考题考情
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关。
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,对于两个变量的这种相关关系,我们将它称为负相关。
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。
2.回归方程
(1)最小二乘法
使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法。
(2)回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中 , 是待定参数。
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法。
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中(,)称为样本点的中心。
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关。
r的绝对值越接近于1,表明两个变量的线性相关性越强。r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系。通常|r|大于0.75时,认为两个变量有很强的线性相关性。
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量。
(2)列联表:列出两个分类变量的频数表,称为列联表。假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量。
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验。
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(,)。
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大。
3.根据回归方程计算的值,仅是一个预报值,不是真实发生的值。
一、走进教材
1.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:
x
6
8
10
12
y
2
3
5
6
则y对x的线性回归直线方程为( )
A.=2.3x-0.7 B.=2.3x+0.7
C.=0.7x-2.3 D.=0.7x+2.3
解析 因为iyi=6×2+8×3+10×5+12×6=158,==9,==4。所以==0.7,=4-0.7×9=-2.3。故线性回归直线方程为=0.7x-2.3。故选C。
答案 C
2.(选修1-2P16习题1.2T2改编)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025。
根据表中数据,得到K2的观测值
k=≈4.844。则认为选修文科与性别有关系出错的可能性为________。
解析 K2的观测值k≈4.844>3.841,这表明小概率事件发生。根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%。
答案 5%
二、走近高考
3.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+。已知i=225,i=1 600,=4。该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163
C.166 D.170
解析 易知==22.5,==160。因为=4,所以160=4×22.5+,解得=70,所以回归直线方程为=4x+70,当x=24时,=96+70=166。故选C。
答案 C
三、走出误区
微提醒:①混淆相关关系与函数关系;②不知道回归直线必过样本点中心;③对独立性检验K2值的意义不清楚。
4.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③ D.①③②
解析 第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②。
答案 D
5.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和K2统计量研究患肺病是否与吸烟有关。计算得K2=4.453,经查阅临界值表知P(K2≥3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”。故选C。
答案 C
6.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验。根据收集到的数据(如下表),由最小二乘法求得回归方程为=0.67x+54.9。
零件数x/个
10
20
30
40
50
加工时间y/min
62
75
81
89
现发现表中有一个数据模糊看不清,则该数据为________。
解析 设表中那个模糊看不清的数据为m。由表中数据得=30,=,所以样本点的中心为,因为样本点的中心在回归直线上,所以=0.67×30+54.9,解得m=68。
答案 68
考点一 变量相关关系的判断
【例1】 (1)下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
(2)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用回归直线方程=x+近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )
A.线性相关关系较强,的值为1.25
B.线性相关关系较强,的值为0.83
C.线性相关关系较强,的值为-0.87
D.线性相关关系较弱,无研究价值
解析 (1)观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系。故选D。
(2)由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些,综上可知应选B。
答案 (1)D (2)B
相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具有相关性。
【变式训练】 (1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C.- D.1
(2)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关。下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
解析 (1)完全的线性关系,且为负相关,故其相关系数为-1。故选A。
(2)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关,故选C。
答案 (1)A (2)C
考点二 线性回归分析
【例2】 改革开放40年来,全国居民人均可支配收入由171元增加到2.6万元,中等收入群体持续扩大。我国贫困人口累计减少7.4亿人,贫困发生率下降94.4个百分点,谱写了人类反贫困史上的辉煌篇章。
某地级市共有200 000名中学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元。经济学家调查发现,当地人均可支配年收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“精准扶贫”政策,很困难的学生中有2n%转为一般困难学生,特别困难的学生中有n%转为很困难学生。现统计了该地级市2013年到2017年共5年的人均可支配年收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x取13时代表2013年,x取14时代表2014年,…依此类推,且x与y(单位:万元)近似满足关系式=x+,(2013年至2019年该市中学生人数大致保持不变)
(yi-)2
(xi-)(yi-)
0.8
3.1
1
(1)估计该市2018年人均可支配年收入为多少万元?
(2)试问该市2018年的“专项教育基金”的财政预算大约为多少万元?
附:对于一组具有线性相关关系的数据(u1,v1),(u2,v2),…,(un,vn),其回归直线方程=u+的斜率和截距的最小二乘估计分别为=,=-。
解 (1)因为=(13+14+15+16+17)=15,
所以(xi-)2=(-2)2+(-1)2+12+22=10,
所以==0.1,
=-=0.8-0.1×15=-0.7,
所以=0.1x-0.7。
当x=18时,2018年人均可支配年收入y=0.1×18-0.7=1.1(万元)。
(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生共200 000×7%=14 000人。
一般困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配年收入比2017年增长=0.1=10%。
故2018年该市特别困难的中学生有2 800×(1-10%)=2 520人,
很困难的学生有4 200×(1-20%)+2 800×10%=3 640人,
一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人。
所以2018年的“专项教育基金”的财政预算大约为5 740×0.1+3 640×0.15+2 520×0.2=1 624(万元)。
1.对变量值的预测主要是由给出的变量的值预测与其有相关关系的变量的值,一般方法是:若已知回归直线方程,则直接将数值代入求得预测值。
2.回归模型的拟合效果主要有两种途径判断
(1)利用数据的散点图,观察数据对应的点与回归直线的位置关系进行分析;
(2)利用残差进行分析,最简单的作法是选择数据中的具有代表性的点进行预报,比较预报值与真实值的差距进行分析。
【变式训练】 (2018·全国卷Ⅱ)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图。
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型。根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t。
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由。
解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元)。
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元)。
(2)利用模型②得到的预测值更可靠。
理由如下:
a.从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势。2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠。
b.从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠。
以上2种理由,答出其中一种或其他合理理由均可。
考点三 独立性检验
【例3】 (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式。为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人。第一组工人用第一种生产方式,第二组工人用第二种生产方式。根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
解 (1)第二种生产方式的效率更高。
理由如下:
①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟。因此第二种生产方式的效率更高。
②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟。因此第二种生产方式的效率更高。
③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高。
④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布。又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高。
以上4种理由,答出其中一种或其他合理理由均可。
(2)由茎叶图知m==80。列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异。
1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0。|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强。
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论。独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=计算K2的观测值k;
(3)比较观测值k与临界值的大小关系,作统计推断。
【变式训练】 某省会城市地铁将于2019年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:
月收入(单
位:百元)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75]
赞成定价
者人数
1
2
3
5
3
4
认为价格偏
高者人数
4
8
12
5
2
1
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);
(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”。
月收入不低于55百元的人数
月收入低于55百元的人数
总计
认为价格偏
高者
赞成定价者
总计
附:K2=。
P(K2≥k0)
0.05
0.01
k0
3.841
6.635
解 (1)“赞成定价者”的月平均收入为
x1=≈50.56。
“认为价格偏高者”的月平均收入为
x2==38.75,
所以“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元)。
(2)根据条件可得2×2列联表如下:
月收入不低于55百元的人数
月收入低于55百元的人数
总计
认为价格偏
高者
3
29
32
赞成定价者
7
11
18
总计
10
40
50
K2=≈6.272<6.635,
所以没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”。
1.(配合例2使用)如图是某企业2012年至2018年的污水净化量(单位:吨)的折线图。
注:年份代码1~7分别对应年份2012~2018。
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程,预测2019年该企业的污水净化量;
(3)请用数据说明回归方程预报的效果。
参考数据:=54,(ti-)(yi-)=21,≈3.74,(yi-i)2=。
参考公式:相关系数r=,
线性回归方程=+t,=,
=-。
反映回归效果的公式为:R2=1-,其中R2越接近于1,表示回归的效果越好。
解 (1)由折线图中的数据得,
=4,(ti-)2=28,(yi-)2=18,
所以r=≈0.935。
因为y与t的相关系数近似为0.935,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系。
(2)因为=54,===,
所以=-=54-×4=51,
所以y关于t的线性回归方程为=t+=t+51。
将2019年对应的t=8代入得=×8+51=57,
所以预测2019年该企业污水净化量约为57吨。
(3)因为R2=1-=1-×=1-==0.875,
所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的。
2.(配合例3使用)近代统计学的发展起源于二十世纪初,它是在概率论的基础上发展起来的,统计性质的工作则可以追溯到远古的“结绳记事”和《二十四史》中大量的关于我国人口、钱粮、水文、天文、地震等资料的记录。近几年,雾霾来袭,对某市该年11月份的天气情况进行统计,结果如下表:
表一
日期
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
天气
晴
霾
霾
阴
霾
霾
阴
霾
霾
霾
阴
晴
霾
霾
霾
日期
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
天气
霾
霾
霾
阴
晴
霾
霾
晴
霾
晴
霾
霾
霾
晴
霾
对于此种情况,该市政府为减少雾霾于次年采取了全年限行的政策。下表是一个调查机构对比以上两年11月份(该年不限行30天、次年限行30天,共60天)的调查结果:
表二
不限行
限行
总计
没有雾霾
a
有雾霾
b
总计
30
30
60
(1)请由表一中数据求a,b的值,并估计在该年11月份任取一天是晴天的概率;
(2)请用统计学原理计算,若没有90%的把握认为雾霾与限行有关系,则限行时有多少天没有雾霾?
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
(表中数据使用时四舍五入取整数)
思路点拨 (1)统计没有雾霾的天数为10,有雾霾的天数为20,晴天天数为6,根据古典概型概率公式求概率;(2)设限行时有x天没有雾霾,代入公式求K2的观测值k,再由没有90%的把握可得k≤3,化简可得一元二次不等式21x2-440x+1 500≤0,解得5≤x≤16,x∈N*。
解 (1)a=10,b=20,所求概率P==。
(2)设限行时有x天没有雾霾,则有雾霾的天数为30-x,
由题意得K2的观测值k=≤3,
代入数据化简得21x2-440x+1 500≤0,x∈[0,30],x∈N*,即(7x-30)(3x-50)≤0,解得≤x≤,
所以5≤x≤16,且x∈N*,
所以若没有90%的把握认为雾霾与限行有关系,则限行时有5~16天没有雾霾。
总结反思 独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,具体做法是根据公式K2=计算随机变量K2的观测值k,k越大,说明“两个变量有关系”的可能性越大。
相关资料
更多