高中数学高考2 第2讲 变量间的相关关系与统计案例
展开
这是一份高中数学高考2 第2讲 变量间的相关关系与统计案例,共19页。试卷主要包含了变量间的相关关系,两个变量的线性相关,独立性检验,下面是2×2列联表等内容,欢迎下载使用。
第2讲 变量间的相关关系与统计案例
最新考纲
考向预测
1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).
3.了解独立性检验的思想、方法,并能初步应用独立性检验的思想方法解决一些简单的实际问题.
4.通过典型案例了解回归分析的思想方法,并能初步应用回归分析的思想、方法解决一些简单的实际问题.
命题趋势
两个变量线性相关的判断及应用,回归直线方程的求法及应用,利用2×2列联表判断两个变量的相关关系是高考考查的热点,题型为选择与填空题,或者在解答题中综合考查.
核心素养
数据分析、数学运算
1.变量间的相关关系
常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
(3)回归方程为=x+,其中=,
=-.
(4)相关系数
当r>0时,表明两个变量正相关;
当r3.841,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
答案:5%
相关关系的判断
[题组练透]
1.(多选)观察下列各图形,其中两个变量x,y具有相关关系的图是( )
解析:选CD.由题中散点图知C项中的点都分布在一条直线附近,D项中的点也分布在一条直线附近,所以C项和D项中的两个变量具有相关关系,A项和B项中的点分布杂乱无序不具有相关关系.故选CD项.
2.下列命题中正确的为( )
A.线性相关系数r越大,两个变量的线性相关性越强
B.线性相关系数r越小,两个变量的线性相关性越弱
C.残差平方和越小的模型,模型拟合的效果越好
D.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
解析:选C.线性相关系数|r|越接近1,两个变量的线性相关性越强,所以A,B错误;残差平方和越小的模型,模型拟合的效果就越好,C正确;相关指数R2来刻画回归效果,R2越接近于1,说明模型的拟合效果就越好,所以D错误.
3.某公司在2020年上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:
月份
1月份
2月份
3月份
4月份
5月份
6月份
月收入x
12.3
14.5
15.0
17.0
19.8
20.6
月支出y
5.63
5.75
5.82
5.89
6.11
6.18
根据统计资料,则( )
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
解析:选C.月收入的中位数是=16,收入增加,支出增加,故x与y有正线性相关关系.
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:当r>0时,正相关;当r0时,正相关;3 800,所以预测A贫困户在2020年能脱贫.
求回归直线方程的步骤
角度二 相关系数及其应用
(2020·高考全国卷Ⅱ节选)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1 200, (xi-)2=80, (yi-)2=9 000, (xi-)·(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01).
附:相关系数r=,≈1.414.
【解】 (1)由已知得样本平均数=yi=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r===≈0.94.
回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
(2020·武汉市学习质量检测)有人收集了某10年中某城市居民年收入(即该城市所有居民在一年内收入的总和)与某种商品的销售额的相关数据如表:
第n年
1
2
3
4
5
6
7
8
9
10
年收入x/亿元
32.0
31.0
33.0
36.0
37.0
38.0
39.0
43.0
45.0
x10
商品销售额y/万元
25.0
30.0
34.0
37.0
39.0
41.0
42.0
44.0
48.0
y10
且已知xi=380.0.
(1)求第10年的年收入x10;
(2)若该城市居民年收入x与该种商品的销售额y之间满足线性回归方程=x+,
①求该种商品第10年的销售额y10;
②若该城市居民年收入为40.0亿元,估计这种商品的销售额是多少?(精确到0.01)
附:①在线性回归方程=x+中,=,
=-;
②x-102=254.0,xiyi=12 875.0,yi=340.0.
解:(1)因为xi=380.0.
所以32+31+33+36+37+38+39+43+45+x10=380,解得x10=46.
(2)①由该城市居民年收入x与该种商品的销售额y之间满足线性回归方程=x+知=,即==,
即=,
解得y10=51.
②求得=38,=39.1,代入=x+得39.1=×38+,
解得≈-15.21,所以=x-15.21,
当x=40时,y=×40-15.21≈41.96,
故若该城市居民年收入为40.0亿元,估计这种商品的销售额是41.96万元.
独立性检验
(2020·新高考卷Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
SO2
PM2.5
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
SO2
PM2.5
[0,150]
(150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.【解】 (1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8 =64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.
(2)根据抽查数据,可得2×2列联表:
SO2
PM2.5
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
(3)根据(2)的列联表得
K2的观测值k=≈7.484.
由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
(1)独立性检验的一般步骤
①根据样本数据制成2×2列联表;
②根据公式K2=计算K2的观测值k;
③查表比较K2与临界值的大小关系,作出统计判断.
(2)解独立性检验的应用问题的关注点
①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题;
②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解K2.
(2020·长沙市统一模拟考试)为了解某校学生参加社区服务的情况,采用按性别分层抽样的方法进行调查,已知该校共有学生960人,其中男生560人,从全校学生中抽取了容量为n的样本,得到一周参加社区服务时间的统计数据如下表:
超过1小时的人数
不超过1小时的人数
男
20
8
女
12
m
(1)求m,n的值;
(2)能否有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关?
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
k=.
解:(1)由已知,该校有女生400人,故=,得m=8,
从而n=20+8+12+8=48.
(2)作出2×2列联表如下:
超过1小时的人数
不超过1小时的人数
总计
男
20
8
28
女
12
8
20
总计
32
16
48
K2的观测值k==≈0.685 73.841,所以断定主修统计专业与性别有关系,这种判断出错的可能性为0.05.
答案:4.844 0.05
7.(2020·合肥模拟)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.
(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?
(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科学类的选择与性别有关?
选择自然科学类
选择社会科学类
总计
男生
女生
总计
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
解:(1)从高一年级学生中随机抽取1人,抽到男生的概率约为=.
(2)根据统计数据,可得2×2列联表如表:
选择自然科学类
选择社会科学类
总计
男生
60
45
105
女生
30
45
75
总计
90
90
180
则K2的观测值k==≈5.143 9>5.024,
所以能在犯错误的概率不超过0.025的前提下认为科学类的选择与性别有关.
8.某市春节期间7家超市广告费支出xi(万元)和销售额yi(万元)数据如表:
超市
A
B
C
D
E
F
G
广告费支出xi(万元)
1
2
4
6
11
13
19
销售额yi(万元)
19
32
40
44
52
53
54
(1)若用线性回归模型拟合y与x的关系,求y与x的线性回归方程;
(2)若用二次函数回归模型拟合y与x的关系,可得回归方程:=-0.17x2+5x+20,经计算,二次函数回归模型和线性回归模型的R2分别约为0.93和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为3万元时的销售额.
参考数据:=8,=42,xiyi=2 794,x=708.
参考公式:=,=-.
解:(1)===1.7.
所以=-=42-1.7×8=28.4.
故y关于x的线性回归方程是=1.7x+28.4.
(2)因为0.75400
空气质量好
空气质量不好
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.解:(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如表:
空气质量等级
1
2
3
4
概率的估计值
0.43
0.27
0.21
0.09
(2)一天中到该公园锻炼的平均人次的估计值为
(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
根据列联表得
K2=≈5.820.
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
[C级 创新练]
10.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量z(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到如图所示的散点图及一些统计量的值.
x
y
w
(xi-x)2
(wi-w)2
(xi-x) ·(yi-y)
(wi-w) ·(yi-y)
46.6
563
6.8
289.8
1.6
1469
108.8
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①当年宣传费x=49千元时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v2),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为:=,=-.
解:(1)由散点图可以判断y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由===68.得=-=563-68×6.8=100.6.
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
相关试卷
这是一份高中数学高考第63讲 变量间的相关关系、统计案例(讲)(学生版),共12页。试卷主要包含了变量间的相关关系,两个变量的线性相关,独立性检验等内容,欢迎下载使用。
这是一份高中数学高考第63讲 变量间的相关关系、统计案例(达标检测)(学生版),共13页。
这是一份高中数学高考第63讲 变量间的相关关系、统计案例(讲)(教师版),共15页。试卷主要包含了变量间的相关关系,两个变量的线性相关,独立性检验等内容,欢迎下载使用。