- 专题04 二项式定理——2022-2023学年高二数学下学期期末知识点精讲+训练学案+期末模拟卷(苏教版2019选择性必修第二册) 学案 0 次下载
- 专题07 二项分布、超几何分布与正态分布——2022-2023学年高二数学下学期期末知识点精讲+训练学案+期末模拟卷(苏教版2019选择性必修第二册) 学案 0 次下载
- 专题09 独立性检验——2022-2023学年高二数学下学期期末知识点精讲+训练学案+期末模拟卷(苏教版2019选择性必修第二册) 学案 0 次下载
- 高二数学下学期期末模拟卷01——2022-2023学年高二数学下学期期末知识点精讲+训练学案+期末模拟卷(苏教版2019选择性必修第二册) 学案 0 次下载
- 高二数学下学期期末模拟卷02——2022-2023学年高二数学下学期期末知识点精讲+训练学案+期末模拟卷(苏教版2019选择性必修第二册) 学案 0 次下载
专题08 变量间的相关关系及回归模型——2022-2023学年高二数学下学期期末知识点精讲+训练学案+期末模拟卷(苏教版2019选择性必修第二册)
展开专题08 变量间的相关关系及线性回归分析
知识点1 变量的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.与函数关系不同,相关关系是一种非确定性关系;
(2)如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关;
(3)一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,就称这两个变量线性相关.
知识点2 样本相关系数
(1)样本相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2 ;
(2)样本相关系数r的性质
①当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系;
②样本相关系数r的取值范围为[-1,1].当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
知识点3 一元线性回归模型
(1)经验回归直线:从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做经验回归直线;
(2)经验回归方程:y=bx+a,
其中b=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nx y∑i=1nxi2-nx2,a=y-bx;
(3)最小二乘法:通过求Q=∑i=1n(yi-bxi-a)2的最小值而得到经验回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
知识点4 判断回归模型的拟合效果
由成对样本数据(xi,yi)(i=1,2,…,n)按照最小二乘法得到经验回归方程y=bx+a,其中y叫做观测值,y叫做预测值,残差e=y-y.相对于样本点(xi,yi)的随机误差ei=yi-yi=yi-(bxi+a).
(1)残差分析法
①作残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图;
②残差分析:残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.
(2)决定系数 (R2)法:R2=1-∑i=1n(yi-yi)2∑i=1n(yi-y)2其中y=1n∑i=1nyi.R2的值越趋近于1,模型的拟合效果越好.
考点1 成对数据的相关性
【例1】已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是 ( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
【总结】判定两个变量相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关;
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强;
(3)经验回归方程:当b>0时,正相关;当b<0时,负相关.
【变式1-1】对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是 ( )
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
【变式1-2】对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断 ( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
【变式1-3】(多选)下列有关经验回归分析的说法中正确的有( )
A.经验回归直线必过点(,)
B.经验回归直线就是散点图中经过样本数据点最多的那条直线
C.当样本相关系数r>0时,两个变量正相关
D.如果两个变量的相关性越弱,则|r|就越接近于0
【变式1-4】在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C. D.1
考点2 样本相关系数
【例2】(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积xi
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量yi
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得∑i=110xi2=0.038,∑i=110yi2=1.615 8,∑i=110xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2,1.896≈1.377.
【总结】样本相关系数r的统计含义及应用
(1)由r的正、负可判断成对样本数据中两相关变量是正相关还是负相关;
(2)可根据|r|的大小从量的角度判断成对样本数据是否具有线性相关性,进而可知能否用经验回归方程进行分析和预测;
(3)当|r|≤0.25时,即便求得了经验回归方程也没有任何统计意义.
【变式2-1】第24届冬奥会于2022年2月4日在北京市和张家口市联合举行,此项赛事大大激发了国人冰雪运动的热情.某滑雪场在冬奥会期间开业,下表统计了该滑雪场开业第x天的滑雪人数(单位:百人)的数据:
天数代码x
1
2
3
4
5
6
7
滑雪人数y/百人
11
13
16
15
20
21
23
根据第1至7天的数据分析,可用线性回归模型拟合y与x的关系,请用样本相关系数加以说明(保留两位有效数字).
参考数据:∑i=17xiyi=532,∑i=17(xi-x)2∑i=17(yi-y)2≈57.5.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其相关系数r=∑i=1n(ui-u)(vi-v)∑i=1n(ui-u)2∑i=1n(vi-v)2.
【变式2-2】毛绒玩具是由毛绒面料与其他纺织材料为主要面料,内部填塞各种填充物而制成的玩具,色差和色度是衡量毛绒玩具质量优劣的重要指标之一,现抽检一批该产品测得以下数据:
色差X
21
23
25
27
29
31
色度Y
15
16
17
21
22
23
由大量实验数据可知该产品的色差和色度之间满足线性相关关系,且y=0.25x+a,现有一对测量数据为(32,21.25),则该组数据的残差为 ( )
A.0.65 B.0.75
C.-0.75 D.0.95
【变式2-3】(多选)下列说法正确的是 ( )
A.设有一个经验回归方程y=3-5x,变量x增加一个单位时,y平均增加5个单位
B.若两个具有线性相关关系的变量的相关性越强,则样本相关系数r的值越接近于1
C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
D.在一元线性回归模型中,决定系数R2越接近于1,说明回归的效果越好
【变式2-4】(多选)下列选项中正确的是( )
A.经验回归分析中,R2的值越大,说明残差平方和越小
B.若一组观测数据(x1,y1),(x2,y2),…,(xn,yn)满足yi=bxi+a+ei(i=1,2,…,n),若ei恒为0,则R2=1
C.经验回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法
D.画残差图时,纵坐标为残差,横坐标一定是编号
【总结】判定两个变量相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.
(3)经验回归方程:当>0时,正相关;当<0时,负相关.
考点3 线性经验回归问题
【例3】某研究机构为调查人的最大可视距离y(单位:米)和年龄x(单位:岁)之间的关系,对不同年龄的志愿者进行了研究,收集数据得到下表:
x
20
25
30
35
40
y
167
160
150
143
130
(1)根据上表提供的数据,求出y关于x的经验回归方程y=bx+a;
(2)根据(1)中求出的经验回归方程,估计年龄为50岁的人的最大可视距离.
参考公式:经验回归方程y=bx+a中斜率和截距的最小二乘估计公式分别为b=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nxy∑i=1nxi2-nx2,a=y-bx.
【总结】
1.线性回归分析问题的解题策略
(1)利用公式,求出回归系数b;
(2)利用经验回归直线过样本点的中心求系数a;
(3)利用经验回归方程进行预测,把回归方程看作一次函数,将解释变量x的值代入,得到预测变量y的值.
2.求经验回归方程的步骤
【变式3-1】已知变量x与y,且观测数据如下表(其中6.5>a>4>b>1,a+b=6),则由该观测数据算得的经验回归方程可能是 ( )
x
1
2
3
4
5
y
6.5
a
4
b
1
A.y=0.4x+2.3 B.y=2x-2.4
C.y=-2x+9.5 D.y=-0.3x+0.44
【变式3-2】树木根部半径与树木的高度呈正相关,即树木根部越粗,树木的高度也就越高.某块山地上种植了A树木,某农科所为了研究A树木的根部半径与树木的高度之间的关系,从这些地块中用简单随机抽样的方法抽取6棵A树木,调查得到A树木根部半径x(单位:米)与A树木高度y(单位:米)的相关数据如表所示:
x
0.1
0.2
0.3
0.4
0.5
0.6
y
1.1
1.3
1.6
1.5
2.0
2.1
(1)求y关于x的经验回归方程;
(2)对(1)中得到的经验回归方程进行残差分析,若某A树木的残差为零则认为该树木“长势标准”,在此片树木中随机抽取1棵树木,估计这棵树木“长势标准”的概率.
参考公式:经验回归方程为y=bx+a,其中b=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nxy∑i=1nxi2-nx2,a=y-bx.
【变式3-3】某公司在2018~2022年的收入与支出情况如下表所示:
收入x(亿元)
2.2
2.6
4.0
5.3
5.9
支出y(亿元)
0.2
1.5
2.0
2.5
3.8
根据表中数据可得经验回归方程为y=0.8x+a,依此估计该公司收入为8亿元时的支出为 ( )
A.4.2亿元 B.4.4亿元
C.5.2亿元 D.5.4亿元
【变式3-4】(多选)已知变量x,y之间的经验回归方程为y=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法正确的是 ( )
x
6
8
10
12
y
6
m
3
2
A.变量x,y之间成负相关关系
B.可以预测,当x=20时,y=-3.7
C.m=4
D.该经验回归直线必过点(9,4)
【变式3-5】某市物价部门对本市的5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元/件)和销售量y(件)的数据如下表所示:
售价x
9
9.5
m
10.5
11
销售量y
11
n
8
6
5
由散点图可知,销售量y与售价x之间有较强的线性相关关系,其经验回归方程是y=-3.2x+40,且m+n=20,则其中的n= .
【变式3-6】国际青年物理学家竞赛(简称IYPT)是当今最受重视的中学生顶级国际物理赛事,某中学物理兴趣小组通过实验对其中一道竞赛题的两个物理量u、v进行测量,得到10组数据(u1,v1),(u2,v2),…,(u10,v10),通过散点图发现具有较强的线性相关关系,并且利用最小二乘法求得经验回归方程为v=1.5u+1,由于数据保存失误导致∑i=110vi丢失,但∑i=110ui=50被保存,通过所学知识可以求得∑i=110vi= .
【变式3-7】有人收集了某10年中某城市居民年收入x(即该城市所有居民在一年内收入的总和,单位:亿元)与某种商品的销售额y(单位:万元)的相关数据如下表:
第n年
1
2
3
4
5
x
32.0
31.0
33.0
36.0
37.0
y
25.0
30.0
34.0
37.0
39.0
第n年
6
7
8
9
10
x
38.0
39.0
43.0
45.0
x10
y
41.0
42.0
44.0
48.0
y10
且已知∑i=110xi=380.0.
(1)求第10年的年收入x10;
(2)若该城市居民年收入x与该种商品的销售额y之间满足经验回归方程y=363254x+a,求该种商品第10年的销售额y10.
附:在经验回归方程y=bx+a中,b=∑i=1nxiyi-nxy∑i=1nxi2-nx2,a=y-bx;∑i=110xi2-10x2=254.0,∑i=19xiyi=12 875.0,∑i=19yi=340.0.
【变式3-8】(多选)已知由样本数据(xi,yi),i=1,2,3,4,5,6求得的经验回归方程为y=2x+1,且x=3.现发现一个样本数据(8,12) 误差较大,去除该数据后重新求得的经验回归直线l 的纵截距依然是1,则下列说法正确的是 ( )
A.去除前变量x 每增加1 个单位,变量y 一定增加2 个单位
B.去除后剩余样本数据中x 的平均数为2
C.去除后的经验回归方程为y=2.5x+1
D.去除后样本相关系数r 变大
【变式3-9】根据下面的数据,求得y关于x的经验回归方程为y=19.2x+12,则这组数据相对于所求的经验回归方程的4个残差的方差为 .(注:残差是指实际观测值与预测值之间的差)
x
1
2
3
4
y
32
48
72
88
【变式3-10】某品牌餐饮公司准备在10个规模相当的地区开设加盟店,为合理安排各地区加盟店的个数,先在其中5个地区进行试点,得到试点地区加盟店个数x及单店日平均营业额y(万元)的数据如下:
x
1
2
3
4
5
y
10.9
10.2
9.0
7.8
7.1
由表可得y关于x线性相关,为保证规模和效益,该公司要求在其他5个地区需满足同一地区所有加盟店的日平均营业额预计值总和不低于35万元,则一个地区开设的加盟店个数m的所有可能取值为 .(参考数据:∑i=15xiyi=125,∑i=15xi2=55)
【变式3-11】当今社会面临职业选择时,越来越多的青年人选择通过创业、创新的方式实现人生价值.小明是一名刚毕业的大学生,通过直播带货的方式售卖自己家乡的特产,下面是他近5个月的家乡特产收入y(单位:万元)的情况,如表所示.
月份
5
6
7
8
9
时间代号t
1
2
3
4
5
家乡特产收入y
3
2.4
2.2
2
1.8
(1)根据5月至9月的数据,求y与t之间的样本相关系数(精确到0.001),并判断相关性;
(2)求出y关于t的经验回归方程(结果中b保留两位小数),并预测10月收入能否突破1.5万元,请说明理由.
附:样本相关系数r=∑i=1ntiyi-nty∑i=1nti-t2∑i=1nyi-y2(若|r|>0.75,则线性相关程度很强).一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归方程y=bx+a的斜率和截距的最小二乘估计公式分别为b=∑i=1nxiyi-nxy∑i=1nxi2-nx2,a=y-bx.
【变式3-12】中国茶文化博大精深,已知茶水的口感与茶叶类型以及水温有关.经验表明,某种绿茶用85 ℃的水泡制,再等到茶水温度降至60 ℃时饮用,可以产生最佳口感.某学习研究小组通过测量,得到了下面表格中的数据(室温是20 ℃).
泡制时间x/min
0
1
2
3
4
水温y/℃
85
79
74
71
65
(1)小组成员根据上面表格中的数据绘制散点图,并根据散点图分布情况,考虑到茶水温度降到室温(即20 ℃)就不能再降的事实,决定选择函数模型y=kcx+20(x≥0)来刻画.
①令z=ln(y-20),求出z关于x的经验回归方程;
②利用①的结论,求出y=kcx+20(x≥0,c>0)中的k与c.
(2)你认为该品种绿茶用85 ℃的水大约泡制多久后饮用,可以产生最佳口感?
参考数据:ln 65≈4.2,ln 59≈4.1,ln 54≈4.0,ln 51≈3.9,ln 45≈3.8,log0.90.6≈4.8,e-0.1≈0.9,e4.2≈66.7,400667≈0.6.参考公式:z=bx+a,b=∑i=1n(xi-x)(zi-z)∑i=1n(xi-x)2,a=z-bx.
【变式3-13】下表是关于某设备的使用年限x(单位:年)和所支出的维修费用y(单位:万元)的统计表.
x
2
3
4
5
6
y
3.4
4.2
5.1
5.5
6.8
由上表可得经验回归方程=0.81x+,若规定:维修费用y不超过10万元,一旦大于10万元时,该设备必须报废.据此模型预测,该设备使用年限的最大值约为( )
A.7 B.8 C.9 D.10
考点4 非线性经验回归问题
【例4】数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,且不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛,赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度y(秒)与训练天数x(天)有关,经统计得到如表的数据:
x(天)
1
2
3
4
5
6
7
y(秒)
990
990
450
320
300
240
210
(1)现用y=a+bx作为经验回归模型,请利用表中数据,求出该经验回归方程;
(2)请用第(1)题的结论预测,小明经过100天训练后,每天解题的平均速度y约为多少秒?
参考数据其中ti=1xi:∑i=17tiyi=1 845,t=0.37,
∑i=17ti2-7t2=0.55.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线v=α+βu的斜率和截距的最小二乘估计公式分别为:β=∑i=1nuivi-nu·v∑i=1nui2-nu2,α=v-β·u.
【总结】 有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,如通过换元或取对数等方法,把问题化为线性回归分析问题,使之得到解决.
【变式4-1】某学校开展研究性学习活动,某同学获得一组实验数据如下表:
x
1.99
3
4
5.1
6.12
y
1.5
4.04
7.5
12
18.01
对于表中数据,现给出以下拟合曲线,其中拟合程度最好的是 ( )
A.y=2x-2 B.y=12x C.y=log2x D.y=12(x2-1)
【变式4-2】已知x和y的散点图如图所示,在相关关系中,若用y=c1ec2x拟合时的决定系数为R12,用y=bx+a拟合时的决定系数为R22,则R12,R22中较大的是 .
【变式4-3】用模型y=cekx拟合一组数据时,为了求出经验回归方程,设z=ln y,其变换后得到经验回归方程为z=0.5x+2,则c等于( )
A.0.5 B.e0.5 C.2 D.e2
高二数学下学期期末模拟卷02——2022-2023学年高二数学下学期期末知识点精讲+训练学案+期末模拟卷(苏教版2019选择性必修第二册): 这是一份高二数学下学期期末模拟卷02——2022-2023学年高二数学下学期期末知识点精讲+训练学案+期末模拟卷(苏教版2019选择性必修第二册),文件包含高二数学下学期期末模拟卷02解析版docx、高二数学下学期期末模拟卷02原卷版docx等2份学案配套教学资源,其中学案共15页, 欢迎下载使用。
高二数学下学期期末模拟卷01——2022-2023学年高二数学下学期期末知识点精讲+训练学案+期末模拟卷(苏教版2019选择性必修第二册): 这是一份高二数学下学期期末模拟卷01——2022-2023学年高二数学下学期期末知识点精讲+训练学案+期末模拟卷(苏教版2019选择性必修第二册),文件包含高二数学下学期期末模拟卷01解析版docx、高二数学下学期期末模拟卷01原卷版docx等2份学案配套教学资源,其中学案共12页, 欢迎下载使用。
专题09 独立性检验——2022-2023学年高二数学下学期期末知识点精讲+训练学案+期末模拟卷(苏教版2019选择性必修第二册): 这是一份专题09 独立性检验——2022-2023学年高二数学下学期期末知识点精讲+训练学案+期末模拟卷(苏教版2019选择性必修第二册),文件包含专题09独立性检验解析版docx、专题09独立性检验原卷版docx等2份学案配套教学资源,其中学案共35页, 欢迎下载使用。