高中数学人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用优秀第2课时学案及答案
展开学习目标
1.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.
2.了解非线性回归模型.
3.会通过分析残差和利用R2判断回归模型的拟合效果.
重点难点
重点:一元线性回归模型的基本思想,经验回归方程,最小二乘法.
难点:求最小二乘估计,残差分析.
课前预习 自主梳理
知识点一:残差的概念
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的eq \(y,\s\up6(^))称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
知识点二:刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和eq \(∑,\s\up12(n),\s\d4(i=1)) (yi-eq \(y,\s\up6(^))i)2,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(3)利用R2刻画回归效果
决定系数R2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
R2=1-eq \f(\(∑,\s\up12(n),\s\d4(i=1)) (yi-\(y,\s\up6(^))i)2,\(∑,\s\up10(n),\s\d10(i=1)) (yi-\(y,\s\up6(-)))2),R2越大,即拟合效果越好,R2越小,模型拟合效果越差.
自主检测
1.判断正误,正确的画“√”,错误的画“×”.
残差平方和越接近0, 线性回归模型的拟合效果越好.( )
在画两个变量的散点图时, 响应变量在x轴上,解释变量在y轴上.( )
R2越小, 线性回归模型的拟合效果越好.( )
【答案】(1)√(2)×(3)×
2.在研究体重与身高的相关关系中,计算得到相关指数,则( )
A.是解释变量B.只有的样本符合得到的相关关系
C.体重解释了的身高D.身高解释了的体重
【答案】D
【分析】由相关指数的含义进行判断.
【详解】是因变量或响应变量,是自变量或解释变量,所以A错误.
表示解释变量对响应变量变化的贡献率,表示身高解释了的体重,所以D正确,B、C错误.故选:D
3.在最小二乘法中,用来刻画各样本点到直线“距离”的量是( )
A.B.C.D.
【答案】D
【分析】根据最小二乘法的定义判断即可;
【详解】解:由最小二乘法的定义可知,用来刻画各个样本点与直线之间的“距离”,它们的和表示这些点与直线的接近程度;
故选:D
4.某车间加工零件的数量与加工时间的统计数据如表:
现已求得上表数据的回归方程中的值为1.6,则据此回归模型可以预测,加工100个零件所需要的加工时间约为( )
A.155分钟B.156分钟C.157分钟D.158分钟
【答案】A
【分析】先求出样本中心点,然后代入求出,从而求出回归方程及可作出预测.
【详解】由题意得:,,
回归直线过样本中心点,故有,∴,
故,当时,.
故选:A.
【点睛】本题主要考查线性回归方程的求解及应用,其中回归直线过样本中心点是解题的关键,属常规考题.
5.广告费用与销售额的统计数据如下表:
根据上表可得回归方程的约等于,据此模型预估广告费用为万元时,销售额为( )
A.55万元B.53万元C.57万元D.59万元
【答案】C
【分析】根据题意,计算所给数据的样本中心点坐标,结合题意可得回归方程,将样本中心点代入其中可得的值,即可得回归直线的方程,将代入计算即可得答案.
【详解】解:根据题意,由所给的数据可得:,,
即样本中心点的坐标为
又由回归方程的约等于3,即,
则,解得,则回归方程为,
当时,,所以广告费用为万元时,销售额预计为万;
故选:C.
新课导学
学习探究
环节一 创设情境,引入课题
例 经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高,在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(表8.2-3),试根据这些数据建立树高关于胸径的经验回归方程.
表8.2-3
分析:因为要由胸径预测树高,所以要以成对样本数据的胸径为横坐标、树高为纵坐标描出散点,进而得到散点图,再根据散点图推断树高与胸径是否线性相关.如果是,再利用公式(2)计算出,即可.
解:以胸径为横坐标、树高为纵坐标作散点图,得到图8.2-9.
在图8.2-9中,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.
用d表示胸径,表示树高,根据最小二乘法,计算可得经验回归方程为
,
相应的经验回归直线如图8.2-10所示,
根据经验回归方程,由表8.2-3中胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如表8.2-4所示
表8.2-4
以胸径为横坐标,残差为纵坐标,作残差图,得到图8.2-11.
观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.
【师生互动】教师让学生总结建立线性回归模型的一般步骤.
建立线性回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量.
(2)画出解释变量与响应变量的散点图,观察它们之间的关系 (如是否存在线性关系等).
(3)由经验确定回归方程的类型.
(4)按一定规则(如最小二乘法)估计经验回归方程中的参数.
(5)得出结果后需进行线性回归分析.
①残差平方和越小,模型的拟合效果越好.
②决定系数R2取值越大,说明模型的拟合效果越好.
需要注意的是:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可.
环节二 观察分析,感知概念
问题 人们常将男子短跑100 m的高水平运动员称为“百米飞人”.表8.2-5给出了1968年之前男子短跑100 m世界纪录产生的年份和世界纪录的数据,试依据这些成对数据,建立男子短跑100 m世界纪录关于纪录产生年份的经验回归方程.
表8.2-5
以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到图8.2-12.
【师生活动】师:以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图如下图所示.由散点图可以看出,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.现在用丫表示男子短跑100m的世界纪录,f表示纪录产生的年份,你能利用一元线性回归模型求经验回归方程吗?
在图8.2-12中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.
用Y表示男子短跑100 m的世界纪录,t表示纪录产生的年份,利用一元线性回归模型
来刻画世界纪录和世界纪录产生年份之间的关系.根据最小二乘法,由表中的数据得到经验回归方程为
.①
将经验回归直线叠加到散点图,得到图8.2-13
师:在散点图中画出经验回归直线,你能看出其中存在的问题吗?
生:得到下图:
环节三 抽象概括,形成概念
观察:从图8.2-13中可以看到,经验回归方程①较好地刻画了散点的变化趋势,请再仔细观察图形,你能看出其中存在的问题吗?
以经验回归直线为参照,可以发现经验回归方程的不足之处,以及散点的更为精细的分布特征,例如,第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方,这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征
思考:你能对模型进行修改,以使其更好地反映散点的分布特征吗?
仔细观察图8.2-12,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数的图象具有类似的形状特征.注意到100 m短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线的周围,其中,为未知的参数,且.
【设计意图】目的是使学生明白,不是所有的两个变量的关系都适合用一元线性回归模型刻画.
师:这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.
师:你能对模型进行修改,以使其更好地反映散点的分布特征吗?
生:仔细观察散点图,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数的图象具有类似的形状特征.
【设计意图】提醒学生需熟悉常见非线性函数模型的特点.
用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中,是待定参数.现在问题转化为如何利用成对数据估计参数和.
为了利用一元线性回归模型估计参数和,我们引进一个中间变量x,令.通过,将年份变量数据进行变换,得到新的成对数据(精确到0.01),如表8.2-6所示.
表8.2-6
如果表8.2-6对应的散点图呈现出很强的线性相关特征,我们就可以借助一元线性回归模型和新的成对数据,对参数和作出估计,进而可以得到Y关于t的非线性经验回归方程.
在直角坐标系中画出表8.2-6中成对数据的散点图,如图8.2-14所示,散点的分布呈现出很强的线性相关特征.
因此,用一元线性回归模型
拟合表8.2-6中的成对数据,得到经验回归方程
,(*)
再在图8.2-14中画出(*)式所对应的经验回归直线,得到图8.2-15.
(1).直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色).
图8.2-15表明,经验回归方程(*)对于表8.2-6中的成对数据具有非常好的拟合精度.将图8.2-15习图8.2-13进行对比,可以发现和之间的线性相关程度比原始样本数据的线性相关程度强得多.
将代入式,得到由创纪录年份预报世界纪录的经验回归方程
②
在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色),表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.
【师生活动】师:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个经验回归方程①②,你能判断哪个经验回归方程拟合的精度更好吗?
生:散点图中各散点都非常靠近②的图象,表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.
【设计意图】分析两个模型的拟合效果,由比较不同回归模型拟合效果的需要,引出评价模型好坏的指标.
环节四 辨析理解 深化概念
下面通过残差来比较这两个经验回归方程对数据刻画的好坏.在表8.2-5中,用表示编号为的年份数据,用表示编号为的纪录数据,则经验回归方程①和②的残差计算公式分别为
(2).残差分析:残差平方和越小,模型拟合效果越好.
两个经验回归方程的残差(精确到0.001)如表8.2-7所示.观察各项残差的绝对值,发现经验回归方程②远远小于①,即经验回归方程②的合效果要远远好于①.
表8.2-5
在一般情说下,直接比较两个模型的残差比较困难,因为在某些散点上一个模型的残差的绝对值比另一个模型的小,而另一些散点的情况则相反.可以通过比较残差的平方和来比较两个模型的效果.由
,.
可知小于.因此在残差平方和最小的标准下,非线性回归模型
的拟合效果要优于一元线性回归模型
的拟合效果.
(3).利用决定系数刻画回归效果.
也可以用决定系数来比较两个模型的拟合效果,的计算公式为
在表达式中,与经验回归方程无关,残差平方和与经验回归方程有关.因此越大,表示残差平方和越小,即模型的拟合效果越好;越小,表示残差平方和越大,即模型的拟合效果越差.
由表8.2-7容易算出经验回归方程①和②的分别约为0.7325和0.9983,因此经验回归方程②的刻画效果比经验回归方程①的好很多.
用新的观测数据来检验模型的拟合效果
另外,我们还可以用新的观测数据来检验模型的拟合效果.事实上,我们还有1968年之后的男子短跑100 m世界记录数据,如表8.2-8所示.
表8.2-8
在散点图8.2-12中,绘制表8.2-8中的散点(绿色),再添加经验回归方程①所对应的经验回归直线(红色),以及经验回归方程②所对应的经验回归曲线(蓝色),得到图8.2-17显然绿色散点分布在蓝色经验回归曲线的附近,远离红色经验回归直线,表明经验回归方程②对于新数据的预报效果远远好于①.
环节五 概念应用,巩固内化
思考:在上述问题情境中,男子短跑100 m世界纪录和纪录创建年份之间呈现出对数关系,能借助于样本相关系数刻画这种关系的强弱吗?
在使用经验回归方程进行预测时,需要注意下列问题:
(1)经验回归方程只适用于所研究的样本的总体.例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系.同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干旱地区的树高与胸径之间的关系.
(2)经验回归方程一般都有时效性.例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系.
(3)解释变量的取值不能离样本数据的范围太远.一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差.
(4)不能期望经验回归方程得到的预报值就是响应变量的精确值.事实上,它是响应变量的可能取值的平均值.
师生互动:学生总结建立非线性回归模型的基本步骤.教师及时补充完善.
建立非线性经验回归模型的基本步骤:
1.确定研究对象,明确哪个是解释变量,哪个是响应变量;
2.由经验确定非线性经验回归方程的模型;
3.通过变换,将非线性经验回归模型转化为线性经验回归模型;
4.按照公式计算经验回归方程中的参数,得到经验回归方程;
5.消去新元,得到非线性经验回归方程;
6.得出结果后分析残差图是否有异常 .
判断模型的拟合效果的依据如下:
①残差平方和越小,模型的拟合效果越好.
②决定系数斤取值越大,说明模型的拟合效果越好.
需要注意的是:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可.
【设计意图】探索非线性回归分析问题的求解方法,培养学生的数学应用意识.
环节六 归纳总结,反思提升
本节课学习的概念有哪些?
(1)非线性回归模型.
(2)决定系数.
2.比较两个模型拟合效果的方法:
(1)残差法,残差越大,拟合效果越差;残差越小,拟合效果越小.
(2)R2法,R2越接近1,拟合效果越好,R2越接近0,拟合效果越差.
3.对于线性回归模型与非线性回归模型,当数据的散点图分布在直线带状区域内,则选用线性回归模型刻画;当数据的散点分布在曲线带状区域内,要先对数据进行适当变换,再利用线性回归模型进行拟合.
4. 在解决问题时,用到了哪些数学思想?
转化与化归思想.
【设计意图】通过总结,让学生进一步巩固本节所学内容,提高概括能力。
环节七目标检测,作业布置
完成教材: 第121页习题8.2第4题.
【设计意图】通过练习巩固本节所学知识,通过学生解决问题,发展学生的数学运算、逻辑推理、直观想象、数学建模的核心素养。
备用练习
1.,两个学科兴趣小组在实验室研究某粒子的运动轨迹,共同记录到粒子的一组坐标信息.小组根据表中数据,直接对作线性回归分析,得到:回归方程,决定系数.小组先将数据按照变换,进行整理,再对,作线性回归分析,得到:回归方程,决定系数.根据统计学知识,下列方程中,最有可能是该粒子运动轨迹方程的是( )
A.B.
C.D.
【答案】C
【分析】由统计学知识可知,越大,拟合效果越好,由此可得回归方程,整理得结论.
【详解】由统计学知识可知,越大,拟合效果越好,
又小组的决定系数,小组的决定系数,
小组的拟合效果好,则回归方程为,
又,即.
故选:C.
2.回归直线方程的系数a,b的最小二乘法估计使函数最小,Q函数指( )
A.B.
C.D.
【答案】A
【分析】由表示随机误差的平方和得出答案.
【详解】是指所求回归直线方程在各点的值与真实值的误差的平方和,
即.
故选:A
3.已知变量线性相关,且由观测数据算得样本平均数为,则由该观测数据得到的线性回归直线方程不可能是
A.B.
C.D.
【答案】D
【分析】由观测数的样本平均数为,即样本中心为,验证回归直线过样本中心,即可得到答案.
【详解】由题意,可知观测数的样本平均数为,即样本中心为,
ABC三选项中,代入方程都求得,
对于D项,当时,,
所以直线不可能是回归直线方程,
故选:D.
4.的取值如下表所示,从散点图分析,与线性相关,且则( )
A.8B.C.2D.
【答案】B
【分析】根据线性回归方程过样本中心点,运用代入法进行求解即可.
【详解】因为,
所以有,
故选:B
5.已知变量的成对样本数据的四个样本点,用最小二乘法得到回归方程 过点的直线方程为,给出下列4个命题:
①;
②;
③;
④点一定在直线上.
其中正确的命题的个数是( )
参考公式:,.
A.1个B.2个C.3个D.4个
【答案】C
【分析】作出散点图,再计算方程,作出,由图可判断①②③;再求样本中心点可判断④.
【详解】作出散点图,直观判断可知,,故①正确,②错误;
又,
所以,
所以
因为,所以
所以
所以的残差平方和较小,所以③正确;
由回归方程一定过样本点中心,所以④正确.
故选:C
零件数/个
12
23
31
加工时间/分
15
30
45
广告费用(万元)
1
2
4
5
销售额(万元)
10
26
35
49
编号
1
2
3
4
5
6
胸径/cm
18.1
20.1
22.2
24.4
26.0
28.3
树高/m
18.8
19.2
21.0
21.0
22.1
22.1
编号
7
8
9
10
11
12
胸径/cm
29.6
32.4
33.7
35.7
38.3
40.2
树高/m
22.4
22.6
23.0
24.3
23.9
24.7
编号
胸径/cm
树高观测值/m
树高预测值/m
残差/m
1
18.1
18.8
19.35
-0.6
2
20.1
19.2
19.85
-0.7
3
22.2
21.0
20.37
0.6
4
24.4
21.0
20.92
0.1
5
26.0
22.1
21.32
0.8
6
28.3
22.1
21.90
0.2
7
29.6
22.4
22.22
0.2
8
32.4
22.6
22.92
-0.3
9
33.7
23.0
23.24
-0.2
10
35.7
24.3
23.74
0.6
11
38.3
23.9
24.39
-0.5
12
40.2
24.7
24.86
-0.2
编号
1
2
3
4
5
6
7
8
年份
1896
1912
1921
1930
1936
1956
1960
1968
记录/s
11.80
10.60
10.40
10.30
10.20
10.10
10.00
9.95
编号
1
2
3
4
5
6
7
8
x
0.00
2.83
3.26
3.56
3.71
4.11
4.17
4.29
Y/s
11.80
10.60
10.40
10.30
10.20
10.10
10.00
9.95
编号
1
2
3
4
5
6
7
8
t
1896
1912
1921
1930
1936
1956
1960
1968
0.591
-0.284
-0.301
-0.218
-0.196
0.111
0.092
0.205
-0.001
0.007
-0.012
0.015
-0.018
0.052
-0.021
-0.022
编号
9
10
11
12
13
14
15
年份
1983
1988
1991
1991
1994
1996
1999
记录/s
9.93
9.92
9.90
9.86
9.85
9.84
9.79
编号
16
17
18
19
20
21
年份
2002
2005
2007
2008
2008
1009
记录/s
9.78
9.77
9.74
9.72
9.69
9.58
x
0
3
4
5
y
0.9
1.9
3.2
4.4
高中数学8.2 一元线性回归模型及其应用优秀导学案: 这是一份高中数学<a href="/sx/tb_c4000364_t4/?tag_id=42" target="_blank">8.2 一元线性回归模型及其应用优秀导学案</a>,文件包含人教A版数学高二选择性必修第三册821一元线性回归模型导学案原卷版docx、人教A版数学高二选择性必修第三册821一元线性回归模型导学案解析版docx等2份学案配套教学资源,其中学案共22页, 欢迎下载使用。
人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.2 一元线性回归模型及其应用学案设计: 这是一份人教A版 (2019)选择性必修 第三册<a href="/sx/tb_c4000364_t4/?tag_id=42" target="_blank">第八章 成对数据的统计分析8.2 一元线性回归模型及其应用学案设计</a>,文件包含第02讲一元线性回归模型及其应用教师版-高二数学同步精品讲义人教A版选择性必修第三册docx、第02讲一元线性回归模型及其应用学生版-高二数学同步精品讲义人教A版选择性必修第三册docx等2份学案配套教学资源,其中学案共89页, 欢迎下载使用。
人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用学案设计: 这是一份人教A版 (2019)选择性必修 第三册<a href="/sx/tb_c4000364_t4/?tag_id=42" target="_blank">8.2 一元线性回归模型及其应用学案设计</a>,共25页。学案主要包含了典例解析等内容,欢迎下载使用。