高中数学人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用获奖课件ppt
展开残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.
例1 经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高,由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高. 在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(如下表),试根据这些数据建立树高关于胸径的经验回归方程.
分析:求一元线性回归方程的步骤:
(1)以成对样本数据描出散点图,通过散点图观察成对样本数据是否线性相关。
(2)计算样本相关系数r,判断两个变量之间的线性相关关系。(可省)
(4)残差分析:残差表、残差图及决定系数R2对回归模型的拟合效果进行评估。
以胸径为横坐标,树高为纵坐标作散点图:
散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.
用d表示胸径 , h表示树高 , 根据据最小二乘法 , 计算可得经验回归方程为
相应的经验回归直线如图所示.
3.计算残差:根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如表所示.
以胸径为横坐标,残差为纵坐标,作残差图,如图(2)所示.
观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内. 可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.
建立树的胸径和树高的关系是有实际意义的.实际上,在采伐设计、资源评估、森林规划调查等林业工作中常需测算森林蓄积量.可以从森林中抽取部分树木,通过树的胸径与树高估计抽到的每棵树的体积,进而推断整片森林的蓄积量.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.因此,建模时将胸径作为解释变量,树高作为响应变量,即树高作为响应变量是解决实际问题的需要.
例2 人们常将男 子短跑100m的高水平运动员称为“百米飞人”. 下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据. 试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.
以成对数据中的世界纪录产生年份为横坐标, 世界纪录为纵坐标作散点图, 得到右图
在左图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.
相关系数r=-0.86
将经验回归直线叠加到散点图,得到下图:
用Y表示男子短跑100m的世界纪录, t表示纪录产生的年份, 利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系. 根据最小二乘法, 由表中的数据得到经验回归方程为
问题1 从图中可以看到 , 经验回归方程较好地刻画了散点的变化趋,请再仔细观察图形,你能看出其中存在的问题吗?
例如,第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.
散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.
问题2 你能对模型进行修改,以使其更好地反映散点的分布特征吗?
仔细观察右图, 可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.
函数y=-lnx的图象具有类似的形状特征.
注意到100m短跑的第一个世界纪录产生于1896年 ,因此可设非线性回归方程为: y=f(t)=c1+c2ln(t-1895) (其中c1、c2为未知参数,且c2<0).
追问 如何利用成对数据估计参数c1和c2?
为了利用一元线性回归模型估计参数c1和c2,我们引进一个中间变量x,
令x=ln(t-1895),, 则Y=c2 x+c1
通过x=ln(t-1895) ,将年份变量数据进行变换,得到新的成对数据,如下表.
如果上表对应的散点图呈现出很强的线性相关特征,我们就可以借助一元线性回归模型和新的成对数据,对参数c1 和 c2作出估计,进而可以得到Y关于t的非线性经验回归方程.
画出上表中成对数据的散点图,
根据最小二乘法,并利用表中数据可得新的经验回归方程为
将经验回归直线叠加到散点图,如图所示:
问题3 对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?
(1) 直接观察法. 在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色).
我们发现,散点图中各散点都非常靠近②的图像, 表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.
(2) 残差分析: 残差平方和越小, 模型拟合效果越好.
用ti表示编号为i的年份数据,用yi表示编号为i的纪录数据,则经验回归方程①和②的残差计算公式分别为
两个经验回归方程的残差(精确到0.001)如下表所示.
观察各项残差的绝对值,发现经验回归方程②远远小于①,即经验回归方程②的拟合效果要远远好于①.
在一般情况下,直接比较两个模型的残差比较困难,因为在某些散点上一个模型的残差的绝对值比另一个模型小,而另一些散点的情况则相反. 可以通过比较残差的平方和来比较两个模型的效果. 由
可知Q2小于Q1. 因此在残差平方和最小的标准下,非线性回归模型
的拟合效果要优于一元线性回归模型的拟合效果.
(3)用决定系数R2来比较这两个模型的拟合效果
通过前面的讨论我们知道,当残差的平方和越小,经验回归模型的拟合效果就越好,故我们可以用决定系数R2来验证模型的拟合效果.决定系数R2的计算公式为
(与经验回归方程有关)
(与经验回归方程无关)
R2越大,表示残差平方和越小,即模型的拟合效果越好
R2越小,表示残差平方和越大,即模型的拟合效果越差.
在一元线性回归模型中 R2=r2,即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.
显然0≤R2≤1,R2越接近1,则线性回归刻画的效果越好.
由上述残差表可算出经验回归方程①和②的决定系数R2分别为
另外,我们还可以用新的观测数据来检验模型的拟合效果. 事实上,我们还有1968年之后的男子短跑100m世界纪录数据,如下表所示.
在散点图中继续绘制上表中的散点(绿色),再添加经验回归方程①所对应的经验回归直线,以及经验回归方程②所对应的经验回归曲线,得到下图.
显然绿色散点分布在蓝色经验回归曲线的附近,远离红色经验回归直线,表明经验回归方程②对于新数据的预报效果远远好于①.
问题3 在上述问题情境中,男子短跑100m世界纪录和纪录产生年份之间呈现出对数关系,能借助样本相关系数刻画这种关系的强弱吗?
在使用经验回归方程进行预测时,需注意以下问题
1.回归方程只适用于我们所研究的样本的总体;
2.我们所建立的回归方程一般都有时间性;
3.样本采集的范围会影响回归方程的适用范围;
4.不能期望回归方程得到的预报值就是预报变量的精确值. 事实上, 它是预报变量的可能取值的平均值.
问题4 本节我们学习了哪些分析模型的回归效果方法?
好的回归方程对应的残差散点图应是均匀地分布在横轴两侧的带状区域内.且带状区域越窄,说明模型拟合效果越好.
残差平方和越小,说明模型拟合效果越好.
R2越大,说明模型拟合效果越好.
人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用教学ppt课件: 这是一份人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用教学ppt课件,共24页。
高中人教A版 (2019)8.2 一元线性回归模型及其应用获奖ppt课件: 这是一份高中人教A版 (2019)8.2 一元线性回归模型及其应用获奖ppt课件,共36页。
人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用背景图课件ppt: 这是一份人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用背景图课件ppt,共18页。PPT课件主要包含了问题1,问题2,问题3,课堂小结,残差分析等内容,欢迎下载使用。