高中人教A版 (2019)8.2 一元线性回归模型及其应用获奖ppt课件
展开一元线性回归模型与函数模型的区别
Y称为因变量或响应变量
x称为自变量或解释变量
e是Y与bx+a之间的随机误差.
参数a和b刻画了变量Y与变量x的线性关系,因此通过样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
与函数模型不同,回归模型的参数一般是无法精确求出的,只能通过成对样本数据估计这两个参数.
问题2 如何用数学的方法刻画“从整体上看,各散点与直线最接近”?
采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置. 然后测量出此时的斜率和截距,就可得到一 条直线,如图(1)所示.
在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同,把这条直线作为所求直线,如图(2)所示.
在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距,如图(3)所示.
同学们不妨去实践一下,看看这些方法是不是真的可行.
上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径.
先进一步明确我们面临的任务: 从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.
通常,我们会想到利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
设满足一元线性回归模型的两个变量的n对样本数据为(x1, y1), (x2, y2), ‧‧‧, (xn, yn),
由yi=bxi+a+ei (i=1, 2, ‧‧‧, n),得
显然|ei|越小,表示点(xi , yi)与点(xi , bxi+a)的“距离”越小,即样本数据点离直线y=bx+a的竖直距离越小,如图所示.
特别地,当ei = 0时,表示点(xi , yi)在这条直线上.
刻画各样本观测数据与直线y=bx+a的“整体接近程度”
在上式中, xi,yi (i=1,2,…,n)是已知的成对样本数据,所以Q由a和b所决定,即它是a和b的函数.
所以我们取使Q达到最小的a和b值, 作为截距a和斜率b的估计值.
问题3 如何求a,b的值,使 最小?
上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为
人们经过长期的实践与研究,已经找到了计算回归方程的一般公式 ,其中:
问题3 如何求a,b的值,使 最小?
该公式的推导较复杂,故不作推导,但它的原理较为简单:即各点到该直线的距离的平方和最小。
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法,利用该公式求得的 叫做b, a的最小二乘估计. 这里的“二乘”是平方的意思.
得到儿子身高Y关于父亲身高x的经验回归方程为
相应的经验回归直线如图所示.
由经验回归方程可以预测儿子的身高。
儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高一般在177cm左右.
如果把父亲身高为176cm的所有儿子身高作为一个子总体,那么177cm是这个子总体均值的估计值.
英国著名统计学家高尔顿把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.
追问3 根据模型,父亲身高为多少时,长大成人的儿子的平均身高与父亲身高一样?你怎么看这个判断?
(1)请画出上表数据的散点图;
解: (1)由题设所给数据可 得散点图,如图.
(1)作出散点图,从直观上分析数据间是否存在线性相关关系;
(4)写出经验回归方程并对实际问题作出估计.
求经验回归方程的基本步骤
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的)称为预测值,观测值减去预测值称为残差. 残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
类似地,我们还可以得到其他的残差,如下表所示.
为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如图下所示.
残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.
观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边. 说明残差比较符合一元线性回归模型的假定,是均值为0、方差为σ2的随机变量的观测值.
通过观察残差图可以直观判断样本数据是否满足一元线性回归模型的假设, 一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
好的回归方程对应的残差散点图应是均匀地分布在横轴两侧的带状区域内.且带状区域越窄,说明模型拟合效果越好.
问题4 观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;
图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;
图(3)说明残差的方差不是一个常数,随观测时间变大而变大
图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.
可见, 只有图(4)满足一元线性回归模型对随机误差的假设.
一般地, 建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
2.残差的平方和越小越好;
3.原始数据中的可疑数据往往是残差绝对值过大的数据;
4. 对数据刻画效果比较好的残差图特征:残差点比较均匀的集中在水平带状区域内.
2. 关于残差图的描述错误的是( ) A.残差图的横坐标可以是样本编号 B.残差图的横坐标也可以是解释变量或预报变量 C.残差点分布的带状区域的宽度越窄相关指数越小 D.残差点分布的带状区域的宽度越窄残差平方和越小
残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.
人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用教学ppt课件: 这是一份人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用教学ppt课件,共24页。
高中数学人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用获奖课件ppt: 这是一份高中数学人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用获奖课件ppt,共36页。PPT课件主要包含了残差平方和,偏差平方和等内容,欢迎下载使用。
人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用背景图课件ppt: 这是一份人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用背景图课件ppt,共18页。PPT课件主要包含了问题1,问题2,问题3,课堂小结,残差分析等内容,欢迎下载使用。