《线性回归方程》示范课教案【高中数学苏教版】
展开第九章 统计
9.1.2 线性回归方程
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理;
2.掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件;
3.针对实际问题,会用一元线性回归模型进行预测.
重点:线性归回方程的求解方法.
难点:线性归回分析的基本思想和方法.
一、新课导入
上节课我们学习了一种非确定关系——相关关系,并重点学习了一种特殊的相关关系——线性相关关系,比如我国城镇居民人均年支出与人均年可支配收入之间的关系.
根据数据,我们得到了相应的散点图,接下来,我们需要通过这种关系预测对应的人均年支出.
年份 | 1990 | 2000 | 2010 | 2011 | 2012 | 2013 | 2014 | 2015 |
人均年可支配收入/元 | 1510 | 6280 | 19109 | 21810 | 24565 | 26467 | 28844 | 31195 |
人均年支出/元 | 1279 | 4998 | 13471 | 15161 | 16674 | 18488 | 19968 | 21392 |
散点图:
二、新知探究
问题1:怎样才能恰当的反映两个变量之间的线性相关关系呢?
答案:观察散点图,做一条直线,从图中可以看出,这些点在这条直线附近,但并不都在这条直线上,也就是说,这条直线并不能精确地反映x与y之间的关系,y的值不能由x确定,也就是说,数据中的y值与a+bx的值之间存在误差,在此,我们将两者之间的关系表示为 y=a+bx+ε,其中a+bx是确定性函数, ε称为随机误差.
追问:随机误差产生的主要原因有哪些?
(1)所用的确定性函数不恰当引起的误差;
(2)忽略了某些因素的影响;
(3)存在观测误差等.
线性回归模型的定义
我们将 y=a+bx+ε称为线性回归模型,其中其中a+bx是确定性函数, ε称为随机误差.
问题2:对于 y=a+bx+ε这样的线性回归模型,我们需要考虑哪些方面的问题?
(1)模型是否合理?
可用线性相关性检验的方法处理,这里对相关性检验的方法不作要求,只要根据相关系数作出判断.
(2)在模型合理的条件下,如何估计a,b?
设有n对观测数据 (i=1,2,3,···,n),根据线性回归模型,对于每一个, 对应的随机误差项=-,我们希望y=a+bx+ε 与y=a+bx越“接近”越好,即++···+越小越好.
由于++···+是绝对值之和的形式,这对于进一步的运算与推导带来很多不便,而++···+很小并不表示++···+很小,因此通常用“++···+越小越好”来代替“++···+越小越好” .
于是,只要求出使取最小值时的α,β的值,分别将它们作为a和b的估计值,记为 (读作a估计,b估计),通过推导可得:
其中:.
线性回归方程的定义:
设有n对观测数据 (i=1,2,3,···,n),我们将由公式
(其中)得到的直线称为n对数据的回归直线,此直线方程称为线性回归方程,其中称为回归截距,称为回归系数,称为回归值.
“最小二乘法”的定义:
使样本数据各点到回归直线的距离的平方和最小来得到回归直线的方法叫做最小二乘法.
问题3:怎样求解回归直线的方程即线性回归方程?有哪些方法?
答案:方案1:在散点图中选两点作直线,使直线两侧的点的个数基本相同;
方案2:如果多取几对点,确定多条直线,再求出这些直线的斜率和截距的平均值作为回归直线的斜率和截距,从而得到回归方程;
方案3:先画出一条直线,测量出各点与它的距离,再移动直线,到达一个使距离的和最小时,测出它的斜率和截距,从而得到回归方程;
方案4: (最小二乘法)回归直线的方程是一次函数,即设为y = bx+a 的形式,关键是求出斜率b和截距 a.
三、应用举例
例1 20个工业企业某年的平均固定资产价值与总产值(单位:百万元)如下表所示,
企业编号 | 年平均固定资产价值 | 年产总值 |
| 企业编号 | 年平均固定资产价值 | 年产总值 | |
1 | 36 | 32.0 |
| 11 | 50 | 45.5 | |
2 | 43 | 40.2 | 12 | 70 | 65.0 | ||
3 | 50 | 47.5 | 13 | 62 | 56.0 | ||
4 | 40 | 41.5 | 14 | 58 | 55.0 | ||
5 | 55 | 51.0 | 15 | 52 | 55.0 | ||
6 | 58 | 53.4 | 16 | 63 | 57.0 | ||
7 | 38 | 33.8 | 17 | 64 | 54.2 | ||
8 | 45 | 42.8 | 18 | 53 | 56.5 | ||
9 | 47 | 45.6 | 19 | 54 | 50.2 | ||
10 | 42 | 40.8 | 20 | 56 | 49.2 | ||
设平均固定资产价值为x,年总产值为y,单位均为百万元,试求出x,y的线性回归方程.
解:由表中数据可得,
代入公式
可得:,
因此,线性回归方程为.
方法总结:求线性回归直线方程的一般步骤:
(1)整理观测数据,列成表格;
(2)计算 等;
(3)代入公式计算的值;
(4)写出线性回归直线的方程.
例2下表为某地近几年机动车车辆数与交通事故数的统计资料,请判断机动车车辆数与交通事故数之间是否具有线性相关关系,如果具有线性相关关系,求出线性回归方程;如果不具有线性相关关系,说明理由.
机动车辆数辆 | 95 | 110 | 112 | 120 | 129 | 135 | 150 | 180 |
交通事故数 件 | 6.2 | 7.5 | 7.7 | 8.5 | 8.7 | 9.8 | 10.2 | 13 |
解:数据之间有线性关系.
计算相应的数据之和:
代入公式,
可得相关系数r=0.9927,故两个变量之间具有很强的线性相关关系.
代入公式,可得:,
因此所求线性回归方程为.
例3统计学家K.Pearson收集了大量父亲和儿子的身高数据,下表是从中随机抽取的10对父子的身高数据.
父亲的身高 | 152.4 | 157.5 | 162.6 | 165.1 | 167.6 | 170.2 | 172.7 | 177.8 | 182.9 | 188.0 |
儿子的身高 | 161.3 | 165.6 | 167.6 | 166.4 | 169.9 | 170.4 | 171.2 | 173.5 | 178.1 | 177.8 |
试估计父亲身高为166cm时,他儿子的身高.
解:根据表中数据画出散点图,如图所示:
由表中数据可得:
根据线性相关系数公式可得r=0.9801,说明父亲与儿子的身高之间具有很强的线性相关关系.
再由公式可得,
因此,所求线性回归方程为,当x=166时,,即父亲的身高为166cm时,他的儿子的身高约为168cm.
想一想:上述结论是否说明,身高为166cm的父亲,其儿子的身高就一定是168cm呢?
答案:首先,这个结论是对当地、当时的父亲身高而言的,对其他地区或该地区的不同年代,这个结论不一定成立;其次,父亲身高为166cm时,他的儿子的身高不一定是168cm,因为人的身高还受到母亲身高、生长的条件等多种因素的影响.
上述结果说明:对于当地、当时的父子而言,身高为166cm的父亲们,其儿子的身高大多
在168cm附近,且平均身高约为168cm,因此我们可以作出推断:父亲身高为166cm时,他的儿子的身高一般在168cm左右.
事实上,在线性回归方程中,表示自变量x每增加1个单位时因变量y平均的增加,表示当自变量为x时因变量y的平均值.
四、课堂练习
1.已知变量x,y之间具有线性关系,其散点图如图所示,则其线性回归方程可能为( )
A. B.
C. D.
2.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算得y=0.577x-0.448(x为人的年龄,y为人体脂肪含量),对年龄为37岁的人来说,下面说法正确的是( )
A.年龄为37岁的人体内脂肪含量一定为20.90
B.年龄为37岁的人体内脂肪含量约为21.01
C.年龄为37岁的人群中的体内脂肪含量平均为20.90
D.年龄为37岁的人群中的大部分人的体内脂肪含量约为31.5
3.某地区2013年至2019年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份 | 2013 | 2014 | 2015 | 2016 | 2017 | 2018 | 2019 |
年份代号t | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
人均纯收入y | 2.9 | 3.3 | 3.6 | 4.4 | 4.8 | 5.2 | 5.9 |
(1)求y关于t的线性回归方程;
(2)利用(1)中的线性回归方程,分析2013年至2019年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2021年农村居民家庭人均纯收入.
参考答案:
1.解析:选B.由散点图可得到答案.
2.解析:选C.当x = 37时,y= 0.577×37-0.448 = 20.901≈20.90,由此估计,年龄为37岁的人群中的体内脂肪含量平均为20.90.
3.解析:(1)由所给数据计算得:
,,
,
,
所求线性回归方程为.
(2)由(1)知,,故2013年至2019年该地区农村居民家庭人均收入逐年增加,平均每年增加0.5千元.
将2021年的年份代号t=9代入(1)中的线性回归方程,得,
故预测该地区2021年农村居民家庭人均纯收入为6.8千元.
五、课堂小结
1.线性回归模型的定义
我们将 y=a+bx+ε称为线性回归模型,其中其中a+bx是确定性函数, ε称为随机误差.
2.线性回归方程的定义:
设有n对观测数据 (i=1,2,3,···,n),我们将由公式
(其中)得到的直线称为n对数据的回归直线,此直线方程称为线性回归方程,其中称为回归截距,称为回归系数,称为回归值.
3.“最小二乘法”的定义:
使样本数据各点到回归直线的距离的平方和最小来得到回归直线的方法叫做最小二乘法.
4. 求线性回归直线方程的一般步骤:
(1)整理观测数据,列成表格;
(2)计算 等;
(3)代入公式计算的值;
(4)写出线性回归直线的方程.
六、布置作业
教材第154页练习第1,2,3题.