

《回归分析的基本思想及其初步应用》文字素材2(人教A版选修1-2)
展开阐释回归分析的基本思想在客观世界中,变量间总是相互联系、相互依存的。变量之间的关系大致可以分为两类:一类是具有确定性的函数关系,另一类是非确定性的关系。非确定性的关系在统计学中称为相关关系。回归分析就是通过分析、判断来确定相关变量之间的内在关系的一种统计方法,即寻找相关关系中非确定性关系的某种确定性。 1 相关关系与函数关系的异同点: 相同点:均是指两个变量的关系。 不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系。 2 散点图:表示具有相关关系的两个变量的一组数据的图形,叫做散点图,散点图形象地反映了各对数据的密切程度。 3 求回归直线方程的思想方法: 设所求的直线方程为 ,其中a、b是待定系数, 则 ,于是得到各个偏差 , 显见,偏差 的符号有正有负,若将它们相加会造成相互抵消,所以它们的和不能代表几个点与相应直线在整体上的接近程度,故采用n个偏差的平方和 表示n个点与相应直线在整体上的接近程度。 记 上述式子展开后,是一个关于a、b的二次多项式,采用配方法,可求出使Q为最小值时的a、b的值,即 其中 。4 随机误差:当样本点散布在某一条直线的附近,而不是在一条直线上时,可用下面的线形回归模型来表示:y=bx+a+e其中a和b为模型的未知参数,e称为随机误差。5 相关系数: 对于任何给定的一组样本()( i =1,2,…n )都可以用最小二乘法建立起一个线性回归模型,相应地就可以得到一条回归直线。但是,这样的一条回归直线并不是总有意义的,只有当变量X与Y之间确实存在某种因果关系时,其回归直线才有意义。统计学中要确定变量X和Y之间是否确实存在线性相关,通常利用相关系数来检验。相关系数记作,它能够较精确地描述两个变量之间线性相关的密切程度。当>0时称Y与X正相关;当<0时称Y与X是负相关。6 线性回归模型的残差原因:第一是所选择的数学模型不适合,变量间不是线性关系而建立了线性模型;第二是模型中所包含的自变量数目不合适,或是遗漏了某些重要的影响因素,或是包含了不必要的其他因素等。一般地,残差平方和越小的模型,拟和的效果越好;类似地,还可用R2来比较两个模型的拟和效果,R2越大,模型的拟和效果也越好。7 建立回归模型的步骤:(1) 确定研究对象,明确解释变量、预报变量;(2) 画出确定好的解释变量和预报变量的散点图,观察是否存在线性关系等;(3) 确定回归方程的类型;(4) 按一定的规则估计回归方程中的参数;(5) 得出结果后分析残差图是否有异常,若存在异常,则探明原因。 感悟非线性回归问题 两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型。一般地,建立回归模型的基本步骤为: 1.确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; 2.画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等); 3.由经验确定回归方程的类型(如观察到的数据呈线性关系,则选用线性回归方程); 4.按一定规则估计回归方程中的参数(如最小二乘法); 5.得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。 例1 在彩色显影中,由经验可知:形成染料光学密度与析出银的光学密度由公式表示,现测得试验数据如下:0.050.060.250.310.070.100.380.430.140.200.470.100.141.001.120.230.371.191.250.590.791.29 试求对的回归方程。 分析:该例是一个非线性回归分析问题,由于题目中已给定了要求的曲线为类型,我们只要通过所给的11对样本数据,求出和即可确定与的相关关系的曲线方程。 解析:由题意可知,对于给定的公式两边取自然对数,得。 与线性回归方程对照可以看出,只要取,,就有,这是的线性回归直线方程,对此我们再套用相关性检验,求回归系数和。 题目中所给数据由变量置换,变为如下所示的数据:20.00016.6674.0003.22614.28610.000-2.303-1.9660.0000.113-1.470-0.9942.6322.3267.1435.0002.128 0.1740.223-0.528-0.2360.255 可以求得。 由于,可知与具有很强的线性相关关系。 再求得, ∴,把和置换回来可得, ∴, ∴回归曲线方程为。 评注:解决本题的思路是通过适当的变量置换把非线性回归方程转化为线性回归方程,然后再套用线性回归分析的解题步骤。 例2 某种书每册的成本费(元)与印刷册数(千册)有关,经统计得到数据如下:12351020305010020010.155.524.082.852.111.621.411.301.211.15 检验每册书的成本费与与印刷册数的倒数之间是否具有线性相关关系,如有,求出对的回归方程。 分析:非线性回归问题有时并不给出经验公式,此时我们可以由已知的数据画出散点图,并把散点图与已经学过的各种函数(如幂函数、指数函数、对数函数、二次函数等)作比较,挑选出跟这些散点拟合最好的函数,然后再采用变量置换,把问题转化为线性回归分析问题。 解析:把置换为,则有,从而与的数据为10.50.3330.20.10.050.0330.020.010.00510.155.524.082.852.111.621.411.301.211.15 可以求得。 ∴,∴对具有很强的线性相关关系。∴。 ∴所求的与的回归方程为。 又,∴。 评注:在没有回归曲线模型的问题中,应注意利用散点图合理拟合相应的样本点的类型,并与有关的已知函数图象相比较,寻找最佳的拟合效果。