人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.2 一元线性回归模型及其应用学案设计
展开目标导航
知识精讲
知识点
1.一元线性回归模型
用表示父亲身高,表示儿子身高,表示随机误差,假定随机误差的均值为,方差为与父亲身高无关的定值,则它们之间的关系可以表示为
我们称它为关于的一元线性回归模型.
2. 线性回归方程
对于变量和变量,设经过随机抽样获得的成对样本数据为,其中和的均值分别为和,其中
我们将称为关于的经验回归方程,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法.
备注 线性回归直线经过定点.
3. 线性回归分析
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.
残差平方和eq \i\su(i=1,n, )(yi-eq \(y,\s\up6(^))i)2,残差平方和越小,模型拟合效果越好.
(2)用R2刻画回归效果
在回归分析中,可以用来刻画回归的效果,它表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.
4.残差分析
通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测量,观测值减去预测值称为残差,残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判定原始数据是否存在可疑数据,这方面的工作称为残差分析.
通过观察残差图可以直观判断模型是否满足一元线性回归模型中对随机误差的假设,那残差应是均值为,方差为的随机变量的观测值.
5. 模型的拟合效果用相关指数来表示,,表达式中,与经验回归方程无关,残差平方和与经验回归方程有关,因此,越大,意味着残差平方和越小,即模型的拟合效果越好;越小,残差平方和越大,即模型的拟合效果越差
【微点拨】在回归模型中,y的值由x和随机因素e共同确定,即x只能解释部分y的变化,x称为解释变量,y称为预报变量,e称为随机误差,它的均值E(e)=0,方差D(e)=σ2>0.
【即学即练1】已知变量x,y之间有线性相关关系,其回归直线方程为eq \(y,\s\up6(^))=-3+eq \(b,\s\up6(^))x,若eq \i\su(i=1,10,x)i=17,eq \i\su(i=1,10,y)i=4,则eq \(b,\s\up6(^))的值为( )
A.1 B.2
C.-1 D.-2
【答案】B
【解析】∵eq \x\t(x)=eq \f(1,10)eq \i\su(i=1,10,x)i=1.7,eq \x\t(y)=eq \f(1,10)eq \i\su(i=1,10,y)i=0.4,∴0.4=-3+1.7eq \(b,\s\up6(^)),∴eq \(b,\s\up6(^))=2.
【即学即练2】某工厂的每月各项开支与毛利润(单位:万元)之间有如下关系,与的线性回归方程是,则( )
A.B.C.D.
【答案】A
【解析】
【分析】
求出样本中心点的坐标,代入回归直线方程可求得的值.
【详解】
由表格中的数据可得,,
则样本中心点的坐标为,
将样本中心点的坐标代入回归直线方程可得,解得.故选:A.
【即学即练3】登山族为了了解某山高y(km)与气温x(℃)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:
由表中数据,得到线性回归方程,由此估计山高为7.2km处气温的度数为( )
A.10℃B.8℃C.4℃D.6℃
【答案】D
【解析】
【分析】求出,,代入回归方程,求出,将代入可求得的估计值.
【详解】由题意,得,,所以,所以.
当时,有,解得.故选:D
【即学即练4】某公司生产某种婴幼儿纸尿裤的产量x与相应的生产能耗y有如下样本数据:
已知这组样本数据具有线性相关关系,由表中数据,求得回归直线的斜率为0.72,则这组样本数据的回归直线方程是( )
A.B.
C.D.
【答案】C
【解析】
【分析】求出横标和纵标的平均数,写出样本中心点,把样本中心点代入线性回归方程,得到关于的方程,解方程即可.
【详解】设回归直线方程为,由样本数据,可得,,
因为回归直线经过点,所以,解得,所以回归直线方程为.
故选:C.
【即学即练5】在疫情冲击下,地摊经济有利于缓解部分失业人群的燃眉之急.已知某地摊的日盈利(单位:百元)与当天的平均气温(单位:)之间的数据如下表所示:
由表中数据,得回归直线,则直线必过的点为( )
A.B.C.D.
【答案】A
【解析】
【分析】由表格数据可计算求得样本中心点,由此可得结果.
【详解】由表格数据得:,,
直线必过点.故选:A.
【即学即练6】设有一个回归方程为,则变量增加一个单位时( )
A.平均增加1.5个单位B.平均增加2个单位
C.平均减少1.5个单位D.平均减少2个单位
【答案】C
【解析】
【分析】根据所给的回归直线的方程把自变量由变为时,表示出变化后的值,两式相减即可求解.
【详解】因为直线回归方程为:①,当变量增加一个单位时②,
由②①可得:,所以变量增加一个单位时平均减少1.5个单位,
故选:C.
【即学即练7】甲、乙、丙、丁四位同学各自对A,B两变量做回归分析,分别得到散点图与残差平方和如下表:
哪位同学的实验结果体现拟合A,B两变量关系的模型拟合精度高?( )
A.甲B.乙
C.丙D.丁
【答案】D
【解析】
【分析】根据散点图中各样本点条状分布越均匀,同时残差平方和越小,即可判断其线性回归模型的拟合效果越好.
【详解】根据散点图中各样本点条状分布越均匀,同时保持残差平方和越小,其线性回归模型的拟合效果就越好;(对于已经获取的样本数据,表达式中为确定的数,则残差平方和越小,越大),由此知丁同学的线性回归模型的拟合效果最好.故选:D.
【即学即练8】已知变量关于的回归方程为,其一组数据如表所示:若,则预测值可能为( )
A.B.C.D.
【答案】D
【解析】
【分析】将回归方程左右同时取对数得:,看作回归直线的形式,由回归直线过样本中心点可构造方程求得,由此得到回归方程;将代入回归方程即可求得结果.
【详解】由得:,,
解得:,回归方程为,若,则.
故选:D.
【点睛】关键点点睛:本题考查非线性回归中的预估值的求解,解题关键是能够通过对指数型回归模型左右同时取对数,将其变为线性回归的形式来进行求解.
【即学即练9】为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:
由最小二乘法得y与x的线性回归方程为,则当时,繁殖个数的预测值为( )
A.4.9B.5.25C.5.95D.6.15
【答案】C
【解析】
【分析】根据题中条件,求出,再由回归直线必过样本中心,求出,将代入回归方程,即可求出结果.
【详解】由题中数据可得:,,
因为回归直线必过样本中心,所以,因此,
所以当时,.故选:C.
【点睛】本题主要考查用回归直线求预测值,熟记回归直线的特征即可,属于基础题型.
【即学即练10】从某高中女学生中选取10名学生,根据其身高、体重数据,得到体重关于身高的回归方程,用来刻画回归效果的相关指数,则下列说法正确的是( )
A.这些女学生的体重和身高具有非线性相关关系
B.这些女学生的体重差异有60%是由身高引起的
C.身高为的女学生的体重一定为
D.这些女学生的身高每增加,其体重约增加
【答案】B
【解析】
【分析】根据相关指数大小可判断是否线性相关关系,即可判断A; 根据相关指数可估计体重差异与身高相关程度,即可判断B; 根据回归方程只能预测,不可确定,即可判断C; 根据回归方程可确定体重增加数,即可判断D.
【详解】因为回归方程为,且刻画回归效果的相关指数,所以,这些女学生的体重和身高具有线性相关关系,A错误;
这些女学生的体重差异有60%是由身高引起的,B正确;
时,,预测身高为的女学生体重为,C错误;
这些女学生的身高每增加,其体重约增加,D错误.故选:B
【点睛】本题考查回归方程估计、相关指数含义,考查基本分析判断能力,属基础题.
【即学即练11】对具有线性相关关系的变量、有一组观测数据,其线性回归方程是,且,,则实数的值是( )
A.B.C.D.
【答案】C
【解析】
【分析】求出样本的中心点的坐标,再将点的坐标代入回归直线方程,由此可求得实数的值.
【详解】由题意可得,,
回归直线过点,则,解得.故选:C.
【点睛】本题考查利用回归直线过样本中心点求参数,考查计算能力,属于基础题.
【即学即练12】一组数据如下表所示:
已知变量关于的回归方程为,若,则预测的值可能为( )
A.B.C.D.
【答案】C
【解析】
【分析】令,求得之间的数据对照表,结合样本中心点的坐标满足回归直线方程,即可求得;再令,即可求得预测值.
【详解】将式子两边取对数,得到,令,得到,
根据已知表格数据,得到的取值对照表如下:
由上述表格可知:
,,
利用回归直线过样本中心点,即可得,求得,则,
进而得到,将代入,解得.故选:C.
【点睛】本题考查利用样本中心点坐标满足回归直线方程求参数值,以及由回归方程进行预测值得求解,属中档题.
【即学即练13】已知变量,线性相关,且由观测数据算得样本平均数为,,则由该观测数据得到的经验回归方程可能是( )
A.B.
C.D.
【答案】AB
【解析】
【分析】
把代入A,B,C,D选项中依次检验,即得解
【详解】
把代入A,B,C,D选项中进行检验,
对于A,当时,;
对于B,当时,;
对于C,当时,;
对于D,当时,.
故选:AB
能力拓展
考法01
线性回归方程及相关知识:
【典例1】对于经验回归方程,下列说法中不正确的是( )
A.直线必经过点 B.增加1个单位时,平均增加个单位
C.样本数据中时,可能有 D.样本数据中时,一定有
【答案】D
【解析】
【分析】结合回归直线方程的知识对选项逐一分析,由此确定正确答案.
【详解】经验回归直线一定过点,故A正确;
经验回归方程中,增加1个单位时,平均增加个单位,故B正确;
经验回归方程中,样本数据中时,可能有,也可能有,故C正确,D不正确.
故选:D
【典例2】根据最小二乘法,由一组样本点()求得的经验回归方程是,则下列说法正确的是( )
A.至少有一个样本点落在回归直线上
B.回归直线是由样本点()中的两点确定的
C.对所有的变量(),的值一定与有误差
D.若经验回归方程中的,则变量y与x正相关
【答案】D
【解析】
【分析】根据回归直线方程知识点即可求解.
【详解】对于A,样本点可能全部不在回归直线上,故A错误;
对于B,回归直线不是由两点确定的,故B错误;
对于C,若所有的样本点都在回归直线上,则的值与相等,故C错误;对于D,由经验回归方程的性质知y与x正相关的充要条件是,故D正确.
故选:D.
【典例3】已知两个变量x和y之间有线性相关关系,经调查得到如下样本数据:
根据表格中的数据求得回归方程,则下列说法中正确的是( )
A.,B.,C.,D.,
【答案】B
【解析】
【分析】由表格数据可知随着的增大逐渐减小,即与成负相关,即可判断,再计算、,根据回归直线方程必过,得到,即可判断,从而得解;
【详解】由已知数据可知y随着x的增大而减小,则变量x和y之间存在负相关关系,所以.又,,即,所以.
故选:B
【典例4】如果在一次实验中,测得(x,y)的四组数值分别是(1,2.2),(2,3.3),(4,5.8),(5,6.7),则y对x的线性回归方程是( )
A.B.
C.D.
【答案】D
【分析】根据题中数据,求得,再代入公式,可求得,即可求得方程.
【解析】根据四组数据,可得,
所以,,
所以,
所以,所以回归直线方程为:.故选:D
【典例5】已知与及与的对应数据如下表,且关于的线性回归方程为,则关于的线性回归方程为( )
A.B.
C.D.
【答案】D
【解析】
【分析】由已知可得,,根据表格数据求出,,由公式求出,,进而可得关于的线性回归方程.
【详解】由题表知,,,
因为关于的线性回归方程为,所以,
可得,
所以,
则,
所以关于的线性回归方程为,故选项D正确;
故选:D.
考法02
根据回归方程求待定参数:
【典例6】已知某种商品的销售额y(单位:万元)与广告费支出x(单位:万元)之间具有线性相关关系,利用下表中的数据求得经验回归方程为,根据该经验回归方程,预测当时,,则( )
A.9.3B.9.5C.9.7D.9.9
【答案】C
【解析】
【分析】样本中心点位于线性回归方程,进而得到方程组,求出.
【详解】由题表数据可得:,,则,解得:.故选:C.
【典例7】如图所示,已知两个线性相关变量x,y的统计数据如下:
其线性回归方程为,则( ).
A.B.0.7C.D.
【答案】A
【解析】
【分析】根据给定条件求出样本的中心点,再代入回归直线方程计算作答.
【详解】依题意,,,将带入得:,解得,
所以.故选:A
【典例8】某市2015年至2019年新能源汽车年销量(单位:百台)与年份代号的数据如下表:
若根据表中的数据用最小二乘法求得关于的回归直线方程为,则表中的值为( )
A.25.5B.28.5C.30D.32.5
【答案】C
【解析】
【分析】求出样本中心的横坐标,代入回归直线方程,求出样本中心的纵坐标,然后求解即可.
【详解】因为,代入回归直线方程为,所以,
于是得,解得.故选:C.
【典例9】已知x,y的取值如下表所示,由散点图分析可知y与x线性相关,且回归直线方程为,那么表格中的数据m的值为______.
【答案】6.7
【解析】
【分析】根据回归直线必过样本中心点求解即可.
【详解】,,
把的坐标代入回归直线方程得,解得.故答案为:6.7
考法03
与残差相关的问题:
【典例10】下列命题错误的是( )
A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于1
B.设,且,则
C.线性回归直线一定经过样本点的中心
D.在残差图中,残差点分布的带状区域的宽带越狭窄,其模型拟合的精度越高
【答案】B
【分析】利用相关关系判断A;由正态分布的性质判断B;由线性回归直线的性质判断C;由残差的性质判断D.
【详解】对于A,根据相关系数的意义可知,A正确;
对于B,由,知,即概率密度函数的图像关于直线对称,所以,则,故B错误;
对于C,根据线性回归直线的性质可知,C正确;对于D,根据残差图的意义可知, D正确;
【典例11】有一散点图如图所示,在5个数据中去掉后,下列说法正确的是( )
A.残差平方和变小B.相关系数变小
C.相关指数变小D.解释变量与响应变量的线性相关程度变弱
【答案】A
【解析】
【分析】结合散点图、残差、相关系数、相关指数、回归直线方程等知识确定正确选项.
【详解】从散点图分析可知,只有点偏离较大,去掉点,解释变量与响应变量的线性相关程度变强,相关系数变大,相关指数变大,残差平方和变小.A选项正确,BCD选项错误.故选:A
【典例12】下列关于残差图的描述错误的是( )
A.残差图的纵坐标只能是残差
B.残差图的横坐标可以是编号、解释变量和预报变量
C.残差点分布的带状区域的宽度越窄,残差平方和越小
D.残差点分布的带状区域的宽度越窄,决定系数越小
【答案】D
【解析】
【分析】根据残差图的定义、图象和性质,逐一判断四个选项的正误即可得正确选项.
【详解】对于A:残差图的纵坐标只能是残差,故选项A正确;
对于B:根据残差图的定义和图象即可知:残差图的横坐标可以是编号、解释变量和预报变量,故选项B正确;
对于C和D:用残差图判断模型的拟合效果,残差点比较均匀地分布在水平的带状区域中,残差点分布的带状区域的宽度越窄,说明残差平方和越小,说明模型的拟合精度越高,则对应决定系数越大,故选项C正确,选项D错误.
所以关于残差图的描述错误的是选项D,故选:D.
【典例13】下列选项分别为一组观测值的四个一元线性回归模型对应的残差图,则对应的一元线性回归模型的拟合效果最好的残差图是( )
A.B.
C.D.
【答案】A
【解析】
【分析】残差点比较均匀地落在水平的带状区域中时比较合适,即可得出答案.
【详解】对于A,残差图中的点分布在以原点为中心的水平带状区域上,并且沿水平方向散点的分布规律相同,说明残差是随机的,所选择的冋归模型是合理的;
对于B,残差图中的点分布在一条倾斜的带状区域上,并且沿带状区域方向散点的分布规律相同,说明残差与横坐标有线性关系,此时所选用的回归模型的效果不是最好的,有改进的余地;
对于C,残差图中的点分布在一条拋物线形状的弯曲带状区域上,说明残差与坐标轴变量有二次关系,此时所选用的回归模型的效果不是最好的,有改进的余地;
对于D,残差图中的点分布范围随着横坐标的增加而扩大,说明残差与横坐标变量有关,所选用的冋归模型的效果不是最好的,有改进的余地.
故选:A.
【典例14】2020年初,新型冠状病毒引起的肺炎疫情暴发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效.某地开始使用中西医结合的方法后,每周治愈的患者人数如下表所示:
由上表数据可得关于的非线性经验回归方程为,则此回归模型中第4周的残差为( )
A.5B.4C.1D.0
【答案】A
【解析】
【分析】设,求出,代入可求出,再将代入即可求出.
【详解】设,则,,
,所以.
令,得第4周的残差为.
故选:A.
考法04
回归分析
【典例15】两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25
【答案】A
【解析】R2的值越大,说明残差平方和越小,模型的拟合效果越好.
【典例16】下列关于回归分析的说法中错误的是( )
A.回归直线一定过样本中心
B.残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适
C.甲、乙两个模型的分别约为和,则模型乙的拟合效果更好
D.两个模型中残差平方和越小的模型拟合的效果越好
【答案】C
【分析】根据回归直线过样本中心点可判断A选项的正误;利用残差图与模型的拟合效果的关系可判断B选项的正误;利用相关指数与模型拟合效果的关系可判断C选项的正误;利用残差平方和与模型拟合效果之间的关系可判断D选项的正误.
【详解】对于A选项,回归直线一定过样本中心,A选项正确;
对于B选项,残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,B选项正确;
对于C选项,甲、乙两个模型的分别约为和,则模型甲的拟合效果更好,C选项错误;
对于D选项,两个模型中残差平方和越小的模型拟合的效果越好,D选项正确.故选:C.
【典例17】对两个变量y和x进行回归分析,得到一组样本数据:,,,,则下列说法中不正确的是( )
A.用相关指数来刻画回归效果,的值越小,说明模型的拟合效果越好
B.由样本数据得到的线性回归方程必过样本点的中心
C.残差平方和越小的模型,拟合的效果越好
D.若变量y和x之间的相关系数,则变量y与x之间具有线性相关关系
【答案】A
【解析】
【分析】根据相关指数、回归直线方程、残差、相关系数等知识对选项逐一分析,由此确定正确选项.
【详解】A,用相关指数来刻画回归效果,的值越接近,说明模型的拟合效果越好,所以A选项错误.B,由样本数据得到的线性回归方程必过样本点的中心,正确.
C,残差平方和越小的模型,拟合的效果越好,正确.
D,接近,变量y与x之间具有线性相关关系,正确.
所以错误的为A.故选:A
【典例18】若两个变量x,y是线性相关的,且样本的中心点为,则由这组样本数据算得的回归直线方程不可能是( )
A.B.C.D.
【答案】D
【解析】
【分析】根据线性回归直线过样本中心点进行一一验证即可
【详解】因为,即点在回归直线上,所以A有可能;
因为,即点在回归直线上,所以B有可能;
因为,即点在回归直线上,所以C有可能;
因为,即点不在回归直线上,所以D没有可能.故选:D.
【典例19】关于与,有如下数据有如下的两个模型:(1);(2).通过残差分析发现第(1)个线性模型比第(2)个拟合效果好,则________,______(用大于,小于号填空,是相关指数和残差平方和)
【答案】
【解析】
【分析】直接利用残差的性质以及相关指数的性质求解即可.
【详解】由相关指数的的性质可得,越大模型的拟合效果越好,所以,
由残差的性质可得,残差平方和越小模型的拟合效果越好,所以,故答案为.
【点睛】本题主要考查残差的性质以及相关指数的性质,属于中档题. 残差平方和越小越好,带状区域的宽度越窄,说明模型的拟合精度越高,相关指数越大,模型的拟合效果越好.
【典例20】如图,5个数据,去掉后,下列说法错误的是( )
A.相关系数r变大B.残差平方和变大
C.R2变大D.解释变量x与预报变量y的相关性变强
【答案】B
【解析】
【分析】根据图中的点,计算去掉前后的相关系数、残差平方和、,即可判断各选项的正误.
【详解】由图,,,则,,,∴相关系数.
令回归方程,则,
∴,即回归方程为,可得为,,,,,
∴残差平方和,故,
去掉后,
,,则,,,
∴相关系数.∴,A、D正确;令回归方程,则,
∴,即回归方程为,可得为,,,,∴残差平方和,故,
∴,B错误,C正确;故选:B
【典例21】一只药用昆虫的产卵数y在一定范围内与温度x有关,现收集了该种药用昆虫的6组观测数据如下表.
(1)若用线性回归模型,求y关于x的回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))(精确到0.1);
(2)若用非线性回归模型求y关于x的回归方程为eq \(y,\s\up6(^))= 3x,且相关指数R2=0.952 2.
①试与(1)中的线性回归模型相比,用R2说明哪种模型的拟合效果更好.
②用拟合效果好的模型预测温度为35℃时该种药用昆虫的产卵数(结果取整数).
附:一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))的斜率和截距的最小二乘估计为
eq \(b,\s\up6(^))=,eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x),相关指数
eq \i\su(i=1,6, )(xi-eq \x\t(x))(yi-eq \x\t(y))=557,eq \i\su(i=1,6, )(yi-eq \x\t(y))2=3 930,eq \i\su(i=1,6, )(yi-eq \(y,\s\up6(^))i)2=236.64,e8.060 5=3 167.
【解析】(1)由题意得eq \x\t(x)=eq \f(21+23+24+27+29+32,6)=26,eq \x\t(y)=eq \f(6+11+20+27+57+77,6)=33,
eq \i\su(i=1,6, )(xi-eq \x\t(x))(yi-eq \x\t(y))=557,eq \i\su(i=1,6, )(xi-eq \x\t(x))2=84,
eq \(b,\s\up6(^))=eq \f(\i\su(i=1,6, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,6, )xi-\x\t(x)2)=eq \f(557,84)≈6.6,∴eq \(a,\s\up6(^))=33-6.6×26=-138.6,
∴y关于x的线性回归方程为eq \(y,\s\up6(^))=6.6x-138.6.
(2)①由所给数据求得的线性回归方程为eq \(y,\s\up6(^))=6.6x-138.6,
又eq \i\su(i=1,6, )(yi-eq \x\t(y))2=3 930,故得相关指数R2=1-=1-eq \f(236.64,3 930)≈1-0.060 2=0.939 8,
因为0.939 8<0.952 2,所以回归方程eq \(y,\s\up6(^))= 3x比线性回归方程eq \(y,\s\up6(^))=6.6x-138.6拟合效果更好.
②由①得当x=35℃时,eq \(y,\s\up6(^))= 3×35= 5=0.06×3 167≈190.
即当温度x=35℃时,该种药用昆虫的产卵数估计为190个.
考法05
预测问题:
【典例22】党的十九大报告中指出:从2020年到2035年,在全面建成小康社会的基础上,再奋斗15年,基本实现社会主义现代化.若到2035年底我国人口数量增长至14.4亿,由2013年到2019年的统计数据可得国内生产总值()(单位:万亿元)关于年份代号的回归方程为,由回归方程预测我国在2035年底人均国内生产总值(单位:万元)约为( )
A.14.04B.202.16C.13.58D.14.50
【答案】A
【解析】
【分析】先求出2035年对应的年份代号的值代入回归方程可得2035年底国内生产总值,再除以人口数量14.4亿即可求解.
【详解】根据题意可得2035年底对应的,
将代入可得:万亿元,
所以我国在2035年底人均国内生产总值约为万元,故选:A.
【典例23】已知某产品连续4个月的广告费(千元)与销售额(万元)(,2,3,4),经过对这些数据的处理,得到如下数据信息:①,;②广告费x和销售额y之间具有较强的线性相关关系;③回归系数.则广告费平均值为______千元,当广告费为6千元时,则可预测销售额为______万元.
【答案】 4.5或 4.7或
【解析】
【分析】由平均数的定义求广告费平均值,由回归方程的性质求回归方程,再求广告费为6千元时销售额的预测值.
【详解】由题意得,,,由得,,∴.当时,.故答案为:4.5;4.7.
【典例24】某研究机构对高三学生的记忆力x和判断力y进行统计分析,得表数据.
请上表提供的数据,求出y关于x的线性回归方程_______________,据此可预测判断力为4的同学的记忆力为_______________.
【答案】 ; .
【解析】
【分析】设回归方程,利用表中数据,根据最小二乘原理求得系数,即得方程;再用方程代入数据预测记忆力即可.
【详解】设y关于x的线性回归方程为,直线过样本中心点
由表格数据得,,,,
故根据最小二乘原理知, ,即线性回归方程为;
将代入方程,得,即可预测判断力为4的同学的记忆力为.故答案为:;.
【点睛】本题考查了线性回归直线的求法及其应用,属于基础题.
考法05
回归模型及其应用:解答非线性拟合问题,先设出回归方程,利用换元法将非线性回归方程化为线性回归方程,求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
【典例25】据一组样本数据,,…,,求得经验回归方程为,且.现发现这组样本数据中有两个样本点和误差较大,去除后重新求得的经验回归直线的斜率为1.2,则( )
A.变量与具有正相关关系
B.去除两个误差较大的样本点后,重新求得的回归方程仍为
C.去除两个误差较大的样本点后,的估计值增加速度变快
D.去除两个误差较大的样本点后,相应于样本点的残差为0.05
【答案】A
【解析】
【分析】由条件可知样本中心不变,可求出新的回归直线方程,即可判断.
【详解】因为重新求得的经验回归直线的斜率为1.2,所以变量与具有正相关关系,故A正确;
当时,,设去掉两个误差较大的样本点后,横坐标的平均值为,纵坐标的平均值为,则,,
因为去除两个误差较大的样本点后,重新求得回归直线的斜率为1.2,所以,解得,
所以去除两个误差较大的样本点后的经验回归方程为,故B错误;
因为,所以去除两个误差较大的样本点后的估计值增加速度变慢,故C错误;
因为,所以,故D错误.故选:A.
【典例26】中国是茶的故乡,也是茶文化的发源地.为了弘扬中国茶文化,某酒店推出特色茶食品“排骨茶”,为了解每壶“排骨茶”中所放茶叶克数与食客的满意率的关系,调查研究发现,可选择函数模型来拟合与的关系,根据以下统计数据:
可求得关于的非线性经验回归方程为( )
A.B.
C.D.
【答案】A
【解析】
【分析】令,由线性回归方程经过样本中心点,利用表中数据求得,代入选项即得.
【详解】由题表中数据可知,
令,则,
对于A,化简变形可得,等号两边同取对数,可得,将代入可得,所以A正确;
对于B,,
∴,将代入可得,
,故B错误;
对于C,∵,将代入可得,
∴,故C错误;
对于D,∵,将代入可得,
∴,故D错误.
故选:A.
【典例27】下列数据符合函数模型( )
A.B.C.D.
【答案】D
【解析】
【分析】
将表格中的值代入选项中函数的解析式,即可求解.
【详解】
根据表格中的数据,可得随着的增大而增大,所以C选项不符合题意;
分别将的值代入给定的函数的解析式,求得相应的的值,可判断函数最符合题意.
故选:D.
分层提分
题组A 基础过关练
1.已知变量y关于x的非线性经验回归方程为,其一组数据如下表所示:
若x=5,则预测y的值可能为( )A.e5B.C.e7D.
【答案】D
【解析】
【分析】根据对数的运算性质将题意中的等式变形为z=x-0.5,列出x、z的取值对应的表格,分别求出,代入回归方程求出即可.
【详解】将式子两边取对数,得到ln=x-0.5,
令z=ln,得到z=x-0.5,列出x,z的取值对应的表格如下:
则,
∵满足z=x-0.5,∴3.5=×2.5-0.5,解得=1.6,∴z=1.6x-0.5,∴,
当x=5时,=.故选:D
2. 已知人体脂肪含量(%)关于人的年龄(岁)的线性回归方程为,如果某人36岁,那么这个人的脂肪含量( )
A.一定是20.3%B.在20.3%附近的可能性比较大
C.无任何参考数据D.以上解释都无道理
【答案】B
【解析】
【分析】代入得值,求出,判断即可
【详解】将代入经验回归方程,得,
由回归分析的意义,知这个人的脂肪含量在20.3%附近的可能性比较大,故选:B
3. 设两个变量和之间具有线性相关关系,它们的相关系数是,关于的线性回归直线的斜率为,截距是,那么必有( )
A.与的符号相同B.与的符号相同
C.与r的符号相反D.与的符号相反
【答案】A
【解析】
【分析】由相关程度系数r与回归方程的定义,可以得出答案.
【详解】根据和的定义公式可知A正确;与的符号不能确定.故选A.
4. 某公司为了增加某商品的销售利润,调查了该商品投入的广告费用(万元)与销售利润(万元)的统计数据如下表,由表中数据,得线性回归直线,则下列结论错误的是( )
A.B.
C.直线过点D.直线过点
【答案】D
【解析】
【分析】通过散点图确定AB选项的正确性,通过样本中心点确定CD选项的正确性.
【详解】作出散点图如图所示.
通过散点图可知线性回归直线是递增型,所以,
也可以观测到在轴的截距是大于零的,所以,又,,
所以线性回归直线过这一点.故选:D.
5. 已知变量,之间的线性回归方程为,且变量,之间的一组相关数据如表所示,则下列结论错误的是( )
A.变量,之间具有负相关关系 B.
C.可以预测,当时, D.由表格数据知,该回归直线必过点
【答案】B
【解析】
【分析】由于线性回归直线过样本中心点,从而可出的值,利用回归方程判断ACD
【详解】对于A,由回归方程为,可知变量,之间具有负相关关系,所以A正确;
对于B,∵,∴.
∴,解得,所以B错误;
对于C,当时,,所以C正确;
对于D,当时,,所以回归直线过点(9,4),所以D正确.故选:B.
6. 某化工厂产生的废气经过过滤后排放,以模型去拟合过滤过程中废气的污染物浓度与时间之间的一组数据,为了求出线性回归方程,设,其变换后得到线性回归方程为,则当经过后,预报废气的污染物浓度为( )
A.B.C.D.
【答案】D
【解析】
【分析】把代入中求出的值,再将的值代入中可求出的值.
【详解】当时, ,所以.
故选:D.
7. 已知一组样本点,其中,根据最小二乘法求得的回归直线方程是,则下列说法正确的是( )
A.若所有样本点都在回归直线方程上,则变量间的相关系数为1
B.至少有一个样本点落在回归直线方程上
C.对所有的(),预测值一定与实际值有误差
D.若的斜率,则变量与正相关
【答案】D
【解析】
【分析】选项A,相关系数,故A错误;选项B,样本点可能都不在经验回归直线上,故B错误;
选项C,可以存在;对应的预测值与实际值没有误差,故C错误;
选项D,,样本点的分布从左至右上升,变量与正相关,故D正确.
【详解】选项A,若所有样本点都在直线上,则变量间的相关系数的绝对值为1 ,相关系数,故A错误;
选项B,经验回归直线必过样本点的中心,但样本点可能都不在经验回归直线上,故B错误;
选项C,样本点可能在直线上,即可以存在;对应的预测值与实际值没有误差,故C错误;
选项D,相关系数与符号相同,若的斜率,则,样本点的分布从左至右上升,变量与正相关,故D正确.故选:D
8. 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得经验回归直线方程,表中有一个数据模糊不清,请你推断出该数据的值为( )
A.75B.62C.68D.81
【答案】C
【解析】
【分析】求出样本中心点,代入回归方程即可求出.
【详解】设表中模糊看不清的数据为.由表中数据得,,
将,代入经验回归方程,得.故选:C.
9. 某大型汽车销售店销售某品牌型汽车,已知该型汽车的价格与月销售量之间有如下关系:
若型汽车的月销售量与价格之间的关系满足经验回归方程,则型汽车价格降到19万元/辆时,月销售量大约是( )A.39辆B.42辆C.45辆D.50辆
【答案】B
【解析】
【分析】由题可求样本中心,再利用回归直线即求.
【详解】由表中数据可求得,,代入经验回归方程,得,所以,
将代入经验回归方程,得,即月销售量大约为42辆.故选:B.
10. 研究两个变量的相关关系,得到了7个数据,作出其散点图如图所示,对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程,相关系数为;方案二:剔除点3对应的数据,根据剩下数据得到线性回归直线方程:,相关系数为,则( )
A. B.
C. D.
【答案】D
【解析】
【分析】根据散点图知变量、具有正线性相关关系,且点3是离群值,剔除离群值后,线性相关性强些,是正相关,由此得出正确的结论.
【详解】根据相关变量,的散点图知,变量、具有正线性相关关系,且点3是离群值.
方案一中,没剔除离群值,线性相关性弱些,成正相关,故;
方案二中,剔除离群值,线性相关性强些,也是正相关.相关系数.
11. 已知某种商品的广告费支出(单位:万元)与销售额(单位:万元)之间具有线性相关关系,利用下表中的五组数据求得回归直线方程为根据该回归方程,预测当时,,则( )
A.B.C.D.
【答案】C
【解析】
【分析】计算求得样本中心点后,代入回归直线,与已知条件一起构造方程组求得.
【详解】由表格数据可得:,,
则,解得:.故选:C.
12. .蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率(每分钟鸣叫的次数)与气温(单位:℃)存在着较强的线性相关关系.某地观测人员根据如表的观测数据,建立了关于的线性回归方程,则下列说法不正确的是( )
A.的值是20
B.变量,呈正相关关系
C.若的值增加1,则的值约增加0.25
D.当蟋蟀52次/分鸣叫时,该地当时的气温预报值为33.5℃
【答案】D
【解析】
【分析】根据样本中心过经过线性回归方程、正相关的性质和线性回归方程的意义进行判断即可.
【详解】由题意,得,,
则,故A正确;由线性回归方程可知,,变量,呈正相关关系,故B正确;若的值增加1,则的值约增加0.25,故C正确;当时,,故D错误.故选:D.
13. 2020年春季.新冠肺炎疫情在全球范围内相维爆发.因为政治制度、文化背景等因素的不同.各个国家疫情防控的效果具有明显差异.右图是西方某国在天内感染新冠肺炎的累计病例人数(万人)与时间(天)的散点图.则下列最适宜作为此模型的回归方程的类型是( )
A.B.
C.D.
【答案】C
【解析】
【分析】根据散点图,对A、B、C、D进行分析.
【详解】根据散点图,可以看出,三点大致分布在一条“指数”函数曲线附近,
选项A对应的“直线型”的拟合函数;选项B对应的“幂函数型”的拟合函数;选项D对应的“对数型”的拟合函数;故选:C
【点睛】散点图的作用:
(1)确认两组变量是否相关;
(2)发现变量这间除因果关系之外的其他关系;
(3)直观观察或用统计分析两变量潜在关系的强度;
(4)图形分析:散点图的形状可能表现为变量间的线性关系、指数关系和对数关系等.
14. 对于变量Y和变量x的成对样本观测数据,用一元线性回归模型得到经验回归模型,对应的残差如下图所示,模型误差( )
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的的假设
C.不满足一元线性回归模型的假设
D.不满足一元线性回归模型的和的假设
【答案】C
【解析】
【分析】根据用一元线性回归模型有关概念即可判断.
【详解】用一元线性回归模型得到经验回归模型,根据对应的残差图,残差的均值可能成立,但明显残差的轴上方的数据更分散,不满足一元线性回归模型,正确的只有C.故选:C.
15. 每天,随着清晨第一缕阳光升起,北京天安门广场都会举行庄严肃穆的升旗仪式,每天升国旗的时间随着日出时间的改变而改变,下表给出了2020年1月至12月,每个月第一天北京天安门广场举行升旗礼的时间:
若据此以月份(x)为横轴、时间(y)为纵轴,画出散点图,并用曲线去拟合这些数据,则适合模拟的函数模型是( )A.B.且a≠1)
C.D.且a≠1)
【答案】C
【解析】
【分析】画出散点图,根据图形即可判断.
【详解】画出散点图如下,则根据散点图可知,可用正弦型曲线拟合这些数据,故适合.故选:C.
16. 已知与之间的几组数据如表.
如表数据中的平均值为2.5,若某同学对赋了二个值分别为,得到二条线性回归直线方程分别为,对应的相关系数分别为,下列结论中错误的是( )
参考公式:线性回归方程中,其中,.相关系数.A.B.相关系数中,C.D.
【答案】D
【解析】
【分析】根据所给数据,分取,两个数值,进行分类讨论即可得解.
【详解】根据图表可得由的平均值为2.5,若取,则,
代入公式可得,,,所取,则,
此时代入公式可得,,,所以错误,故选:D.
题组B 能力提升练
1. (多选题)关于变量x,y的n个样本点及其线性回归方程.下列说法正确的有( )
A.相关系数r的绝对值|r|越接近0,表示x,y的线性相关程度越强
B.相关指数的值越接近1,表示线性回归方程拟合效果越好
C.残差平方和越大,表示线性回归方程拟合效果越好
D.若,则点一定在线性回归方程上
【答案】BD
【分析】根据回归分析的相关知识,逐一分析四个选项的正误即可.相关系数的绝对值越接近0,线性相关度越弱.相关指数表示拟合效果的好坏,指数越大,拟合程度越好.残差平方和越小,拟合程度越好.线性回归方程一定过样本中心点.
【详解】根据线性相关系数的意义可知,当的绝对值越接近于0时,两个随机变量线性相关性越弱,则A错误;用相关指数来刻画回归效果,越大,说明模型的拟合效果越好,则B正确;
拟合效果的好坏是由残差平方和来体现的,残差平方和越大,拟合效果越差,则C错误;
样本中心点一定在回归直线上,则D正确.故选:BD.
2. (多选题)某工厂的某产品的产量(千件)与单位成本(元)满足线性回归方程,则( )
A.产量每增加1千件,单位成本约下降1.82元
B.产量每减少1千件,单位成本约下降1.82元
C.当产量为1千件时,单位成本为75.54元
D.当产量为2千件时,单位成本约为73.72元
【答案】AD
【解析】
【分析】根据线性回归方程中参数、中的含义以及与的不确定性关系即可求解.
【详解】∵线性回归方程,∴由线性回归方程变量系数的含义可知,当产量每增加1千件时,单位成本约下降1.82元,故A正确;
当产量减少1千件时,单位成本约上升1.82元,故B错;
当产量为1千件时,单位成本约为75.54元,故C错;
当产量为2千件时,单位成本约为73.72元,故D正确.故选:AD.
3. (多选题)某网店最近推出了一款新型儿童玩具——电动遥控变形金刚,可以全面提高宝宝的语言能力、情绪释放能力、动手能力,同时以其优良的做工逐渐在市场中脱颖而出.如表是该网店2021年年初开始销售此玩具6周以来所获得的利润数据统计情况.
根据表中的数据可知y与x线性相关,且线性回归方程为,则下列说法正确的是( )A.
B.销售该玩具所获得的利润逐周增加,平均每周增加约445元
C.相应于点(5,955)的残差为10
D.预测第7周销售该玩具所获得的利润约为1145元
【答案】ACD
【解析】
【分析】根据回归直线必过样本点的中心,求得,即可判断A;根据回归方程即可判断B;根据残差=实际数据-预测数据,求出第5个样本点对应的残差即可判断C,将代入回归方程,即可判断D.
【详解】对于A:由,,所以将样本点中心代入,得,故A正确;
对于B:由选项A得线性回归方程为,因此销售该玩具所获得的利润逐周增加,平均每周增加约100元,故B不正确;
对于C:第5个样本点对应的残差为,故C正确;
对于D:第7周时,将代入回归方程可得(元),故D正确.故选:ACD.
4. (多选题)已知由样本数据,、、、、、求得的经验回归方程为,且.现发现一个样本数据误差较大,去除该数据后重新求得的经验回归直线的纵截距依然是,则下列说法正确的是( )
A.去除前变量每增加个单位,变量一定增加个单位
B.去除后剩余样本数据中的平均数为
C.去除后的经验回归方程为
D.去除后相关系数变大
【答案】BCD
【解析】
【分析】求出去除后剩余样本数据中的平均数以及回归直线方程,可判断BC选项的正误;利用回归直线方程中两个变量的关系可判断A选项的正误;利用相关系数与相关性的关系可判断D选项的正误.
【详解】当时,,则,,
去除样本数据的新数据后,,,
设去除样本数据后重新求得的经验回归直线方程为,则,解得,故去除后的经验回归方程为,C对;
对于A选项,去除前变量每增加个单位,变量大约增加个单位,A错;
对于B选项,去除后剩余样本数据中的平均数为,B对;
对于D选项,去除了误差较大的样本数据后,线性相关性变强,
因为关于为正相关,则,所以,相关系数变大,D对.故选:BCD.
5. (多选题)已知由样本数据点集合,求得的回归直线方程为,且,现发现两个数据点(1.2,2.2)和(4.8,误差较大,去除后重新求得的回归直线的斜率为1.2,则( )
A.变量与具有正相关关系
B.去除后的估计值增加速度变快
C.去除后方程为
D.去除后相应于样本点的残差平方为
【答案】ACD
【解析】
【分析】根据题意可得原始数据中,,由两个数据点(1.2,2.2)和(4.8,7.8)的平均数为3和5,因此可得到,仍然成立,代入直线方程求得,接着依次判断选项即可.
【详解】由样本数据点集合,
回归直线方程为,且,得到,
去除掉两个数据点(1.2,2.2)和(4.8,7.8),
因为,所以去除掉两个数据点后,,仍然成立,
因为直线方程,将,代入求得;
故A选项正确;因为,所以B选项错误;由上知C选项正确;
去除后,当,相应于样本点的残差平方为,故D选项正确;
故选:ACD.
【点睛】一是回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.二是根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
6. (多选题)我国已成为名副其实的工业大国.据统计,在500多种主要工业品中,我国有220多种产品产量居全球第一位,工业化的大规模推进也消耗了大量的资源和能源,为加快推进工业节能与绿色发展,工业和信息化部及国家开发银行联合发布了《关于加快推进工业节能与绿色发展的通知》,大力支持工业节能降耗、降本增效,实现绿色发展.如表是某国企利用新科技进行节能降耗技术改造后连续五年的生产利润统计表:
则下列说法正确的是( )
(参考公式及数据:;,,)A.这五年生产利润的方差为0.06
B.每年的年生产利润比前一年大约增长0.49千万元
C.预测2020年该国企的年生产利润为1.68千万元
D.要使年生产利润突破2千万元,至少要等到2022年
【答案】ACD
【解析】
【分析】由表中数据,根据相关公式,计算方差,回归方程再结合选项一一判断即可.
【详解】由表中数据,计算(1+2+3+4+5)=3,(0.7+0.8+1+1.1+1.4)=1,
s2 [(﹣0.3)2+(﹣0.2)2+02+0.12+0.42]=0.06,所以A正确;
计算0.17,
所以每年的年生产利润比前一年大约增长0.17千万元,B错误;
计算1﹣0.17×3=0.49,
所以y关于x的线性回归方程为0.17x+0.49;
因为2020年对应的年份代码为7,计算0.17×7+0.49=1.68,
所以2020年的年生产利润约为1.68千万元,C正确;
令2,即0.17x+0.49>2,解得x8.9,x∈N*,x≥9;
所以当x=9,即到2022年时,该国企的年生产利润会突破2千万元,D正确.故选:ACD.
7. (多选题)年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区年月至年月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码分别对应年月年月)
根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到以下一些统计量的值:
注:是样本数据中的平均数,是样本数据中的平均数,则下列说法正确的是( )A.当月在售二手房均价与月份代码呈负相关关系
B.由预测年月在售二手房均价约为万元/平方米
C.曲线与都经过点
D.模型回归曲线的拟合效果比模型的好
【答案】BD
【解析】根据散点图的分布可判断A选项的正误;将代入回归方程可判断B选项的正误;根据非线性回归曲线不一定经过 可判断C选项的正误;根据回归模型的拟合效果与的大小关系可判断D选项的正误.
【详解】对于A,散点从左下到右上分布,所以当月在售二手房均价y与月份代码x呈正相关关系,故A不正确;
对于B,令,由,
所以可以预测2021年2月在售二手房均价约为1.0509万元/平方米,故B正确;
对于C,非线性回归曲线不一定经过 ,故C错误;
对于D,越大,拟合效果越好,由,故D正确.故选:BD
8. (多选题)已知由样本数据点集合,求得的回归直线方程为,且,现发现两个数据点和误差较大,去除后重新求得的回归直线l的斜率为1.2,则( )
A.变量x与y具有正相关关系B.去除后的回归方程为
C.去除后y的估计值增加速度变快D.去除后相应于样本点的残差为0.05
【答案】AB
【分析】
A. 根据回归直线方程的x系数的正负判断.B. 根据去除前后样本点不变判断.C. 根据去除前后x的系数大小判断.D.根据残差的计算公式判断.
【详解】因为回归直线方程为,,所以变量x与y具有正相关关系.故A正确.
当时,,样本点为,去掉两个数据点和后,样本点还是,
又因为去除后重新求得的回归直线l的斜率为1.2,所以,解得,
所以去除后的回归方程为,故B正确.
因为,所以去除后y的估计值增加速度变慢,故C错误.
因为,所以,故D错误.故选:AB
【点睛】本题主要考查回归分析的理解,还考查了理解辨析的能力,属于基础题.
9. 某工厂为研究某种产品产量x(吨)与所需某种原材料y(吨)的相关性,在生产过程中收集4组对应数据如下表所示:
根据表中数据,得出y关于x的经验回归方程为.据此计算出在样本点处的残差为,则的值为______,表中m的值为______.
【答案】 0.35或 4.5或
【解析】
【分析】由残差定义可得当x=4时的预测值,代入回归方程可得,再利用回归方程过样本中心点可得m.
【详解】由在样本点处的残差为-0.15,可得当时;,即,解得.又,,回归直线过点,所以,解得.故答案为:0.35,4.5
10. 某品牌餐饮公司准备在10个规模相当的地区开设加盟店,为合理安排各地区加盟店的个数,先在其中5个地区进行试点,得到试点地区加盟店个数x及单店日平均营业额y(万元)的::数据如下:
根据上表可得y关于x线性相关,为保证规模和效益,该公司要求在其他5个地区需满足同一地区所有加盟店的日平均营业额预计值总和不低于35万元,则一个地区开设的加盟店个数m的所有可能取值为______.(参考数据:,)
【答案】5,6,7
【解析】
【分析】根据题意求出,利用最小二乘法求出,进而求出即可得出线性回归方程,根据题意列出不等式,解之即可.
【详解】由题意可得,,,
,,
设线性回归方程为,则,,
故线性回归方程为.根据题意,,解得,又,
所以m的所有可能取值为5,6,7.故答案为:5,6,7
11. 一般来说,一个人脚越长,他的身高就越高.现对10名成年人的脚长x与身高y进行测量,得到如下数据(单位:cm):
作出散点图后,发现散点在一条直线附近.经计算得到一些数据:,,,.某刑侦人员在某案发现场发现一对裸脚印,量得每个脚印长26.5cm,你估计嫌疑人的身高为______cm.
【答案】185.5
【解析】
【分析】利用已知条件求出对应系数,写出线性回归方程,把脚印长代入回归方程即可求出此人的身高.
【详解】由已知得,,故.
当时,.故答案为:185.5.
12. 已知由一组样本数据确定的回归方程为,且,发现有两组数据(2.4,2.8)与(1.6,5.2)误差较大.去掉这两组数据后,重新求得回归直线的斜率为1,那么当时,的估计值为______.
【答案】6
【解析】
【分析】由题意求出样本点的中心为(2,4),然后设去掉这两组数据后回归方程为,将中心点坐标代入可求出,从而可得回归方程,进而可求得答案
【详解】∵由一组样本数据确定的回归方程为,且,
∴,∴样本点的中心为(2,4).
去掉(2.4,2.8)与(1.6,5.2) ,剩余数据的样本点的中心为(2 ,4).
∵重新求得的回归直线的斜率为1,
∴回归方程可设为,将(2,4)的坐标代入,得,
∴回归直线的方程为.将代入经验回归方程,得的估计值为6.
故答案为:6
13. 高三某班学生每周用于物理学习的时间x(单位:小时)与物理成绩y(单位:分)之间有如下关系:
根据上表可得回归方程的斜率为3.53,则回归直线在y轴上的截距为________.(精确到0.1)
【答案】13.5
【解析】
【详解】由已知可得,
,所以样本中心点为.
由题意设回归直线方程为
因为回归直线方程过样本中心点,所以,解得.
即回归直线在y轴上的截距为.答案:
14. 某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
由表中数据,求得线性回归方程为=-20x+.若在这些样本中任取一点,则它在回归直线左下方的概率为_________.
【答案】
【解析】
【详解】由表格数据可知:,.
∵,∴∴回归直线方程为
分别将个点代入方程得小于的点有两个点,则其这些样本点中任取点,共有种不同的取法,其中这两点恰好在回归直线两侧的共有种不同的取法,故满足条件的概率.
故答案为.
【点睛】本题考查的知识是线性回归方程及等可能性事件的概率.回归直线方程中系数的两种求法①公式法:利用公式,求出回归系数;②待定系数法:利用回归直线过样本点中心求系数;求出基本事件的总数和满足某个事件的基本事件个数是解答本题的关键.
C 培优拔尖练
1. 已知下列表格中数据的回归直线方程为.
(1)求实数的值;
(2)预测当x=9时的值.
【答案】(1) ; (2).
【解析】
【分析】(1)通过表格求出样本中心点,代入回归直线方程,即可求出;(2)根据(1)中的结果可得线性回归方程,将代入即可.
【详解】(1)由题可得=4,=258,由,得=242.8.
(2)由(1)得,当时,=3.8×9+242.8=277.
【点睛】本题考查的知识点是线性回归直线方程,其中样本中心点在回归直线上,满足线性回归方程,是解答此类问题的关键.
2.某工厂对某产品的产量与成本的资料分析后有如下数据:
(1)画出散点图;
(2)求成本与产量之间的线性回归方程.(结果保留两位小数)
【答案】(1)答案见解析;(2).
【解析】
(1)根据已知数据作散点图;
(2)先计算,然后计算出系数可得回归直线方程.
【详解】(1)散点图如图所示.
(2)设成本与产量之间的线性回归方程为,
由题意得,
所以,
.所以线性回归方程为.
3. 根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若,则线性相关程度很高,可用线性回归模型拟合);
(2)求y关于x的回归方程,并预测当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少?
附:相关系数公式.
参考数据:,.
回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)0.95;答案见解析;(2);610千克.
【解析】(1)根据散点图中的数据分别求得可得,,,,,进而求得相关系数,再与0.75比较下结论.
(2)结合(1)中的数据,分别求得,,写出回归方程,然后将代入求解.
【详解】(1)由已知数据可得,,
所以,
,
,
所以相关系数.
因为,所以可用线性回归模型拟合y与x的关系.
(2),,所以回归方程为.
当时,,
即当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为610千克.
4. 为了分析某个高三学生的学习状态,对其下一个阶段的学习提出指导性建议,某老师现对他前7次考试的数学成绩x、物理成绩y进行分析.下面是该学生7次考试的成绩.
(1)他的数学成绩与物理成绩哪个更稳定?请给出你的证明.
(2)已知该学生的物理成绩y与数学成绩x是线性相关的,若该学生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该学生在学习数学、物理上的合理建议.
【答案】(1)物理成绩更稳定,理由见解析;(2)大约为130分,建议见解析.
【解析】
【分析】(1)根据表中的数据,求得,进而求得数学和物理的方差,比较大小,即可得结论;
(2)由于与之间具有线性相关关系,利用最小二乘法求得回归直线的方程,由估计值作答.
【详解】(1)由表中数据得,,
数学成绩的方差,
物理成绩的方差,有,所以物理成绩更稳定.
(2)由于x与y之间具有线性相关关系,设线性回归方程为,
,
,
根据回归系数公式得,,
于是得线性回归方程为 =0.5x+50,当=115时,x=130,
所以该学生的物理成绩达到115分时,他的数学成绩大约为130分,
物理和数学的关系非常密切,建议该生进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.
5. 2020年新型冠状病毒肺炎疫情期间,某医院随着医疗工作的有序开展,从2020年3月1日算第一天起,该医院每日治愈的新型冠状病毒肺炎人数(人)的近5天的具体数据如下表:
若在一定时间内,该医院每日治愈的新型冠状病毒肺炎病人数与天数具有相关关系,已知线性回归方程恒过定点,且,.
(1)求的值和线性回归方程;
(2)预测该医院3月11日能否可以实现“单日治愈人数突破40人”的目标?
参考公式:,,,为样本平均值.
【答案】(1),;(2)能实现.
【解析】
(1)线性回归方程恒过定点,知故可求;根据参数公式求回归方程;
(2)取代入回归方程计算结果再与40比较即可有结论.
【详解】
解:(1)由题意,,,
∴,解得,
∵,,
所以,,
,
所以线性回归方程为.
(2)在中,3月11日即,
取..
∵,
∴该医院3月11日能实现“单日治愈人数突破40人”的目标.
【点晴】
关键点点晴:定点为回归方程中心点,即,,是求的关键.
6. 某学生为了测试燃气灶烧水如何节省天然气的问题设计了一个试验,并获得了天然气开关旋钮旋转的弧度数与烧开一壶水所用时间(以下简称烧水时间)的一组数据,且进行了一定的数据处理(如下表),得到了散点图(如下图).
表中.
(1)根据散点图判断,与哪一个更适宜作为烧水时间关于开关旋钮旋转的弧度数的回归方程类型;(不必说明理由)
(2)根据判断结果和表中数据,建立关于的回归方程;
(3)如果旋转的弧度数与单位时间内天然气输出量成正比,那么为多少时,烧开一壶水最省天然气?
附:对于一组数据,其回归直线方程的斜率和截距的最小二乘估计分别为.
【答案】(1);(2);(3).
【解析】
(1)根据所给的散点图的形状进行选择即可;
(2)根据所给的公式代入所给的数据进行求解即可;
(3)根据题意得到天然气用量的表达式,结合基本不等式进行求解即可.
【详解】(1)更适宜作为烧水时间关于开关旋钮旋转的弧度数的回归方程类型.
(2)由公式可得,,
所以所求回归方程为.
(3)设,则天然气用量,
当且仅当时取“=”,即(负值舍去)时,天然气用量最小.
7. 在一次抽样调查中测得个样本点,得到下表及散点图.
(1)根据散点图判断与哪一个适宜作为关于的回归方程;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果试建立与的回归方程;(计算结果保留整数)
(3)在(2)的条件下,设且,试求的最小值.
参考公式:回归方程中,,.
【答案】(1);(2);(3).
【解析】
(1)根据散点图的分布情况可得出结论;
(2)作变换,将数据代入最小二乘法公式,可求得和的值,进而可得出与的回归方程;
(3)求得,利用函数的单调性可求得的最小值.
【详解】
(1)由题中散点图可以判断,适宜作为关于的回归方程;
(2)令,则,原数据变为
由表可知与近似具有线性相关关系,计算得,
,
,
所以,,则.
所以关于的回归方程是.
(3)由(2)得,,
任取、,且,即,
可得,
因为,则,,所以,,
所以,函数在区间上单调递增,则.
【点睛】关键点点睛:对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.
8. 某公司为了提高某产品的收益,向各地作了广告推广,同时广告对销售收益也有影响,在若干地区各投入4万元广告费用,并将各地区的销售收益绘制成频率分布直方图(如图所示),且拟定一个合理的收益标准(百万元),由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.
(1)根据频率分布直方图,计算图中各小长方形的宽度;
(2)根据频率分布直方图,若该公司想使的地区的销售收益超过标准(百万元),估计的值;
(3)按照类似的研究方法,测得另外一些数据,并整理得到下表:
表中的数据显示,与之间存在线性相关关系,计算关于的回归方程.
(回归直线的斜率和截距的最小二乘估计公式分别为,)
【答案】(1)2;(2);(3).
【解析】
【分析】
(1)根据频率分布直方图,由频率分布直方图各小长方形面积总和为1,可计算图中各小长方形的宽度;
(2)根据长方形的面积表示概率,得到关于的方程,解出即可;
(3)利用最小二乘法求出回归直线方程即可.
【详解】(1)设各小长方形的宽度为,由频率分布直方图各小长方形面积总和为1,
可知,故;
(2)由(1)知各小组依次是,,,,,,
,
由估计值是百万元,
得,解得:,
(3)由题意可知,,
,
,
,
根据公式,可求得,
,
即回归直线的方程为.
【点睛】本题考查回归方程,考查频率分布直方图,考查学生的读图、计算能力,属于中档题.
9. 某工厂生产不同规格的一种产品,根据检测标准,其合格产品的质量与尺寸之间满足关系式为大于的常数),现随机抽取6件合格产品,测得数据如下:
对数据作了处理,相关统计量的值如下表:
(1)根据所给数据,求关于的回归方程(提示:由已知与呈线性关系);
(2)按照某项指标测定,当产品质量与尺寸的比在区间内时为优等品,现从抽取的6件合格产品中再任选3件,求恰好取得两件优等品的概率.
(附:对于一组数据,其回归直线的斜率和截距的最小二乘法估计值分别为)
【答案】(1);(2).
【解析】
(1)对,两边取自然对数得,令,,得,推导出,由此能求出关于的回归方程.
(2)求得,,68,78,即优等品有3件,从6件合格品中选出3件的方法数为,从6件合格品取3件恰好2件为优等品的取法有种,由此能求出恰好取得两件优等品的概率.
【详解】(1)对两边取自然对数得,
令,得,
,,得,
故所求回归方程为.
(2)由,解得,则,即优等品有3件.
记“恰好取得两件优等品”为事件,
从件合格品中选出3件的方法数为,
从件合格品中取3件,恰好2件为优等品的取法有种,
则.故恰好取得两件优等品的概率为.
【点睛】解答非线性拟合问题,先设出回归方程,利用换元法将非线性回归方程化为线性回归方程,求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
10. 为了研究某班男生身高和体重的关系,从该班男生中随机选取6名,得到他们的身高和体重的数据如下表所示:
在收集数据时,2号男生的体重数值因字迹模糊看不清,故利用其余5位男生的数话得到身高与体重的线性回归方程为.后来得到2号男生的体重精准数值m后再次计算得到线性回归方程为.
(1)求回归方程;
(2)若分别按照和来预测身高为的男生的体重,得到的估计值分别为,,且,求m的值;
(3)指数是目前国际上常用的衡量人体胖瘦程度以及是否健康的一个标准,其中指数在24到27.9之间的定义为超重.通过计算可知这6人的指数分别为:22.8,27.4,22.9,24.7,23.1,22.6,现从这6人中任选2人,求恰有1人体重为超重的概率.
附:回归直线的斜率和截距的最小二乘估计公式分别为:,.
【答案】(1);(2);(3)
【解析】
(1)先计算,,再根据参考公式计算即可得答案;
(2)根据题意得,进而得,故,此外6名男生的身高的平均值为,体重的平均值为,进而根据参考公式得,,进而解方程即可得;
(3)根据古典概型模型列举所有可能的基本事件总数,进而求得满足条件的基本事件数,再根据古典概型公式计算即可.
【详解】(1),
,
所以,,
所以,,
所以.
(2)根据题意,将代入方程得,
所以,
所以, ①
另一方面,6名男生的身高的平均值为,体重的平均值为,
所以, ②
,,
所以, ③
综合①②③即可得:,.
(3)设这6人分别记为,其中表示体重超标的两人,
则从这6人中任选2人,所有的可能情况为:,共15种,
其中恰有1人体重为超重有:,共8种,
所以恰有1人体重为超重的概率为:.
【点睛】本题考查回归方程的计算,古典概型的概率计算,考查运算求解能力,是中档题.其中第二问解题的关键在于根据题意计算6名男生的身高的平均值为,体重的平均值为,进而根据参考公式得,,再结合得,进而解方程求解.
课程标准
课标解读
了解一元线性回归模型的含义,理解两
个变量之间随机关系的一元线性回归模型的作用与意义;
了解残差在线性回归与非线性回归问
题的作用及意义;
了解一元线性回归模型参数与最小二
乘估计的推导过程,理解最小二乘估计的原理;
会结合题意求一元线性回归方程;
会用相关指数进行分析模型拟合的效
果情况.
通过本节课的学习,要求会求一元线性回归方程,会进行残差分析,能判断回归模型的拟合效果,能利用样本数据建立统计模型并能进行预测.
气温x(℃)
18
13
10
-1
y(km)
2.4
3.4
3.8
6.4
x
3
4
5
6
y
2.4
3.1
4
4.5
百元
甲
乙
丙
丁
散点图
残差平方和
115
106
124
103
天数(天)
3
4
5
6
繁殖个数(千个)
2.5
3
4
4.5
1
2
3
4
x
3
4
5
6
7
y
3.5
2.4
1.1
-0.2
-1.3
10
20
30
40
50
20
30
40
50
70
x
1
2
3
4
5
y
2
3
4
5
7
x
2
3
4
5
6
y
25
37
50
56
64
x
6
8
10
12
y
6
5
3
2
年份
2015
2016
2017
2018
2019
年份代号
0
1
2
3
4
年销量
10
15
20
35
x
0
1
3
4
y
2.2
4.3
4.8
m
第周
1
2
3
4
5
治愈人数
2
17
36
93
142
2
4
5
6
8
30
40
60
50
70
温度x/℃
21
23
24
27
29
32
产卵数y/个
6
11
20
27
57
77
X
6
8
10
12
Y
2
3
5
6
茶叶克数
1
2
3
4
5
4.34
4.36
4.44
4.45
4.51
x
1
2
3
4
5
6
7
8
9
10
y
2
2.69
3
3.38
3.6
3.8
4
4.08
4.2
4.3
x
1
2
3
4
y
e
e3
e4
e6
x
1
2
3
4
z
1
3
4
6
广告费用(万元)
2
3
5
6
销售利润(万元)
5
7
9
11
6
8
10
12
6
3
2
零件数
10
20
30
40
50
加工时间()
62
75
81
89
价格/(万元/辆)
25
23.5
22
20.5
月销售量/辆
30
33
36
39
(次数/分钟)
20
30
40
50
60
(℃)
25
27.5
29
32.5
36
1月
2月
3月
4月
5月
6月
7月
8月
9月
10月
11月
12月
7:36
7:23
6:48
5:59
5:15
4:48
4:49
5:12
5:41
6:10
6:42
7:16
(周)
1
2
3
4
5
6
(元)
550
650
750
810
955
1055
年份
2014
2015
2016
2017
2018
年份代码
1
2
3
4
5
年生产利润y(单位:千万元)
0.7
0.8
1
1.1
1.4
x
3
4
5
6
y
2.5
3
4
m
x
1
2
3
4
5
y
10.9
10.2
9.0
7.8
7.1
x
20
21
22
23
24
25
26
27
28
29
y
141
146
154
160
169
176
181
188
197
203
x
24
15
23
19
16
11
20
16
17
13
y
92
79
97
89
64
47
83
68
71
59
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
x
2
3
4
5
6
y
251
254
257
262
266
产量(千件)
2
3
5
6
成本(万元)
7
8
9
12
数学
88
83
117
92
108
100
112
物理
94
91
108
96
104
101
106
第天
1
2
3
4
5
治愈的新型冠状病毒肺炎人数(人)
2
4
8
18
1.47
20.6
0.78
2.35
0.81
16.2
广告投入(单位:万元)
1
2
3
4
5
销售收益(单位:百万元)
2
3
2
5
7
尺寸(mm)
38
48
58
68
78
88
质量(g)
16.8
18.8
20.7
22.4
24
25.5
75.3
24.6
18.3
101.4
编号
1
2
3
4
5
6
身高
165
171
167
173
179
171
体重
62
m
64
74
74
66
人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用学案设计: 这是一份人教A版 (2019)选择性必修 第三册<a href="/sx/tb_c4000364_t4/?tag_id=42" target="_blank">8.2 一元线性回归模型及其应用学案设计</a>,共25页。学案主要包含了典例解析等内容,欢迎下载使用。
高中数学8.2 一元线性回归模型及其应用优秀导学案: 这是一份高中数学8.2 一元线性回归模型及其应用优秀导学案,文件包含人教A版高中数学选择性必修第三册同步讲义第27讲82一元线性回归模型及其应用原卷版doc、人教A版高中数学选择性必修第三册同步讲义第27讲82一元线性回归模型及其应用含解析doc等2份学案配套教学资源,其中学案共0页, 欢迎下载使用。
高中数学人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用优秀导学案: 这是一份高中数学人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用优秀导学案,共12页。学案主要包含了学习目标,自主学习,小试牛刀,经典例题,跟踪训练,当堂达标,参考答案等内容,欢迎下载使用。