【同步讲义】(苏教版2019)高中数学选修第二册:9.1.2线性回归方程 讲义
展开第九章 统计
9.1.2线性回归方程
目标导航
课程标准
重难点
1.结合具体实例,了解线性回归模型的含义,了解模型
参数的统计意义,了解最小二乘原理,掌握线性回归模型参数的最小二乘法.
2.针对实际问题,会用线性回归模型进行预测.
重点:一元线性回归模型参数的最小二乘估计方法;
难点:用一元线性回归模型进行预测.
知识精讲
知识点01 线性回归方程
1.随机误差
具有线性相关关系的两个变量的取值x,y,y的值不能由x完全确定,它们之间是统计相关关系,可将x,y之间的关系表示为y=a+bx+ε,其中a+b是确定性函数, ε称为随机误差.
2.随机误差产生的主要原因:
(1)所用的确定性函数不恰当引起的误差;
(2)忽略了某些因素的影响;
(3)存在观测误差.
3.线性回归模型中a,b值的求法:
y=a+bx+ε称为线性回归模型. a,b的估计值为,.
b=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nxi2-nx2,a=y-bx,其中x=1ni=1nxi,y=1ni=1nyi.
4.回归直线和线性回归方程
直线 = x+称为回归直线,此直线方程称为线性回归方程,称为回归截距,称为回归系数,称为回归值。此种求回归直线的方法称为最小二乘法.
【即学即练1】(2023·全国·高三专题练习)如图是根据x,y的观测数据xi,yii=1,2,⋯,10得到的散点图,可以判断变量x,y具有线性相关关系的有( )
A.①② B.①③ C.②④ D.③④
【答案】D
【分析】根据散点图中各点的分布规律即可判断.
【详解】由图可知,③,④中各点比较均匀的分布在一条直线附近,具有线性相关关系.
故选:D.
【即学即练2】(2022春·湖北·高二统考期末)在下列所示的四个图中,两个变量间具有较强线性相关关系的是( )
A. B. C. D.
【答案】B
【分析】由散点图可得答案.
【详解】对于A,散点落在某条曲线上,两个变量具有函数关系;
对于B,散点落在某条直线附近,这两个变量具有线性相关关系;
对于C,散点落在某条曲线附近,这两个变量具有非线性相关关系;
对于D,散点杂乱无章,无规律可言,这两个变量无相关性,不具有相关关系.
故选:B.
知识点02 回归直线方程的理解
1.回归直线方程的概论
一般地,已知变量x与y的n对成对数据(xi,yi),i=1,2,3,…,n.任意给定一个一
次函数y=bx+a,对每一个已知的xi;由直线方程可以得到一个估计值i= xi+ ,如果一个一
次函数 = x+ 能使(y1-1)2+(y2-2)2+...+(yn-n)2取得最小值,
则 = x+称为y关于x的回归直线方程(对应的直线称为回归直线).
2. 最小二乘法
上述求回归直线方程的过程中需使得平方和最小,所以其中涉及的方法称为最小二乘法.
可以证明,给定两个y与x的一组数据之后,回归直线方程 = x+总是存在的,其中 , 是待定参数.其中,称为回归系数.它实际上也就是回归直线方程的斜率.回归直线方程确定之后,就可用于预测.
需要注意的是,上述公式中,x指的是x1,x2,x3,x4,…,xn平均数,即 x=x1+x2+...+xnn;类似地,是y1,y2,y3,…,yn的平均数,即y=y1+y2+...+ynn
3. 回归直线方程的性质:
(1)回归直线一定过点(x,y )
(2)y与x正相关的充要条件是 >0;y与x 负相关的充要条件是 <0;
(3)当x增大一个单位时,增大1个单位,这就是回归系数的实际意义;
(4)回归直线方程 = x+中x的系数是,表示直线的斜率,注意与一次函数的关系式或直线方程y=ax+b进行区分.
【即学即练3】(2022·全国·高三专题练习)如果在一次试验中,测得x,y的四组值分别是A1,3、B2,3.8、C3,5.2、D4,6,则y与x的回归直线方程是( )
A.y=x+1.9 B.y=1.04x+1.9 C.y=0.95x+1.04 D.y=1.05x-0.9
【答案】B
【分析】根据所给的这组数据,取出这组数据的样本中心点,把样本中心点代入所给的四个选项中验证,若能够成立的只有一个,这一个就是线性回归方程.
【详解】解:∵ x=1+2+3+44=2.5,y=3+3.8+5.2+64=4.5,
∴这组数据的样本中心点是(2.5,4.5),
把样本中心点代入四个选项中,只有y=1.04x+1.9成立,
故选:B.
【即学即练4】(2022·高二课时练习)已知由样本数据点集合xi,yii=1,2,3,⋯,n,求得的回归直线方程为y=1.5x+0.5,且x=3,现发现两个数据点1.2,2.2和4.8,7.8的误差较大,去除后重新求得的回归直线 l 的斜率为1.2,则下列说法正确的是______.
①变量x与y呈正相关关系;
②去除后y的估计值增加速度变快;
③去除后与去除前样本点的中心不变;
④去除后的回归直线方程为y=1.2x+1.4.
【答案】①③④
【分析】根据回归直线方程的意义可判断①②,根据回归直线方程过样本中心可判断③④.
【详解】因为回归直线方程为y=1.5x+0.5, 1.5>0,所以变量 x 与 y 呈正相关关系,故①正确;
因为1.5>1.2,所以去除后y的估计值增加速度变慢,故②错误;
当x=3时,y=3×1.5+0.5=5,所以去除前样本点的中心为3,5,
又因为1.2+4.82=3,2.2+7.82=5,
所以去掉两个数据点1.2,2.2和4.8,7.8后,样本点的中心还是3,5,故③正确;
因为去除后重新求得的回归直线l的斜率为1.2,所以可设l:y=1.2x+a,
将点3,5代入直线l,得5=1.2×3+a,解得a=1.4,
所以去除后的回归直线方程为y=1.2x+1.4,故④正确.
故答案为:①③④.
能力拓展
◆考点01 散点图与回归直线方程
【典例1】(2023·全国·高二专题练习)如图是两个变量的散点图,y关于x的回归方程可能是( )
A.y=3lnx+2 B.y=3ex-1 C.y=-2x3+2 D.y=-110x+2
【答案】C
【分析】根据散点图与给所函数的图象的偏离情况,即可求解.
【详解】由散点图可知,y与x负相关,故排除A,B,对于D:y=-110x+2,点(x,y)偏离y=-110x+2较大,而点(x,y)近似在曲线y=-2x3+2附近,所以 y关于x的回归方程是C的可能性大.
故选:C.
【典例2】(2023·全国·高二专题练习)变量x,y的散点图如图所示,根据散点图,下面四个回归方程类型中最适宜作为y和x的回归方程类型的是( ).
A.y=-b2x+a B.y=bx2+a C.y=b2x+a D.y=bx+a
【答案】B
【分析】根据散点图据曲线形状结合一次函数,二次函数,反比例函数及幂函数的性质判断即得.
【详解】由散点图可以看出y随着x的增长速度越来越快,结合一次函数,二次函数,反比例函数及幂函数的性质可知,
最适宜作为y和x的回归方程类型的是:y=bx2+a.
故选:B.
【典例3】(2022·全国·高三专题练习)在一次数学建模活动中,某同学采集到如下一组数据:
x
-2
-1
0
1
2
3
y
0.24
0.51
1
2.02
3.98
8.02
以下四个函数模型(a,b为待定系数)中,最能反映y与x的函数系的是( )
A.y=a+bx B.y=a+bx C.y=a+logbx D.y=a+bx
【答案】B
【分析】根据题设中表格中的数据画出散点图,结合图象和选项,得到答案.
【详解】由表格中的数据,作出数据的散点图,如图所示,
数据散点图和指数型函数的图象类似,所以选项B最能反映x,y之间的函数关系.
故选:B.
◆考点02 回归直线方程的意义
【典例4】(多选)(2022·高二课时练习)(多选)关于回归分析,下列说法正确的是( )
A.回归分析是研究两个具有相关关系的变量的方法
B.运用最小二乘法求得的回归直线一定经过样本中心x,y
C.回归模型中一定存在随机误差
D.散点图能明确反映变量问的关系
【答案】ABC
【分析】根据回归分析的相关概念和性质逐个分析判断即可.
【详解】对于A,回归分析是研究两个具有相关关系的变量的方法,所以A正确,
对于B,运用最小二乘法求得的回归直线一定经过样本中心x,y,所以B正确,
对于C,因为相关关系是一种非确定关系,所以回归模型中一定存在随机误差,所以C正确,
对于D,散点图反映的是两个变量间的关系,存在误差,所以D错误,
故选:ABC
【典例5】(2023·全国·高二专题练习)如图是某地区2012年至2021年的空气污染天数Y(单位:天)与年份X的折线图.根据2012年至2016年的数据,2017年至2021年的数据,2012年至2021年的数据分别建立线性回归模型Y=b1X+a1,Y=b^2X+a^2,Y=b3X+a3,则( )
A.b1
【分析】在散点图中作出三条线性回归方程对应直线的大致形状,数形结合即得.
【详解】记三条回归直线分别为l1:Y=b1X+a1,l2:Y=b2X+a2,l3:Y=b3X+a3,
画出这三条回归直线的大致图象,如图所示,
由图可知这三条回归直线的斜率大小关系为b2
故选:C.
【典例6】(2022·高二单元测试)根据如下样本数据,得到线性回归方程为Y=nX+m,若样本点的中心x,y为5,0.9,则当X每增加1个单位时,Y平均( )
X
3
4
5
6
7
Y
4.0
m-5.4
-0.5
0.5
n-0.6
A.增加1.4个单位 B.减少1.4个单位 C.增加7.9个单位 D.减少7.9个单位
【答案】B
【分析】根据已知条件解出m和n,得到线性回归方程,即可得到答案.
【详解】样本点的中心x,y为5,0.9,则m+n-25=0.9,故m+n=6.5,且0.9=5n+m,
解得n=-1.4,m=7.9,则Y=-1.4X+7.9,可知当X每增加1个单位时,
Y平均减少1.4个单位.
故选:B.
◆考点03 用huigui9直线方程对整体进行估计
【典例7】(2023·高二单元测试)蟋蟀鸣叫的频率x(次/分)与气温y(°C)存在着较强的线性相关关系.某地观测人员根据如表所示的观测数据,建立了y关于x的线性回归方程y=0.25x+b,则当蟋蟀每分钟鸣叫56次时,该地当时的气温预报值为______.
x(次/分)
20
30
40
50
60
y(°C)
25
27.5
29
32.5
36
【答案】34°C
【分析】计算x=40,y=30,代入回归方程得到b=20,再代入数据计算得到答案.
【详解】x=20+30+40+50+605=40,y=25+27.5+29+32.5+365=30,
故30=0.25×40+b,解得b=20,故y=0.25x+20,当x=56时,y=34.
故答案为:34°C
【典例8】(2022春·河南新乡·高二校考期中)某社区医院统计了该社区在夏季某4天患肠道感染类疾病的人数y与平均气温x(℃)的数据如下表,由表中数据算得线性回归方程y=bx+a中的b=4,预测当平均气温为35℃时,该社区患肠道感染类疾病的人数为( )
平均气温(℃)
22
26
29
32
患肠道感染类疾病的人数
12
25
27
56
A.57 B.59 C.61 D.65
【答案】C
【分析】由已知数据计算x,y,根据回归方程的性质求a,再利用回归方程预测当平均气温为35℃时,该社区患肠道感染类疾病的人数.
【详解】由表格数据可得,x=14×22+26+29+32=27.25,y=14×12+25+27+56=30,
因为点x,y在直线y=bx+a上,b=4,
所以a=30-4×27.25=-79,
所以y=4x-79,
故当x=35时,y=4×35-79=61,
即预测当平均气温为35℃时,该社区患肠道感染类疾病的人数为61,
故选:C.
【典例9】(2023秋·江西赣州·高三统考期末)已知变量x和y的统计数据如表:
x
1
2
3
4
5
y
5
5
6
6
8
根据上表可得回归直线方程y=0.7x+a,据此可以预测当x=8时,y=( ).A.9.2 B.9.5 C.9.9 D.10.1
【答案】B
【分析】计算出样本中心点x,y的坐标,代入回归直线方程求得a的值,然后在回归直线方程中,令x=8可求得结果.
【详解】由表格中的数据可得x=1+2+3+4+55=3,y=5+5+6+6+85=6,
由于回归直线过样本的中心点x,y,∴0.7×3+a=6,解得a=3.9,
所以,回归直线方程为y=0.7x+3.9,
当x=8时,y=0.7×8+3.9=9.5.
故选:B.
◆考点04 回归直线方程的求法
【典例10】(2023·全国·高三专题练习)某企业积极响应“碳达峰”号召,研发出一款性能优越的新能源汽车,备受消费者青睐.该企业为了研究新能源汽车在某地区每月销售量y(单位:千辆)与月份x的关系,统计了今年前5个月该地区的销售量,得到下面的散点图及一些统计量的值.
y
i=15xi-xyi-y
i=15ti-tyi-y
9.5
29.5
185.6
表中ti=xi2i=1,2,3,4,5.
(1)根据散点图判断两变量x,y的关系用y=a+bx与y=c+dx2哪一个比较合适?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(b,d的值精确到0.1),并预测从今年几月份起该地区的月销售量不低于3.6万辆?
附:对于一组数据x1,y1,x2,y2,⋯,xn,yn,其回归直线方程y=bx+a的斜率和截距的最小二乘法估计分别为b=i=1nxi-xyi-yi=1nxi-x2,a=y-bx.
【答案】(1)见解析
(2)见解析
【分析】(1)结合散点图可知y=c+dx2合适;
(2)由题中所给的数据及公式计算回归方程,并进行估计即可.
【详解】(1)y=c+dx2比较合适(散点图中点的分布不是一条直线,相邻两点的纵坐标的差值是增大趋势,所以y=c+dx2比较合适)
(2)设t=x2,则t=15×(1+4+9+16+25)=11,
i=15(ti-t)2=(1-11)2+(4-11)2+(9-11)2+(16-11)2+(25-11)2=374
先建立y关于t的回归方程y=c+dt,
则d=i=15(ti-t)(yi-y)i=15(ti-t)2=185.6374≈0.5,c=y-0.5t=9.5-0.5×11=4,
所以y关于t的回归方程为y=4+0.5t,
因此y关于x的回归方程为y=4+0,5x2.
令4+0.5x2≥36,解得x≥8或x≤-8(舍去),
故估计从今年8月份起该地区的月销售量不低于3.6万辆.
【典例11】(2022春·青海·高一统考期末)某企业投资两个新型项目,投资新型项目A的投资额m(单位:十万元)与纯利润n(单位:万元)的关系式为n=1.7m-0.5,投资新型项目B的投资额x(单位:十万元)与纯利润y(单位:万元)的散点图如图所示.
(1)求y关于x的线性回归方程;
(2)若该企业有一笔资金Q(万元)用于投资A,B两个项目中的一个,为了收益最大化,应如何设计投资方案?
附:回归直线y=bx+a的斜率和截距的最小二乘估计分别为b=i=1nxiyi-nxyi=1nxi2-nx2,a=y-bx.
【答案】(1)y=1.6x+0.2;(2)见解析.
【分析】(1)由散点图可知,x取1,2,3,4,5时,y的值分别为2,3,5,7,8,计算出平均数,并利用公式计算出b和a的值,可得y关于x的线性回归方程;
(2)分别计算投资A,B两个项目,该企业所得的纯利润,作差比较大小,得出投资方案.
【详解】解:(1)由散点图可知,x取1,2,3,4,5时,y的值分别为2,3,5,7,8,
所以x=1+2+3+4+55=3,y=2+3+5+7+85=5,
b=1×2+2×3+3×5+4×7+5×8-5×3×512+22+32+42+52-5×32=1.6,
则a=5-1.6×3=0.2.
故y关于x的线性回归方程为y=1.6x+0.2.
(2)因为投资新型项目A的投资额m(单位:十万元)与纯利润n(单位:万元)的关系式为n=1.7m-0.5,
所以若投资A项目,则该企业所得纯利润为1.7×Q10-0.5=0.17Q-0.5万元;
因为y关于x的线性回归方程为y=1.6x+0.2,
所以若投资B项目,则该企业所得纯利润的估计值为1.6×Q10+0.2=0.16Q+0.2万元.
因为0.17Q-0.5-0.16Q+0.2=0.01Q-0.7,
所以当Q<70时,投资B项目;当Q=70时,投资A或B项目;当Q>70时,投资A项目.
【典例12】(2023春·安徽宿州·高二安徽省泗县第一中学校考开学考试)某企业年研发费用x(百万元)与企业年利润y(百万元)之间具有线性相关关系,该企业近5年的年研发费用和年利润的具体数据如下表:
年研发费用x(百万元)
1
2
3
4
5
年利润y(百万元)
2
3
4
4
7
(1)求y关于x的线性回归方程;
(2)如果该企业某年研发费用投入10百万元,预测该企业获得的年利润为多少?
参考公式:线性回归方程y=bx+a的斜率和截距的最小二乘法估计公式分别为:b=i=1nxiyi-nxyi=1nxi2-nx2,a=y-bx.
【答案】(1)y=1.1x+0.7
(2)11.7百万元
【分析】(1)运用题中所给的公式进行求解即可;
(2)结合(1)的结论,运用代入法进行求解即可.
【详解】(1)依题意,x=1+2+3+4+55=3,而y=4,i=15xiyi=71,i=15xi2=55,
则b=i=15xiyi-5xyi=15xi2-5x2=71-5×3×455-5×32=1.1,a=y-bx=4-1.1×3=0.7,
所以y关于x的线性回归方程为y=1.1x+0.7;
(2)由(1)知,当x=10时,y=1.1×10+0.7=11.7,
所以当该企业某年研发费用投入10百万元时,预测该企业获得的年利润为11.7百万元.
◆考点05 非线性回归分析
【典例13】数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.
年份代码x
1
2
3
4
5
市场规模y
3.98
4.56
5.04
5.86
6.36
参考数据:y=5.16,v=1.68,i=15viyi=45.10,其中vi=xi.
参考公式:对于一组数据v1,y1,v2,y2,…,vn,yn,其回归直线y=bv+a的斜率和截距的最小二乘估计公式分别为b=i=1nviyi-nvyi=1nvi2-nv2,a=y-bv.
(1)由上表数据可知,可用函数模型y=bx+a拟合y与x的关系,请建立y关于x的回归方程(a,b的值精确到0.01);
(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X,若PX=3=PX=4,求X的分布列与期望.
【答案】(1)y=1.98x+1.83
(2)分布列见解析,EX=165
【分析】(1)设v=x,则y=bv+a,由最小二乘法求出参数即可求解;
(2)先由PX=3=PX=4求出p,计算出X的值及对应概率,列出分布列,再由二项分布的期望公式求期望即可.
(1)设v=x,则y=bv+a,因为y=5.16,v=1.68,i=15vi2=i=15xi=15,
所以b=i=15viyi-5vyi=15vi2-5v2=45.10-5×1.68×5.1615-5×1.682=1.7560.888≈1.98.
把1.68,5.16代入y=bv+a,得a=5.16-1.98×1.68≈1.83.
即y关于x的回归方程为y=1.98x+1.83;
(2)由题意知X~B4,p,PX=3=C43p31-p=4p31-p,PX=4=C44p4=p4,由4p31-p=p4得p=45,
所以,X的取值依次为0,1,2,3,4,PX=0=C401-454=1625,PX=1=C41⋅45⋅1-453=16625,
PX=2=C424521-452=96625,PX=3=C434531-45=256625,PX=4=C44454=256625,所以X的分布列为
X
0
1
2
3
4
P
1625
16625
96625
256625
256625
EX=4×45=165.
【典例14】为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下:
天数x
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
(1)在图中作出繁殖个数y关于天数x变化的散点图,并由散点图判断y=bx+a(a,b为常数)与y=c1ec2x(c1,c2为常数,且c1>0,c2≠0)哪一个适宜作为繁殖个数y关于天数x变化的回归方程类型?(给出判断即可,不必说明理由)
(2)对于非线性回归方程y=c1ec2x(c1,c2为常数,且c1>0,c2≠0),令z=lny,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值.
x
y
z
i=16xi-x2
i=16xi-xyi-y
i=16xi-xzi-z
3.50
62.83
3.53
17.50
596.57
12.09
(ⅰ)证明:“对于非线性回归方程y=c1ec2x,令z=lny,可以得到繁殖个数的对数z关于天数x具有线性关系(即z=βx+α,β,α为常数)”;
(ⅱ)根据(ⅰ)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小数).
附:对于一组数据u1,v1,u2,v2,⋯,un,vn,其回归直线方程v=βu+α的斜率和截距的最小二乘估计分别为β=i=1nui-uvi-vi=1nui-u2,α=v-βu.
【答案】(1)选择y=c1ec2x为回归方程较宜
(2)(ⅰ)证明见解析;(ⅱ)y=e0.69x+1.12
【分析】(1)根据散点图趋势选择;(2)将非线性回归方程模型转化为线性回归方程模型,结合所给数据求解.
【详解】(1)作出散点图如图所示.
由散点图看出样本点分布在一条指数型曲线y=c1ec2x的周围,
故选择y=c1ec2x为回归方程较宜.
(2)(i)证明:由已知:令z=lny,则z=lny=ln(c1ec2x)=lnc1+lnec2x=lnc1+c2x,
则α=lnc1,β=c2,即z=βx+α.所以繁殖个数的对数z关于天数x具有线性关系.
(ii)由(i)知繁殖个数的对数z关于天数x可以用线性回归方程来拟合.由表中数据可得,
β=i=16(xi-x)(zi-z)i=16(xi-x)2=12.0917.5≈0.69,
α=z-βx=3.53-0.69×3.5≈1.12,
得到z关于x的线性回归方程为z=0.69x+1.12,又z=lny,
因此细菌的繁殖个数y关于天数x的非线性回归方程为y=e0.69x+1.12.
【典例15】(2022·全国·高三专题练习)我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额xi和年盈利额yi的数据.通过对比分析,建立了两个函数模型:①y=α+βx2;②y=eλx+t,其中α、β、λ、t均为常数,e为自然对数的底数.令ui=xi2,vi=lnyii=1,2,⋅⋅⋅,10,经计算得如下数据:
x
y
i=110xi-x2
i=110yi-y2
u
26
215
65
2
680
v
i=110ui-u2
i=110ui-uyi-y
i=110vi-v2
i=110xi-xvi-v
5.36
11250
130
2.6
12
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的选择及表中数据,建立y关于x的回归方程;(系数精确到0.01)
(3)若希望2021年盈利额y为250亿元,请预测2021年的研发资金投入额x为多少亿元.(结果精确到0.01)
【答案】(1)模型y=eλx+t的拟合程度更好
(2)y=e0.18x+0.56
(3)约为27.56亿元
【分析】(1)利用相关系数公式求解进行比较即可;(2)建立v关于x的线性回归方程,由y=eλx+t,得lny=t+λx,即v=t+λx,再代入数据求解即可;(3)根据题意得250=e0.18x+0.56,再分析求解即可.
(1)设ui和yi的相关系数为r1,xi和vi的相关系数为r2.
由题意,r1=i=110u1-uyi-yi=110ui-u2i=110yi-y2=13011250×2=1315≈0.87,
r2=i=110xi-xvi-vi=110xi-x2i=110vi-v2=1265×2.6=1213≈0.92,
则r1
λ^=i=110xi-xvi-vi=110xi-x2=1265≈0.18,t=v-λx=5.36-1265×26=0.56,
所以v关于x的线性回归方程为v=0.18x+0.56,所以lny=0.18x+0.56,则y=e0.18x+0.56.
(3)2021年盈利额y=250(亿元),所以250=e0.18x+0.56,
则0.18x+0.56=ln250.
因为ln250=3ln5+ln2≈3×1.609+0.693=5.52,
所以x≈5.52-0.560.18≈27.56.所以2021年的研发资金投入量约为27.56亿元.
分层提分
题组A 基础过关练
一、单选题
1.(2023·河北衡水·高三河北衡水中学校考阶段练习)以模型y=cekx(c>0)去拟合一组数据时,为了求出回归方程,设z=lny,将其变换后得到经验回归方程z=2x-1,则k,c的值分别是( )
A.-2,e B.2,1e C.-2,1e D.2,e
【答案】B
【分析】模型y=cekx(c>0)两边取对数,又z=lny,可得z=lnc+kx,又已知回归方程z=2x-1,可求k,c的值.
【详解】由题意得lny=lncekx=lnc+kx,设z=lny,可得z=lnc+kx.
又经验回归方程为z=2x-1,
所以lnc=-1,k=2,故c=1e,k=2.
故选:B
2.(2021春·陕西延安·高二子长市中学校考期末)2020年初以来,5G技术在我国已经进人高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了5G手机5个月的实际销量,结果如下表所示:
月份
2020年10月
2020年11月
2020年12月
2021年1月
2021年2月
月份编号x
1
2
3
4
5
销量y/部
50
96
a
185
227
若y与x线性相关,且求得线性回归方程为y=44.3x+7.1,则下列结论错误的是( )A.y与x正相关
B.y与x的相关系数为负数
C.表中a=142
D.预计2021年7月份该手机商城5G手机的销量约为450部
【答案】B
【分析】由回归方程中的x的系数为正可判断A,B;由线性回归方程为y=44.3x+7.1恒过x,y求出a可判断C;求出2021年7月份该手机商城5G手机的销量可判断D.
【详解】由回归方程中的x的系数为正可知,y与x正相关,且其相关系数r>0,故A正确;B错误;
对于选项C,由表中数据,计算得x=151+2+3+4+5=3,所以y=44.3×3+7.1=140,
于是得50+96+a+185+227=700,解得a=142,故C正确;
对于选项D,2021年7月份时,x=10,y^=44.3×10+7.1=450.1部,故D错误.
故选:B.
3.(2021春·陕西汉中·高一统考期末)根据如下样本数据,得到的线性回归方程为y=bx+a,则( )
x
2
3
4
5
6
y
4
2.5
-0.5
-2
-3
A.a>0,b>0 B.a>0,b<0 C.a<0,b>0 D.a<0,b<0
【答案】B
【分析】根据表格分析数据即可得出.
【详解】解:由表格可以得出y随x增大而减小,故b<0,
又x=2+3+4+5+65=4y=4+2.5-0.5-2-35=0.2
故y=bx+a过点4,0.2,代入可得a>0.
故选:B.
4.(2023·河南·洛阳市第三中学校联考一模)已知变量y与x之间具有线性相关关系,根据变量x与y的相关数据,计算得i=17xi=28,i=17yi=1078,i=17xi2=140,i=17xiyi=4508则y关于x的线性回归方程为( )
附:回归方程y=bx+a中的斜率和截距的最小二乘法估计公式分别为b=i=1nxiyi-nx⋅yi=1nxi2-nx2,a=y-bx.
A.y=7x-126 B.y=7x+126
C.y=5x+121 D.y=5x-121
【答案】B
【分析】根据已知数据求b,a,代入回归直线方程即可求解.
【详解】由题中的数据可知x=4,y=154,
所以b^=i=17xiyi-7xyi=17xi2-7x2=4508-7×4×154140-7×16=19628=7.
所以a=y-bx=154-7×4=126.
所以y关于x的线性回归方程为y=bx+a=7x+126.
故选:B.
5.(2023·湖南邵阳·统考二模)党的二十大报告提出全面推进乡村振兴.为振兴乡村经济,某市一知名电商平台决定为乡村的特色产品开设直播带货专场.该特色产品的热卖黄金时段为2023年2月1至4月1日,为了解直播的效果和关注度,该电商平台统计了已直播的2023年2月1日至2月5日时段的相关数据,这5天的第x天到该电商平台专营店购物人数y(单位:万人)的数据如下表:
日期
2月1日
2月2日
2月3日
2月4日
2月5日
第x天
1
2
3
4
5
人数y(单位:万人)
75
84
93
98
100
依据表中的统计数据,该电商平台直播黄金时间的天数x与到该电商平台专营店购物的人数y(单位:万人)具有较强的线性相关关系,经计算得,到该电商平台专营店购物人数y与直播天数x的线性回归方程为y=6.4x+a.请预测从2023年2月1日起的第38天到该专营店购物的人数(单位:万人)为( )A.312 B.313 C.314 D.315
【答案】C
【分析】根据回归直线过样本中心,建立方程,可得参数,即可得答案.
【详解】由题意,x=1+2+3+4+55=3,y=75+84+93+98+1005=90,
将3,90代入y=6.4x+a,可得90=6.4×3+a,解得a=70.8,
线性回归直线方程为y=6.4x+70.8,将x=38代入上式,y=6.4×38+70.8=314.
故选:C.
6.(2023·全国·高二专题练习)2020年初,新型冠状病毒(COVID-19)引起的肺炎疫情爆发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如下表所示:由表格可得y关于x的二次回归方程为y=6x2+a,则此回归模型第4周的残差(实际值与预报值之差)为( )
周数x
1
2
3
4
5
治愈人数y
2
17
36
93
142
A.0 B.1 C.4 D.5
【答案】D
【分析】令t=x2,则y关于t的一次回归方程为y=6t+a,求出t,y,根据线性回归方程过样本中心点求出a,从而可求得预测值,即可得出残差.
【详解】令t=x2,则y关于t的一次回归方程为y=6t+a,
t=1+4+9+16+255=11,y=2+17+36+93+1425=58,
则58=6×11+a,解得a=-8,
则y=6x2-8,
令x=4,得y=6×16=8=88,
所以残差为93-88=5.
故选:D.
二、多选题
7.(2022秋·重庆沙坪坝·高三重庆八中校考阶段练习)研究变量x,y得到一组样本数据,进行回归分析,以下说法正确的是( )
A.残差平方和越大的模型,拟合的效果越好
B.用决定系数R2来刻画回归效果,R2越大说明拟合效果越好
C.在经验回归方程y=0.2x+0.5中,当解释变量x每增加1个单位时,相应观测值y增加0.2个单位
D.经验回归直线一定经过样本中心点(x,y)
【答案】BD
【分析】根据残差、决定系数的定义,线性回归直线方程的概念、性质判断各选项.
【详解】对于A,残差平方和越大的模型,拟合的效果越差,故选项A错误;
对于B,用决定系数R2来刻画回归效果,R2越大说明拟合效果越好,故选项B正确;
对于C,在经验回归方程y=0.2x+0.5中,当解释变量x每增加1个单位时,预测值y平均增加0.2个单位,观测值y无法确定,故选项C错误;
对于D,经验回归直线一定经过样本点的中心x,y,故选项D正确,
故选:BD.
8.(2022·全国·模拟预测)近年来考研成为许多大学生的热门选择,某研究机构为了解大学生考研情况,对2018年至2022年研究生报考人数(单位:万人)作出统计如下表:
年份
2018
2019
2020
2021
2022
年份代码
1
2
3
4
5
研究生报考人数/万人
238
290
341
377
457
根据上述统计数据求得研究生报考人数y与年份代码x满足的线性回归方程为y=bx+183.1,则( )A.b=52.5
B.回归直线y=bx+183.1经过点4,377
C.2018年至2022年每年研究生报考人数约增加183.1万人
D.预测2024年研究生报考人数为550.6万人
【答案】AD
【分析】先求出样本点的中心,代入回归方程求出b,然后得到线性回归方程,对选项逐一分析即可.
【详解】A选项:1+2+3+4+55=3,238+290+341+377+4575=340.6,则样本点的中心为3,340.6,所以340.6=3b+183.1,(回归直线经过样本点的中心)得b=52.5,故A正确;
B选项:因为52.5×4+183.1=393.1≠377,所以回归直线y=bx+183.1不经过点4,377,B错误;
C选项:由A选项知,线性回归方程为y=52.5x+183.1,所以每年研究生报考人数约增加52.5万人,C错误;
D选项:令x=7, 则y=52.5×7+183.1=550.6,故预测2024年研究生报考人数为550.6万人,D正确.
故选:AD.
三、填空题
9.(2021春·陕西渭南·高二统考期末)某产品的宣传费用x(单位:万元)与销售额y(单位:万元)的统计数据如下表所示:
x
4
5
6
7
8
y
60
80
90
100
120
根据上表可得线性回归方程为y=14x+a,则该产品的宣传费用为10万元时,销售额约为__________万元.
【答案】146
【分析】求出样本中心点的坐标,代入回归直线方程,求出a的值,再将x=10代入回归直线方程,可得结果.
【详解】由表格中的数据可得x=4+5+6+7+85=6,y=60+80+90+100+1205=90,
样本中心点的坐标为6,90,
将样本中心点的坐标代入回归直线方程可得14×6+a=90,可得a=6,
故回归直线方程为y=14x+6,当x=10时,y=14×10+6=146.
因此,该产品的宣传费用为10万元时,销售额约为146万元.
故答案为:146.
10.(2021秋·重庆·高三校联考阶段练习)已知x与y之间的一组数据:
x
0
1
4m
3
y
m
3
5.5
7
根据数据可求得y关于x的线性回归方程为y=2.1x+0.85,则m的值为_______.
【答案】0.5##12
【分析】根据题意求出x,y关于m的表达式,代入回归方程即可解得m的值.
【详解】由表格中的数据可得x=0+1+4m+34=1+m,y=m+3+5.5+74=m+15.54,
由于回归直线过样本的中心点x,y,所以m+15.54=2.11+m+0.85,解得m=0.5,
所以m的值为0.5.
故答案为:0.5.
四、解答题
11.(2023春·陕西咸阳·高二校考阶段练习)下表是某校高一(2)班学生每周用于数学学习的时间x(单位:h)与数学成绩y(单位:分)之间的数据:
x
25
15
20
10
12
y
92
80
85
50
60
某同学每周用于数学学习的时间为18小时,试预测该生数学成绩(保留到整数位).
附:回归直线的斜率和截距的最小二乘法估计公式分别为:b=i=1nxiyi-nxyi=1nxi2-nx2=i=1nxi-xyi-yi=1nxi-x2,a=y-bx.
【答案】该同学预计可得78分左右.
【分析】根据最小二乘法可求得回归直线方程,进一步可求当x=18时得到该生的数学成绩.
【详解】
根据表格作出散点图,由散点图可知变量x与y具有线性相关关系,
所以x=25+15+20+10+125=16.4,y=92+80+85+60+505=73.4,
i=15xiyi=25×92+15×80+20×85+10×50+12×60=2300+1200+1700+500+720=6420,
i=15xi2=252+152+202+102+122=625+225+400+100+144=1494,
于是b=i=15xiyi-5xy5xi2-5x2=6420-5×16.4×73.41494-5×16.42=401.2149.2≈2.69,
所以a=y-bx=73.4-2.69×16.4=29.284,
因此回归直线方程为y=2.69x+29.284,
所以当x=18时,y=2.69×18+29.284=77.704≈78,
故该同学预计可得78分左右.
12.(2023春·陕西咸阳·高二校考阶段练习)某收费APP(手机应用程序)自上架以来,凭借简洁的界面设计、方便的操作方式和强大的实用功能深得用户的喜爱.该APP所在的公司统计了用户一个月月租减免的费用x(单位:元)及该月对应的用户数量y(单位:万人),得到如下数据表格:
用户一个月月租减免的费用x(元)
3
4
5
6
7
用户数量y(万人)
1
1.1
1.5
1.9
2.2
已知x与y线性相关.
(1)求y关于x的线性回归方程(i=15xi2=135,i=15yi2=12.91,i=15xiyi=41.7);
(2)求y与x的相关系数(精确到0.01).
参考公式:相关系数r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2,对于一组具有线性相关关系的数据xi,yi(i=1,2,⋯,n),其回归直线y=bx+a的斜率和截距的最小二乘估计公式分别为b=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nxi2-nx2,a=y-bx,1.610.52≈0.49.
【答案】(1)y=0.32x-0.06
(2)0.98
【分析】(1)先求出x,y,再利用最小二乘法求出a,b,即可得解;
(2)根据公式结合题中所给数据计算即可.
【详解】(1)由x=15×3+4+5+6+7=5,y=15×1+1.1+1.5+1.9+2.2=1.54,
有b=41.7-5×5×1.54135-5×52=0.32,a=1.54-0.32×5=-0.06,
故y关于x的线性回归方程为y=0.32x-0.06;
(2)y与x的相关系数r=i=15xiyi-5xyi=15xi2-5x2i=15yi2-5y2
=41.7-5×5×1.54135-5×5212.91-5×1.542
=3.210.52≈2×0.49=0.98.
题组B 能力提升练
一、单选题
1.(2023·河南·高三安阳一中校联考阶段练习)下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量y(单位:百只)的数据,通过相关理论进行分析,知可用回归模型y=e1+ata∈R对y与t的关系进行拟合,则根据该回归模型,预测第6个月该物种的繁殖数量为( )
第t个月
1
2
3
繁殖数量y
e1.4
e2.2
e2.4
A.e3百只 B.e3.5百只 C.e4百只 D.e4.5百只
【答案】C
【分析】将回归模型两边取自然对数lny=1+at,并令u=lny,由此构建一个u与t的回归直线模型,根据回归直线必过中心点t,u,可求出a值,利用所得回归模型进行预测..
【详解】由题意,y=e1+at两边取自然对数得lny=1+at,
令u=lny,则u=1+at.
u=lny1+lny2+lny3×13=2,t=t1+t2+t3×13=2,
∵回归直线必过样本点的中心,∴2=2a+1,
得a=12,∴u=1+t2,则y=e1+t2.
当t=6时,y=e4.
故选:C.
2.(2023·高二单元测试)下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量y(单位:百只)的数据,通过相关理论进行分析,知可用回归模型y=e1+at(a∈R)对y与t的关系进行拟合,则根据该回归模型,预测从第( )个月开始该物种的繁殖数量超过5000只(参考数据:e3≈20.09,e4≈54.60)
第t个月
1
2
3
繁殖数量y
e1.4
e2.2
e2.4
A.4 B.5 C.6 D.7
【答案】C
【分析】根据指数计算将回归模型两边取自然对数lny=1+at,并令u=lny,由此构建一个u与t的回归直线模型,根据回归直线必过t,u,可求出a值,得到回归模型解出答案.
【详解】由题意,y=e1+at两边取自然对数得lny=1+at,令u=lny,则u=1+at.
u=lny1+lny2+lny3×13=2,t=t1+t2+t3×13=2,将数值代入回归直线,得2=2a+1,得a=12,因此u=1+t2,则y=e1+t2.
当t=4时,y=e3≈20.09<50;当t=5时,y=e3.5=e3⋅e4<50;当t=6时,y=e4≈54.60>50,∴从第6个月开始,该物种的繁殖数量超过5000只.
故选:C
3.(2023·全国·高二专题练习)为了解某种产品与原材料之间的关系,随机调查了该产品5个不同时段的产品与原材料的价格,得到如下统计数据表:
原材料价格x(万元/吨)
1
1.2
1.4
1.6
1.8
产品价格y(万元/件)
5
5.8
k
8.1
8.8
但是统计员不小心丢失了一个数据(用k代替),在数据丢失之前得到回归直线方程为y=5x-0.04,则k的值等于( )A.7.1 B.7.2 C.7.3 D.7.4
【答案】A
【分析】先求得样本中心,再将样本中心代入回归直线方程即可求得k的值.
【详解】依题意,得x=15×1+1.2+1.4+1.6+1.8=1.4,y=15×5+5.8+k+8.1+8.8=27.7+k5,
因为y=5x-0.04必过x,y,
所以27.7+k5=5×1.4-0.04,解得k=7.1,
所以k=7.1.
故选:A.
4.(2022·全国·高三专题练习)某微生物科研团队为了研究某种细菌的繁殖情况,工作人员配制了一种适合该细菌繁殖的营养基质用以培养该细菌,通过相关设备以及分析计算后得到:该细菌在前3个小时的细菌数y与时间t(单位:小时,且1≤t≤3)满足回归方程y=e1+bt(其中b为常数),若ez=y,且前3个小时t与y的部分数据如下表:
t
1
2
3
y
e85
e2
e125
3个小时后,向该营养基质中加入某种细菌抑制剂,分析计算后得到细菌数y与时间t(单位:小时,且3
【分析】根据给定条件,求出样本中心点求出b值,再分段讨论y的最大值情况作答.
【详解】依题意,t=1+2+33=2,z=13(85+2+125)=2,由y=e1+bt,ez=y,得z=1+bt,且z=1+bt经过点(2,2),
于是得b=12,当1≤t≤3时,y=e1+12t单调递增,则当t=3时,ymax=e52,
当3
而24>32×2>32×3=352>e52,因此当t=4时,细菌数y取最大值,
所以t0的值为4.
故选:A
5.(2022·高二单元测试)某企业推出了一款新食品,为了解每单位该食品中所含某种营养成分x(单位:克)与顾客的满意率y的关系,通过调查研究发现可选择函数模型y=1100ekx+c来拟合y与x的关系,根据以下数据:
营养成分含量x/克
1
2
3
4
5
ln(100y)
4.34
4.36
4.44
4.45
4.51
可求得y关于x的回归方程为( )A.y=1100e0.043x+4.291 B.y=1100e0.043x-4.291
C.y=e0.043x+4.291 D.y=e0.043x-4.291
【答案】A
【分析】根据题意可将函数模型y=1100ekx+c化简后两边同时取对数可得ln(100y)=kx+c,从而可计算出ln(100y)的平均数,根据ln(100y)=kx+c线性回归方程经过样本中心的性质进行逐项检验即可.
【详解】解析:由y=1100ekx+c得100y=ekx+c,两边同时取对数,得ln(100y)=kx+c;
由表中数据可知x=1+2+3+4+55=3,ln(100y)的平均数=4.34+4.36+4.44+4.45+4.515=4.42.
对于A,y=1100e0.043x+4.291化简变形可得100y=e0.043x+4.291,两边同时取对数可得ln100y=0.043x+4.291,将x=3代入可得,ln100y=0.043×3+4.291=4.42,与题中数据吻合;故选项A正确;
对于B,y=1100e0.043x-4.291化简变形可得100y=e0.043x-4.291,两边同时取对数可得,ln100y=0.043x-4.291,将x=3代入可得ln100y=0.043×3-4.291=-4.162≠4.42,所以选项B错误;
对于C,y=e0.043x+4.291,两边同时取对数可得lny=0.043x+4.291,而表中所给数据为ln100y的相关量,所以C错误;
对于D,y=e0.043x-4.291,两边同时取对数可得lny=0.043x-4.291,而表中所给数据为ln100y的相关量,所以D错误.
故选:A.
6.(2022春·北京丰台·高二统考期末)经验表明,某种树的高度y(单位:m)与胸径x(单位:cm)(树的主干在地面以上1.3米处的直径)具有线性相关关系.根据一组样本数据(xi,yi) (i=1,2,⋅⋅⋅,n),用最小二乘法建立的经验回归方程为y=0.25x+15.据此模型进行推测,下列结论正确的是( )
A.y与x负相关
B.胸径为20cm的树,其高度一定为20m
C.经过一段时间,样本中一棵树的胸径增加1cm,估计其高度增加0.25m
D.样本数据(xi,yi) (i=1,2,⋅⋅⋅,n)中至少有一对满足经验回归方程y=0.25x+15
【答案】C
【分析】根据经验回归方程为y=0.25x+15可判断ABC,由回归直线方程的意义可判断D.
【详解】因为y=0.25x+15,b=0.25>0,故y与x正相关,故A错误;
当x=20时,由y=0.25x+15可得y=20,故树高大约为20 m,故B错误;
由b=0.25知,当x增加1cm时,估计其高度增加0.25m,故C正确;
样本数据(xi,yi) (i=1,2,⋅⋅⋅,n)中不一定有一对满足经验回归方程y=0.25x+15,
故D错误.
故选:C
二、多选题
7.(2023秋·辽宁辽阳·高二校联考期末)已知关于变量x,y的4组数据如表所示:
x
6
8
10
12
y
a
10
6
4
根据表中数据计算得到x,y之间的线性回归方程为y=-1.4x+20.6,x,y之间的相关系数为r(参考公式:r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2),则( )A.a=12 B.变量x,y正相关 C.r=-7210 D.r=-223
【答案】AC
【分析】根据回归直线必过点x,y解得a=12,所以选项A正确;由回归方程和表格可知选项B错误;利用相关系数求出r=-7210,所以选项C正确,选项D错误.
【详解】回归直线必过点x,y,x=9,y=-1.4x+20.6=8=a+10+6+44,解得a=12,所以选项A正确;
由回归方程和表格可知,变量x,y负相关,所以选项B错误;
r=i=14xi-xyi-yi=14xi-x2i=14yi-y2=-3×4+-1×2+1×-2+3×-49+1+1+9×16+4+4+16=-7210,所以选项C正确,选项D错误.
故选:AC
8.(2023·全国·高二专题练习)已知变量y与x具有线性相关关系,统计得到6组数据如下表:
x
2
4
7
10
15
22
y
8.1
9.4
12
14.4
18.5
24
若y关于x的线性回归方程为y=0.8x+a,则( )A.变量y与x之间正相关 B.y=14.4
C.a=6.8 D.当x=12时,y的估计值为15.6
【答案】AB
【分析】根据回归方程可判断选项A,由得到的6组数据可计算样本点中心,可判断B,再根据回归直线过样本点中心可判断C,进而可判断D.
【详解】由y关于x的线性回归方程为y=0.8x+a,可知变量y与x之间正相关,即A正确;
由表中数据可知x=2+4+7+10+15+226=10
y=8.1+9.4+12+14.4+18.5+246=14.4,故B正确;
因此样本点中心为(10,14.4),将其代入回归方程y=0.8x+a可得a=14.4-0.8×10=6.4,故C不正确;
因此,y关于x的线性回归方程为y=0.8x+6.4,将x=12代入回归方程可得,y=0.8×12+6.4=16,
即当x=12时,y的估计值为16;所以D错误;
故选:AB.
三、填空题
9.(2023·高二单元测试)在新冠疫情政策改变后,某社区统计了核酸检测为阳性的人数,用x表示天数,y表示每天核酸检测为阳性的人数,统计数据如下表所示:
x
1
2
3
4
5
6
7
y
6
11
21
34
66
101
196
根据散点图判断,核酸检测为阳性的人数y关于天数x的回归方程适合用y=c⋅dx来表示,则其回归方程为______.
参考数据:设vi=lgyi,v=17i=17vi=1.52,i=17xi⋅vi≈49.56,100.52≈3.31
参考公式:对于一组数据u1,v1,u2,v2,…un,vn.其回归直线v=α+β⋅u的斜率和截距的最小二乘估计公式分别为:β=i=1nuivi-nuvi=1nui2-nu2,α=v-β⋅u
【答案】y=3.31×100.25x
【分析】由题可得lgy=lgc+lgd⋅x,然后根据最小二乘法即得.
【详解】由y=c⋅dx,可得lgy=lgc⋅dx=lgc+lgd⋅x,
设v=lgy,则v=lgc+lgd⋅x,
因为x=1+2+3+4+5+6+77=4,v=17i=17vi=1.52,
i=17xi2=1+4+9+16+25+36+49=140,
所以lgd=i=17xivi-7xvi=17xi2-7x2≈49.56-7×4×1.52140-7×42=0.25,
lgc=1.52-0.25×4=0.52,
所以lgy=v=0.52+0.25x,
所以y=100.52+0.25x≈3.31×100.25x.
故答案为:y=3.31×100.25x.
10.(2023·高二单元测试)从2015年到2020年六年间我国公共图书馆业机构数与对应年份编号的散点图如图所示(为便于计算,设2015年编号为1,2016年编号为2,…,2020年编号为6,把每年的公共图书馆业机构数作为预报变量,把年份编号作为解释变量进行回归分析),并得到回归直线方程为y=13.743x+3095.7,其相关指数r2=0.9817,则下列结论中正确的是______.(写出所有满足要求的结论编号)
①公共图书馆业机构数与年份编号的正相关性较强;
②公共图书馆业机构数平均每年增加13.743;
③可预测2021年公共图书馆业机构数为3192.
【答案】①②③
【分析】根据回归方程,相关指数,散点图依次分析即可得答案.
【详解】解:因为相直线方程为y=13.743x+3095.7,斜率为正数13.743,相关指数r2=0.9817,
所以,公共图书馆业机构数与年份编号的正相关性较强,故①正确;
公共图书馆业机构数平均每年增加13.743,故②正确;
当x=7时,y=13.743×7+3095.7=3191.901≈3192,故预测2021年公共图书馆业机构数为3192,③正确;
故答案为: ①②③
11.(2022·高二课时练习)2022年初以来,5 G技术在我国已经进入高速发展的阶段,5 G手机的销量也逐渐上升,某手机商城统计了近5个月来5 G手机的实际销量,如下表所示:
月份
2022年1月
2022年2月
2022年3月
2022年4月
2022年5月
月份编号x
1
2
3
4
5
销量y/千部
37
104
a
196
216
若y与x线性相关,且求得线性回归方程为y=45x+5,则下列说法:
①a=147;②y与x正相关;③y与x的相关系数为负数;④7月份该手机商城的5 G手机销量约为36.5万部.
其中正确的是________.(把正确的序号填在横线上)
【答案】①②
【分析】将月份编号的平均数代入线性回归方程,则可计算出销量的平均数,利用总销量可得a值;由回归方程中的x的系数为正可知,y与x正相关;将x=7代入,可得7月份该手机商城的5 G手机销量.
【详解】由表中数据,计算得x=1+2+3+4+55=3,∴y=45×3+5=140,
于是得37+104+a+196+216=140×5,解得a=147,则①正确,
由回归方程中的x的系数为正可知,y与x正相关,且其相关系数r>0,则②正确,③错误,
7月份时,x=7,y=32(万部),则④错误,
故答案为:①②
四、解答题
12.(2023春·陕西咸阳·高二校考阶段练习)某药品公司有6名产品推销员,其工作年限与月均销售金额的数据如下表:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
月均销售金额y/万元
2
3
3
4
5
(1)以工作年限为自变量x,月均销售金额为因变量y,作出散点图;
(2)求月均销售金额y关于工作年限x的线性回归方程;
(3)若第6名推销员的工作年限为11年,试估计他的月均销售金额.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:b=i=1nxiyi-nxyi=1nxi2-nx2=i=1nxi-xyi-yi=1nxi-x2,a=y-bx.
【答案】(1)散点图见解析
(2)y=0.5x+0.4
(3)月均销售金额为5.9万元
【分析】(1)根据表格中数据,直接描点即可得到散点图;
(2)首先求出x,y的平均数,利用最小二乘法求出b^的值,再利用样本中心点满足线性回程和前面做出的横标和纵标的平均值,求出a^值,写出线性回归方程;
(3)第6名推销员的工作年限为11年,即x=11时,把自变量的值代入线性回归方程,得到y的预报值.
【详解】(1)依题意,画出散点图如图所示.
(2)从散点图可以看出,这些点大致在一条直线附近,设所求的线性回归方程为y=bx+a.
计算得x=3+5+6+7+95=6,y=2+3+3+4+55=3.4,
则b^=i=15xiyi-5xyi=15xi2-5x2=112-102200-180=0.5,a^=y-b^x=3.4-0.5×6=0.4,
∴月均销售金额y关于工作年限x的线性回归方程为y=0.5x+0.4.
(3)由(2)可知,当x=11时,y=0.5x+0.4=0.5×11+0.4=5.9(万元).
∴可以估计第6名推销员的月均销售金额为5.9万元.
13.(2022春·山西大同·高二山西省浑源中学校考期中)下表是某单位在2021年1∼5月份用水量(单位:百吨)的一组数据:
月份x
1
2
3
4
5
用水量y
2.5
3
4
4.5
5.2
(1)从这5个月中任取2个月的用水量,求所取2个月的用水量之和不超过7(单位:百吨)的概率;
(2)若由经验回归方程得到的预测数据与实际数据的误差不超过0.05,视为“预测可靠”,那么由该单位前4个月的数据所得到的经验回归方程预测5月份的用水量是否可靠?说明理由.
【答案】(1)25
(2)预测可靠,理由见解析
【分析】(1)根据古典概型求概率的公式求概率即可;
(2)根据公式得到y关于x的经验回归方程为y=0.7x+1.75,然后得到x=5时,y的估值,计算误差,然后判断即可.
【详解】(1)从这5个月中任取2个月,包含的基本事件有C52=10个,
其中所取2个月的用水量之和不超过7(百吨)的基本事件有以下4个:
2.5,3,2.5,4,2.5,4.5,3,4,
故所求概率P=410=25.
(2)由数据得x=1+2+3+44=2.5,y=2.5+3+4+4.52=3.5,
由公式计算得b=i=14xiyi-4xyi=14xi2-4x2=2.5+6+12+18-351+4+9+16-25=0.7,a=y-bx=1.75,
所以y关于x的经验回归方程为y=0.7x+1.75,
当x=5时,得估计值y=0.7×5+1.75=5.25,而5.2-5.25=0.05≤0.05,
所以得到的经验回归方程是“预测可靠”的.
题组C 培优拔尖练
1.(2023·福建厦门·统考二模)移动物联网广泛应用于生产制造、公共服务、个人消费等领域.截至2022年底,我国移动物联网连接数达18.45亿户,成为全球主要经济体中首个实现“物超人”的国家.右图是2018-2022年移动物联网连接数W与年份代码t的散点图,其中年份2018-2022对应的t分别为1~5.
(1)根据散点图推断两个变量是否线性相关.计算样本相关系数(精确到0.01),并推断它们的相关程度;
(2)(i)假设变量x与变量Y的n对观测数据为(x1,y1),(x2,y2),…,(xn,yn),两个变量满足一元线性回归模型 Y=bx+eE(e)=0,D(e)=σ2(随机误差ei=yi-bxi).请推导:当随机误差平方和Q=i=1nei2取得最小值时,参数b的最小二乘估计.
(ii)令变量x=t-t,y=w-w,则变量x与变量Y满足一元线性回归模型Y=bx+eE(e)=0,D(e)=σ2利用(i)中结论求y关于x的经验回归方程,并预测2024年移动物联网连接数.
附:样本相关系数r=i=1nti-t(wi-w)i=1nti-t2i=1nwi-w2,i=15wi-w2=76.9,i=15ti-twi-w=27.2,i=15wi=60.8,769≈27.7
【答案】(1)r≈0.98,这两个变量正线性相关,且相关程度很强.
(2)(i)b=i=1nxiyii=1nxi2;(ii)经验回归方程y=2.72x;预测2024年移动物联网连接数23.04亿户.
【分析】(1)根据相关系数计算,若r>0两个变量正相关,若r<0两个变量负相关,r越接近于1说明线性相关越强.
(2)(i)整理得Q=b2i=1nxi2-2bi=1nxiyi+i=1nyi2,根据二次函数求最小值时b的取值;
(ii) 根据b计算公式求得经验回归方程, 并代入t=7可预测2024年移动物联网连接数.
【详解】(1)由散点图可以看出样本点都集中在一条直线附近,由此推断两个变量线性相关.
因为t=15(1+2+3+4+5)=3,
所以 i=15(ti-t)2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,
所以 r=i=15ti-t(wi-w)i=15ti-t2i=15wi-w2=27.210×76.9=27.2769≈27.227.7≈0.98,
所以这两个变量正线性相关,且相关程度很强.
(2)(i) Q=i=1nei2=i=1nyi-bxi2=i=1nyi2-2bxiyi+b2xi2
=b2i=1nxi2-2bi=1nxiyi+i=1nyi2,
要使Q取得最小值,当且仅当b=i=1nxiyii=1nxi2.
(ii) 由(i)知 b=i=15xiyii=15xi2=i=15ti-twi-wi=15ti-t2 =27.210=2.72,
所以y关于x的经验回归方程y=2.72x,又w=i=15wi5=60.85=12.16,
所以当t=7 时,则x=7-3=4,w=y+w=2.72×4+12.16=23.04,
所以预测2024年移动物联网连接数23.04亿户.
2.(2023春·江西·高二校联考开学考试)近年来,学生职业生涯规划课程逐渐进入课堂,考生选择大学就读专业时不再盲目扎堆热门专业,报考专业分布更加广泛,之前较冷门的数学、物理、化学等专业报考的人数也逐年上升.下表是某高校数学专业近五年的录取平均分与当年该学校的最低提档线对照表:
年份
2017
2018
2019
2020
2021
年份代码t
1
2
3
4
5
该校最低提档分数线
510
511
520
512
526
数学专业录取平均分
522
527
540
536
554
提档线与数学专业录取平均分之差y
12
16
20
24
28
(1)根据上表数据可知,y与t之间存在线性相关关系,请用最小二乘法求y关于t的线性回归方程;
(2)据以往数据可知,该大学每年数学专业的录取分数X服从正态分布Nμ,16,其中μ为当年该大学的数学录取平均分,假设2022年该校最低提档分数线为540分.
①若该大学2022年数学专业录取的学生成绩在584分以上的有3人,本专业2022年录取学生共多少人?进入本专业高考成绩前46名的学生可以获得一等奖学金,则一等奖学金分数线应该设定为多少分?
②在①的条件下,若从该专业获得一等奖学金的学生中随机抽取3人,用ξ表示其中高考成绩在584分以上的人数,求随机变量ξ的分布列与数学期望.
参考公式:b=i=1nti-tyi-yi=1nti-t2,a=y-bt.
参考数据:Pμ-σ
(2)①2000;580分;②详见解析.
【分析】(1)根据表中数据,分别求得t,y,b,a,写出线性回归方程.
(2)①由(1)中的线性回归方程求得t=6时的y,进而得到该大学2022年的数学专业录取平均分,然后利用3σ原则求解,再由584分以上的有3人可计算出本专业2022年录取学生共多少人;再由前46名占比计算出一等奖学金分数线应该设定为多少分;
②若从该专业获得一等奖学金的学生中随机抽取3人,用ξ表示其中高考成绩在584分以上的人数,其中该专业获得一等奖学金的学生为46人,其中高考成绩在584分以上的有3人,则ξ的可能取值为0,1,2,3,再由超几何分布的概率求解计算出概率并列出分布列进而求得数学期望.
【详解】(1)由题意知t=15×(1+2+3+4+5)=3,
y=15×(12+16+20+24+28)=20,
i=1nti-tyi-y=16+4+0+4+16=40,
i=1nti-t2=4+1+0+1+4=10,所以b=4010=4,
a=y-bt=20-4×3=8,
故所求线性回归方程为y=4t+8.
(2)①由(1)知,当t=6时,y=4×6+8=32,
故该大学2022年的数学专业录取平均分约为540+32=572.即μ=572
因为584=572+3×4=μ+3σ,又P(X≥584)=P(X≥572+3×4)=P(X≥μ+3σ)=121-Pμ-3σ
则本专业2022年录取学生共30.0015=2000;
进入本专业高考成绩前46名的学生占录取人数的462000=0.023,
设一等奖学金分数线应该设定为x0分,
则PX≥x0=0.023,
∴P1144-x0
故一等奖学金分数线应该设定为580分;
②若从该专业获得一等奖学金的学生中随机抽取3人,用ξ表示其中高考成绩在584分以上的人数,其中该专业获得一等奖学金的学生为46人,其中高考成绩在584分以上的有3人,则ξ的可能取值为0,1,2,3;
Pξ=0=C433C463=1234115180;Pξ=1=C432C31C463=270915180;
Pξ=2=C431C32C463=12915180;Pξ=3=C33C463=115180
ξ
0
1
2
3
P
1234115180
270915180
12915180
115180
Eξ=0×1234115180+1×270915180+2×12915180+3×115180=99506.
高中数学苏教版 (2019)选择性必修第二册8.3 正态分布精品课时作业: 这是一份高中数学苏教版 (2019)选择性必修第二册8.3 正态分布精品课时作业,文件包含同步讲义苏教版2019高中数学选修第二册83正态分布原卷版docx、同步讲义苏教版2019高中数学选修第二册83正态分布解析版docx等2份试卷配套教学资源,其中试卷共36页, 欢迎下载使用。
【同步讲义】(苏教版2019)高中数学选修第二册:8.2.4超几何分布 讲义: 这是一份【同步讲义】(苏教版2019)高中数学选修第二册:8.2.4超几何分布 讲义,文件包含同步讲义苏教版2019高中数学选修第二册824超几何分布原卷版docx、同步讲义苏教版2019高中数学选修第二册824超几何分布解析版docx等2份试卷配套教学资源,其中试卷共31页, 欢迎下载使用。
【同步讲义】(苏教版2019)高中数学选修第二册:8.2.3二项分布 讲义: 这是一份【同步讲义】(苏教版2019)高中数学选修第二册:8.2.3二项分布 讲义,文件包含同步讲义苏教版2019高中数学选修第二册823二项分布原卷版docx、同步讲义苏教版2019高中数学选修第二册823二项分布解析版docx等2份试卷配套教学资源,其中试卷共39页, 欢迎下载使用。