高中数学人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用优秀复习练习题
展开8.2 一元线性回归模型及其应用
课程标准
课标解读
1. 了解一元线性回归模型的含义,理解两
个变量之间随机关系的一元线性回归模型的作用与意义;
2. 了解残差在线性回归与非线性回归问
题的作用及意义;
3. 了解一元线性回归模型参数与最小二
乘估计的推导过程,理解最小二乘估计的原理;
4. 会结合题意求一元线性回归方程;
5. 会用相关指数进行分析模型拟合的效
果情况.
通过本节课的学习,要求会求一元线性回归方程,会进行残差分析,能判断回归模型的拟合效果,能利用样本数据建立统计模型并能进行预测.
知识点1 一元线性回归模型
(1)一元线性回归模型
称为Y关于x的一元线性回归模型.其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
(2)随机误差
在线性回归模型中,和为模型的未知参数,是与之间的误差,通常为随机变量,称为随机误差.它的均值,方程.
线性回归模型的完整表达式为 , 在此模型中,随机误差的方差越小,用预报真实值的精度越高.
【即学即练1】【多选】以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是( )
【解析】AC中的点分布在一条直线附近,适合线性回归模型.故选AC
【即学即练2】某个男孩的年龄与身高的统计数据如下表所示.
年龄(岁)
1
2
3
4
5
6
身高(cm)
78
87
98
108
115
120
其散点图如下,则与________(填“具有”或“不具有”)线性相关关系.
【答案】具有
【详解】解:由散点图可知,所有数据点由左下方到右上方接近一条直线排列,
因此与具有线性相关关系;
故答案为:具有
知识点2 最小二乘法
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中
,=-.
思考1 经验回归方程一定过成对样本数据(x1,y1),(x2,y2),…,(xn,yn)中的某一点吗?
答案 不一定.
备注 ①经验回归直线一定过点,点通常称为样本点的中心;
②一次函数的单调性由的符号决定,函数递增的充要条件是;函数递减的充要条件是.这说明:与正相关的充要条件是;与负相关的充要条件是.
③在经验回归方程中,是经验回归直线的斜率,是截距.一般地,当回归系数时,说明两个变量呈正相关关系,它的意义是当每增大一个单位时,平均增大个单位;当时,说明两个变量呈负相关关系,它的意义是当每增大一个单位时,平均减小个单位.
【即学即练3】根据如下样本数据,得到线性回归方程为,若样本点的中心为,则当X每增加1个单位时,平均( )
3
4
5
6
7
4.0
-0.5
0.5
A.增加1.4个单位 B.减少1.4个单位 C.增加7.9个单位 D.减少7.9个单位
【答案】B
【详解】样本点的中心为,则,故,且,
解得,,则,可知当X每增加1个单位时,
Y平均减少1.4个单位.
故选:B.
【即学即练4】某企业为了研究某种产品的销售价格(元)与销售量(千件)之间的关系,通过大量市场调研收集得到以下数据:
16
12
8
4
24
38
64
其中某一项数据※丢失,只记得这组数据拟合出的线性回归方程为:,则缺失的数据是( )A.33 B.35 C.34 D.34.8
【答案】C
【详解】因为点一定在回归方程上,
所以将,代入
解得.
故选:C.
【即学即练5】某市物价部门对本市的5家商场的某商品的一天销售量及其售价进行调查,5家商场的售价(元)和销售量(件)之间的一组数据如下表所示:
售价(元)
9
9.5
10.5
11
销售量(件)
11
8
6
5
已知销售量与售价之间有较强的线性相关关系,其线性回归方程是,且,则其中的______,样本中心为______.
【答案】 10
【详解】解:因为回归直线一定经过样本中心,
,,
所以,整理得.
又,得方程组,解得,
进而得,
所以,样本中心为.
故答案为:10;
【即学即练6】小张准备在某县城开一家文具店,为经营需要,小张对该县城另一家文具店中的某种水笔的单支售价及相应的日销售量进行了调查,单支售价(元)和日销售量(支)之间的数据如表所示;
单支售价(元)
1.4
1.6
1.8
2
2.2
日销售量(支)
13
11
7
6
3
(1)根据表格中的数据,求出关于的回归直线方程;
(2)请由(1)所得的回归直线方程预测日销售量为18支时.单支售价应定为多少元?如果一支水笔的进价为0.56元,为达到日利润(日利润=日销售量×单支售价-日销售量×单支进价)最大,在(1)的前提下应该如何定价?
参考公式:
参考数据:
【答案】(1)
(2)1,
(1),,
,,
则y关于x的回归直线方程:.
(2)当时,可得,解得,
设日利润为,则,
由配方法可得:,则当时,取得日利润最大值.
【即学即练7】为了研究甲型H1N1中的某种细菌随时间x变化的繁殖个数y,收集数据如下:
天数x
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
求y关于x的非线性经验回归方程.
【解析】作出散点图如图(1)所示.
由散点图看出样本点分布在一条指数型曲线y=cebx的周围,则ln y=bx+ln c.
令z=ln y,a=ln c,则z=bx+a.
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
相应的散点图如图(2)所示.从图(2)可以看出,变换后的样本点分布在一条直线附近,因此可以用经验回归方程来拟合.
由表中数据得到经验回归方程为=0.69x+1.115.因此细菌的繁殖个数y关于天数x的非线性经验回归方程为=e0.69x+1.115.
知识点3 残差与残差分析
1.残差
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2.残差分析
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.通过观察残差图可以直观判断模型是否满足一元线性回归模型中对随机误差的假设,那残差应是均值为0,方差为σ2的随机变量的观测值.
【即学即练8】已知与之间的数据如下表:
(1)求关于的线性回归方程;
(2)完成下面的残差表:
并判断(1)中线性回归方程的回归效果是否良好(若,则认为回归效果良好).
附:,,,.
【答案】(1);(2)表格见解析,良好.
【详解】(1)由已知图表可得,,,,
则,,
故.
(2)∵,∴,,,,,则残差表如下表所示,
∵ ,
∴,
∴该线性回归方程的回归效果良好.
知识点4 对模型刻画数据效果的分析
1.残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.
2.残差平方和法
残差平方和越小,模型的拟合效果越好.
3.R2法
在回归分析中,可以用来刻画回归的效果,它表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.
模型的拟合效果用相关指数来表示,,表达式中,与经验回归方程无关,残差平方和与经验回归方程有关,因此,越大,意味着残差平方和越小,即模型的拟合效果越好;越小,残差平方和越大,即模型的拟合效果越差
注:决定系数与相关系数的联系与区别
①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.
②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.
③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.
【即学即练9】甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如下表:
甲
乙
丙
丁
R2
0.98
0.78
0.50
0.85
哪位同学建立的回归模型拟合效果最好( )
A.甲 B.乙 C.丙 D.丁
【解析】决定系数R2越大,表示回归模型的拟合效果越好.故选A
【即学即练10】教育部印发的《义务教育课程方案和课程标准(2022年版)》指出,自2022年秋季开始,劳动课将成为中小学一门独立课程.消息一出,“中小学生学做饭”等相关话题引发大量网友关注,儿童厨具也迅速走俏.这类儿童厨具并不是指传统意义上的“过家家”,而是真锅真铲真炉灶,能让孩子煎炒烹炸,把饭菜做熟了吃下肚的“真煮”儿童厨具.一家厨具批发商从2022年5月22日起,每10天就对“真煮”儿童厨具的销量统计一次,得到相关数据如下表所示.
时间
5月22~31日
6月1~10日
6月11~20日
6月21~30日
7月1~10日
7月11~20日
7月21~30日
时间代码
1
2
3
4
5
6
7
销量/千件
9.4
9.6
9.9
10.1
10.6
11.1
11.4
根据表中数据,判断与是否具有线性相关关系?若具有,试求出关于的线性回归方程;若不具有,请说明理由.(结果保留两位小数)
附:线性回归方程中斜率和截距的最小二乘估计公式分别为,,相关系数,.
【答案】y与x具有线性相关关系,y关于x的线性回归方程为.
【详解】由表格数据,得,
,
所以,
,
,
所以相关系数.
因为相关系数,接近1,所以y与x具有线性相关关系,且正相关性很强.
因为,
所以,
所以y关于x的线性回归方程为.
考点一 根据散点图判断线性相关
1.(2023·高二课时练习)在下列所示的四个图中,两个变量间具有较强线性相关关系的是( )
A. B.C.D.
【答案】B
【分析】由散点图可得答案.
【详解】对于A,散点落在某条曲线上,两个变量具有函数关系;
对于B,散点落在某条直线附近,这两个变量具有线性相关关系;
对于C,散点落在某条曲线附近,这两个变量具有非线性相关关系;
对于D,散点杂乱无章,无规律可言,这两个变量无相关性,不具有相关关系.
故选:B.
2.(2023春·高二课时练习)如图是根据的观测数据得到的散点图,可以判断变量,具有线性相关关系的图是( )
A.①② B.③④ C.②③ D.①④
【答案】B
【分析】根据变量具有线性相关关系,则散点在某条直线附近,从左下至右上或从左上至右下即可.
【详解】根据变量具有线性相关关系,则散点在某条直线附近,从左下至右上或从左上至右下,
所以③④图的变量具有线性相关关系.
故选:B
3.(2023·高二课时练习)变量x,y的散点图如图所示,根据散点图,下面四个回归方程类型中最适宜作为y和x的回归方程类型的是( ).
A. B. C. D.
【答案】B
【分析】根据散点图据曲线形状结合一次函数,二次函数,反比例函数及幂函数的性质判断即得.
【详解】由散点图可以看出y随着x的增长速度越来越快,结合一次函数,二次函数,反比例函数及幂函数的性质可知,
最适宜作为y和x的回归方程类型的是:.
故选:B.
4.(2023·全国·高三专题练习)在一项调查中有两个变量和,如图是由这两个变量近年来的取值数据得到的散点图,那么适宜作为关于的回归方程的函数类型是( )
A. B. C. D.
【答案】B
【分析】根据散点图,结合指数函数,对数函数,幂函数的图像性质判断即可.
【详解】解:散点图呈曲线,A中函数为线性函数,不合题意,排除选项;
由散点图可知整体呈增长态势,且增长速度变慢,
对B选项中函数,当时,函数为单调递增函数,且增长速度逐渐变慢,符合题意,故B正确;
对于C选项,当时,函数为开口向上的二次函数,增长先慢后快,不合题意,
当时,函数为开口向下的二次函数,增长先慢后快,不合题意,排除选项C;
对于D选项,函数为指数型函数,当时单调递增,且越增越快,不合题意,
当时为单调递减函数,不合题意,故排除D;
故选:B
5.(2023·全国·高三专题练习)2020年春季,新冠肺炎疫情在全球范围内相继爆发,因为政治制度、文化背景等因素的不同,各个国家疫情防控的效果具有明显差异、如图是西方某国在60天内感染新冠肺炎的累计病例人数y(万人)与时间t(天)的散点图,则下列最适宜作为此模型的回归方程的类型是( )
A. B.
C. D.
【答案】C
【分析】根据散点图,根据常见函数的图象即得.
【详解】根据散点图,可以看出,散点大致分布在一条“指数型”函数曲线附近,
选项A对应的“直线型”的拟合函数;
选项B对应的“幂函数型”的拟合函数;
选项D对应的“对数型”的拟合函数;
故选:C.
考点二 求经验回归方程
解题方略:
求经验回归方程的步骤
①作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
②列表求出,的值;
③利用公式先计算,再根据经验回归直线过样本点的中心计算;
④写出经验回归方程.
求经验回归方程,关键在于正确求出系数,,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
6.(2023·江西·高二校联考阶段练习)向日葵游乐园最近推出一款“摩天飞毯”游乐项目,游客可以购票乘坐“摩天飞毯”到达山顶玻璃桥进行游走观光.为了解购票人数与票价的关系,游乐园进行了连续5天的票价浮动试运营.这五天每天的票价(元)与对应购票人数(人)如下表所示:
票价x(元/每人)
6
8
10
12
14
当天购票人数y(人)
110
90
80
70
50
(1)根据数据,求出y关于x的回归方程;
(2)假设游乐园每天“摩天飞毯”的项目成本只跟当天的乘坐人数有关,并且人均成本是1元,试依据(1)中的关系,求出当票价应定为多少元,游乐园才能在该项目上获得最大利润.(注:利润=售票收入-成本)
附:回归方程中,;
参考数据:,.
【答案】(1)
(2)11元
【分析】(1)先求出 和 ,再按照公式计算 和 ;
(2)根据题意求出利润的函数解析式求解.
【详解】(1),,
∴,
,
∴回归方程为;
(2)设游乐园能获得利润z元,则,
∴, ,
由二次函数知识可得, , 当元时,z取得最大值,
∴“摩天飞毯”票价应定为11元,游乐园才能在该项目上获得最大利润;
综上,回归方程为,摩天飞毯”票价应定为11元,游乐园才能在该项目上获得最大利润.
7.(2023·全国·模拟预测)某农科所统计了单位面积某种化肥实施量x(kg)和玉米相应产量Y(kg)的相关数据,制作了数据对照表:
x(kg)
16
20
24
29
36
Y(kg)
340
350
362
404
454
若在合理施肥范围内x与Y具有线性相关关系,
(1)求Y关于x的线性回归方程;
(2)请利用线性回归方程预测时的玉米产量.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:,.
【答案】(1)
(2)
【分析】(1)利用最小二乘法求解;
(2)将代入回归方程求解.
【详解】(1)解:由表中数据计算得,.,
,,
,
.
所以回归方程为.
(2)将代入回归方程得.
故预测时,玉米产量约为.
8.(2023·浙江·统考二模)2023年是全面贯彻落实党二十大精神的开局之年,也是实施“十四五”规划承上启下的关键之年,今年春季以来,各地出台了促进经济发展的各种措施,经济增长呈现稳中有进的可喜现象.服务业的消费越来越火爆,绍兴一些超市也纷纷加大了广告促销.现随机抽取7家超市,得到其广告支出x(单位:万元)与销售额y(单位:万元)数据如下:
超市
A
B
C
D
E
F
G
广告支出
1
2
4
6
10
13
20
销售额
19
32
44
40
52
53
54
(1)建立关于的一元线性回归方程(系数精确到0.01);
(2)若将超市的销售额与广告支出的比值称为该超市的广告效率值,当时,称该超市的广告为“好广告”.从这7家超市中随机抽取4家超市,记这4家超市中“好广告”的超市数为,求的分布列与期望.
附注:参考数据,回归方程中斜率和截距的最小二乘估计公式分别为:.
【答案】(1)
(2)分布列见解析,期望为
【分析】(1)首先计算,再根据参考公式和数据,分别计算和,即可求解;
(2)根据超几何分布求概率,再根据分布列求期望.
【详解】(1)由数据可得;
,
又,
,
.
.
(2)由题知,7家超市中有3家超市的广告是“好广告”,X的可能取值是0,1,2,3
.
.
所以的分布列为
0
1
2
3
所以.
9.(2023·全国·高三专题练习)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
平均值
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
a
b
c
0.07
0.06
材积量
0.25
0.41
0.22
0.54
0.53
0.34
0.35
0.39
0.43
0.44
0.39
其中a,b,c为等差数列,并计算得:,,.
(1)求b的值;
(2)若选取前6个样本号对应数据,判断这种树木的根部横截面积与材积量是否具有很强的线性相关性,并求该林区这种树木的根部横截面积与材积量的回归直线方程(若,则认为两个变量的线性相关性一般;若,则认为两个变量的线性相关性很强);
附:相关系数,
回归直线中,,.
(3)根据回归直线方程估计a,c的值(精确到0.01).
【答案】(1)b=0.06
(2)这种树木的根部横截面积与材积量具有很强的线性相关性,
(3)a≈0.05,c≈0.07.
【分析】(1)由a,b,c为等差数列及表格中数据的平均值,解得b的值;
(2)利用相关系数计算公式判断线性相关性强弱,利用回归方程计算公式求回归方程;
(3)利用(2)求得方程,计算a,c.
【详解】(1)由a,b,c为等差数列,得,由表格得该树木根部横截面积的平均值为,
可得,
故,解得.
(2)由已知得,
,
相关系数,故这种树木的根部横截面积与材积量具有很强的线性相关性.
,,
所以该林区这种树木的根部横截面积与材积量的回归直线方程为.
(3)由表格数据可得,根部横截面积为a,c时对应的材积量分别为,,
代入回归直线方程分别得,,解得,.
10.(2023·陕西·统考一模)疫情过后,某市为了提高市民蔬菜供应质量,科研所对冬季昼夜温差的大小与某种反季节蔬菜的生长的关系进行研究,他们记录了当地冬季某月6号到10号的有关数据,每天的昼夜温差和每天每100颗种子中的发芽数,如下表所示.
日期
6号
7号
8号
9号
10号
温差x()
10
11
13
12
8
发芽数y(颗)
23
25
30
26
16
该科研所的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的两组数据恰好是不相邻的2天的数据的概率;
(2)若选取的是6号10号的两组数据,请根据7号、8号、9号的数据,求出y关于x的线性回归方程;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得到的线性回归方程是否可靠?
(线性回归方程,其中)
【答案】(1)
(2)
(3)可靠
【分析】(1)利用列举法写出基本事件,结合古典概型的概率的计算公式即可求解;
(2)根据表中的数据求出,,进而即可求出线性回归方程;
(3)根据(2)的结论分别求出和对应的预报值,结合已知条件即可求解.
【详解】(1)设事件“选取的两组数据恰好是不相邻的2天的数据”为事件,
从5组数据中选取2组数据的所有情况为:,共10种;
选取的2组数据恰好是不相邻的2天的数据有:,共6种,
由古典概型的概率公式可知,.
(2)由题设表格中的数据可得:,
,
,
关于的线性回归方程为.
(3)当时,
,
当时,,
,
所以(2)中所得到的线性回归方程是可靠的.
11.(2023·山东潍坊·校考模拟预测)某农科所对冬季大棚内的昼夜温差与某反季节大豆新品种发芽率之间的关系进行分析研究,记录了2023年1月1日至1月12日大棚内的昼夜温差与每天每100颗种子的发芽数,得到如下资料:
日期
1日
2日
3日
4日
5日
6日
7日
8日
9日
10日
11日
12日
温差/℃
10
11
13
12
8
10
9
11
13
10
12
9
发芽数/颗
21
24
28
28
15
22
17
22
30
18
27
18
;;;
已知发芽数与温差之间线性相关,该农科所确定的研究方案是:先从这12组数据中选取2组,用剩下的10组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是相邻2天的数据的概率;
(2)若选取的是1日与6日的两组数据,试根据除这两日之外的其他数据,求出关于的线性回归方程;(精确到1)
(3)若由线性回归方程得到的估计数据与所选取的检验数据的误差均不超过2颗,则认为求得的线性回归方程是可靠的,试问:(2)中所得的线性回归方程是否可靠.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)
(2)
(3)是可靠的
【分析】(1)利用组合及组合数公式,结合古典概型的概率的计算公式即可求解;
(2)根据已知条件及参考数据,求出,进而即可求出回归方程;
(3)利用(2)的回归方程求出时的预报值,结合已知条件即可求解.
【详解】(1)从组数据中任选组,选法数为;
选取的组数据恰好是相邻的天,选法数为;
所以所求概率为.
(2)设剩下的组数据分别为.
;
,;
,;
所以
所以.
所以所求回归方程为.
(3)当时,.
因为,
所以根据所给的研究方案,可以判断(2)中所得的线性回归方程是可靠的.
考点三 样本中心的计算及应用
12.(2023·河南·郑州一中校联考模拟预测)某公司为了解本公司的用电情况,统计了4天气温x(℃)与用电量y(度)之间的相关数据如下表所示:
x
9
12
15
18
y
60
m
30
20
若它们之间的线性回归方程为,则( )
A.48 B.50 C.52 D.54
【答案】B
【分析】根据表格中的数据求得样本中心,代入回归方程,即可求解.
【详解】根据表中数据,得,,将点代入回归方程得,解得.
故选:B.
13.(2023春·辽宁锦州·高二校考阶段练习)为了解某种产品与原材料之间的关系,随机调查了该产品5个不同时段的产品与原材料的价格,得到如下统计数据表:
原材料价格(万元/吨)
产品价格(万元/件
但是统计员不小心丢失了一个数据(用代替),在数据丢失之前得到回归直线方程为,则的值等于( )
A. B. C. D.
【答案】A
【分析】先求得样本中心,再将样本中心代入回归直线方程即可求得的值.
【详解】依题意,得,,
因为必过,
所以,解得,
所以.
故选:A.
14.(2023·高二课时练习)某小区流感大爆发,当地医疗机构使用中西医结合的方法取得了不错的成效,每周治愈的患者人数如表所示:
周数(x)
1
2
3
4
5
治愈人数(y)
5
15
35
?
140
由表格可得y关于x的线性经验回归方程为,则测此回归模型第4周的治愈人数为( )
A.105 B.104 C.103 D.102
【答案】A
【分析】设出第4周的治愈人数为,得到样本中心点,代入回归方程,即可求出.
【详解】设第4周的治愈人数为,
,
样本中心点为
将代入中,,
解得:.
故选:A
15.(2023·河南开封·开封高中校考模拟预测)2023年春节到来之前:某市物价部门对本市5家商场的某种商品一天的销售量及其价格进行调查,5家商场这种商品的售价x(单位;元)与销售量y(单位:件)之间的一组数据如下表所示:
价格x
8
9.5
m
10.5
12
销售量y
16
n
8
6
5
经分析知,销售量y件与价格x元之间有较强的线性关系,其线性回归直线方程为,且,则( )
A.12 B.11 C.10 D.9
【答案】C
【分析】由表中数据计算、,根据线性回归直线方程过点代入化简求解即可.
【详解】由表中数据,计算 ,
,
因为线性回归直线方程过点,
即,即, 所以,
又因为,所以.
故选∶C﹒
16.(2023春·山东德州·高二校考阶段练习)2020年初以来,技术在我国已经进入高速发展的阶段,手机的销量也逐渐上升,某手机商城统计了手机5个月的实际销量,结果如下表所示:
月份
2020年10月
2020年11月
2020年12月
2021年1月
2021年2月
月份编号
1
2
3
4
5
销量部
50
96
185
227
若与线性相关,且求得线性回归方程为,则下列结论错误的是( )
A.与正相关
B.与的相关系数为负数
C.表中
D.预计2021年7月份该手机商城手机的销量约为450部
【答案】B
【分析】由回归方程中的的系数为正可判断A,B;由线性回归方程为恒过求出可判断C;求出2021年7月份该手机商城手机的销量可判断D.
【详解】由回归方程中的的系数为正可知,与正相关,且其相关系数,故A正确;B错误;
对于选项C,由表中数据,计算得,所以,
于是得,解得,故C正确;
对于选项D,2021年7月份时,,部,故D错误.
故选:B.
17.(2023·全国·高二专题练习)某商场为了解销售活动中某商品销售量与活动时间之间的关系,随机统计了某次销售活动中的商品销售量与活动时间,并制作了下表:
活动时间
销售量
由表中数据可知,销售量与活动时间之间具有线性相关关系,算得线性回归方程为,据此模型预测当时,的值为( )
A. B. C. D.
【答案】C
【分析】求出样本中心点的坐标,代入回归直线方程,求出的值,再将代入回归方程即可得解.
【详解】由表格中的数据可得,,
将样本中心点的坐标代入回归直线方程可得,解得,
所以,回归直线方程为,故当时,.
故选:C.
18.(2023·全国·高二专题练习)如果在一次实验中,测得的五组数值如下表所示:
0
1
2
3
4
10
15
20
30
35
经计算知,对的线性回归方程是,预测当时,( )
A.47.5 B.48 C.49 D.49.5
【答案】B
【分析】根据线性回归方程过样本中心点,结合代入法进行求解即可.
【详解】因为,
所以样本中心点为,代入中,得,
即,当时,,
故选:B
19.(2023·高二课时练习)某社区医院统计了该社区在夏季某4天患肠道感染类疾病的人数与平均气温(℃)的数据如下表,由表中数据算得线性回归方程中的,预测当平均气温为35℃时,该社区患肠道感染类疾病的人数为( )
平均气温(℃)
22
26
29
32
患肠道感染类疾病的人数
12
25
27
56
A.57 B.59 C.61 D.65
【答案】C
【分析】由已知数据计算,根据回归方程的性质求,再利用回归方程预测当平均气温为35℃时,该社区患肠道感染类疾病的人数.
【详解】由表格数据可得,,,
因为点在直线上,,
所以,
所以,
故当时,,
即预测当平均气温为35℃时,该社区患肠道感染类疾病的人数为61,
故选:C.
20.(2023春·湖南长沙·高二长郡中学校考阶段练习)已知的对应值表为:
0
1
3
4
5
6
且线性相关,由于表格污损,的对应值看不到了,若,且线性回归直线方程为,则时,的预报值为( )
A. B. C. D.
【答案】A
【分析】求出,由线性回归方程必经过点()即得,代入求解即可.
【详解】由表格知,,
,
代入得:,
,
则回归方程为,
当时,,
故选:A.
【点睛】本题主要考查了线性回归方程,线性回归方程的性质、应用, 属于中档题.
21.(2023·江西九江·统考二模)已知变量的关系可以用模型拟合,设,其变换后得到一组数据如下.由上表可得线性回归方程,则( )
x
1
2
3
4
5
z
2
4
5
10
14
A. B. C. D.
【答案】B
【分析】根据样本中心点在回归方程上可得,再利用对数运算法则即可得,所以.
【详解】由表格数据知,.即样本中心点为,
由,得,
即,
所以,即,可得,
故选:B.
考点四 线性回归分析
解题方略:
刻画回归效果的三种方法
(1)残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
(2)残差平方和法:残差平方和越小,模型的拟合效果越好.
(3)R2法:越接近1,表明模型的拟合效果越好.
(一)残差分析
22.(安徽省安庆市示范高中2023届高三下学期4月联考数学试卷)对于数据组,如果由经验回归方程得到的对应自变量的估计值是,那么将称为对应点的残差.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到如下所示数据:
单价x/元
8.2
8.4
8.6
8.8
销量y/件
84
83
78
m
根据表中的数据,得到销量y(单位:件)与单价x(单位:元)之间的经验回归方程为,据计算,样本点处的残差为1,则( ).
A.76 B.75 C.74 D.73
【答案】B
【分析】利用样本点处的残差为1,求得250,再由,求得,进而可得答案.
【详解】由条件知当时,,
代入,解得,于是,
又,所以,即,解得,
故选:B.
23.(2023春·湖南长沙·高二长郡中学校考阶段练习)有如下四个命题:
①甲乙两组数据分别为甲:28,31,39,42,45,55,57,58,66;乙:29,34,35,48,42,46,55,53,55,67.则甲乙的中位数分别为45和44.
②相关系数,表明两个变量的相关性较弱.
③若由一个列联表中的数据计算得的观测值约为4.103,则认为两个变量有关,此推断犯错误的概率不超过0.05.
④用最小二乘法求出一组数据的回归直线方程后要进行残差分析,相应数据的残差是指.
以上命题错误的序号是__________.
【答案】②
【分析】求出两组数据的中位数判断①;利用相关系数的意义判断②;利用的观测值与要求的临界值对判断③;利用残差的意义判断④作答.
【详解】对于①,甲组数据的中位数为45,乙组数据的中位数为,①正确;
对于②,相关系数时,两个变量有很强的相关性,②错误;
对于③,的观测值约为,认为两个变量有关,此推断犯错误的概率不超过0.05,③正确;
对于④,残差分析中,相应数据的残差,④正确,
所以命题错误的序号是②.
故答案为:②
24.【多选】(2023春·江西南昌·高二校考阶段练习)2022年4月15日,因疫情原因,市物价部门对5家商场的某商品一天的线上销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表所示:
价格x
9
9.5
10
10.5
11
销售量y
11
10
8
6
5
按公式计算,y与x的回归直线方程是:,相关系数,则下列说法正确的是( )
A. B.变量x,y线性负相关且相关性较强
C.相应于点(9.5,10)的残差约为-0.4 D.当x=8时,y的估计值为14.4
【答案】ABD
【分析】对选项A由样本中心在回归方程上求参数;对选项B由相关系数的意义及回归方程的斜率符号判断;对选项C利用残差的定义求残差;对选项D将8代入回归方程求估计值.
【详解】由表格知:,
所以,可得,A正确;
由相关系数且回归方程斜率为负,则变量线性负相关且相关性较强,B正确;
由,故残差为,C错误;
由,D正确;
故选:ABD
25.(2023·云南昆明·高三昆明一中校考阶段练习)小王经营了一家小型餐馆,自去年疫情管控宣布结束后的第1天开始,经营状况逐步有了好转,该店第一周的营业收入数据(单位:百元)统计如下:
天数序号x
1
2
3
4
5
6
7
营业收入y
11
13
18
※
28
※
35
其中第4天和第6天的数据由于某种原因造成模糊,但知道7天的营业收入平均值是23,已知营业收入y与天数序号x可以用经验回归直线方程拟合,且第7天的残差是,则的值是( )
A.10.4 B.6.2 C.4.2 D.2
【答案】A
【分析】根据残差的定义求出,结合样本中心点满足回归方程,列方程组求出,,由此可得结论.
【详解】由残差得,即,
所以①,
又,,因为回归直线经过中心点,
所以②,
联立①②解得,,
所以,
故选:A.
26.【多选】(2023春·湖南张家界·高二慈利县第一中学校考期中)对具有相关关系的两个变量x和y进行回归分析时,经过随机抽样获得成对的样本点数据,则下列结论正确的是( )
A.若两变量x,y具有线性相关关系,则回归直线至少经过一个样本点
B.若两变量x,y具有线性相关关系,则回归直线一定经过样本点中心
C.若以模型拟合该组数据,为了求出回归方程,设,将其变换后得到线性方程,则a,h的估计值分别是3和6
D.回归分析中常用残差平方和来刻画拟合效果好坏,残差平方和越小,拟合效果越好
【答案】BCD
【分析】根据回归方程的性质判断A,B,比较列方程确定a,h的估计值判断C,根据残差和的意义判断D.
【详解】对于A,若两变量x,y具有线性相关关系,则所有样本点都可能不在回归直线上,A错误;
对于B,若两变量x,y具有线性相关关系,则回归直线一定经过样本点中心,B正确;
对于C,因为,所以,即,又,所以a,h的估计值分别是3和6,C正确;
对于D,残差平方和越小,拟合效果越好,D正确;
故选:BCD.
(二) 求相关指数
27.(2023春·四川成都·高二统考期中)某种农作物可以生长在滩涂和盐碱地,它的灌溉是将海水稀释后进行灌溉.某实验基地为了研究海水浓度(%)对亩产量(吨)的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.
海水浓度(%)
3
4
5
6
7
亩产量(吨)
0.57
0.53
0.44
0.36
0.30
残差
-0.01
0.02
m
n
0
绘制散点图发现,可以用线性回归模型拟合亩产量(吨)与海水浓度(%)之间的相关关系,用最小二乘法计算得与之间的线性回归方程为.
(1)求的值;(参考公式:)
(2)统计学中常用相关指数来刻画回归效果,越大,回归效果越好,如假设,就说明预报变量的差异有是解释变量引起的.请计算相关指数(精确到0.01),并指出亩产量的变化多大程度上是由灌溉海水浓度引起的?
附残差相关指数其中
【答案】(1)0;-0.01
(2)0.99,亩产量的变化有是由灌溉海水浓度引起的.
【分析】(1)计算代入回归方程可得,利用残差求解方法可得的值;
(2)利用相关指数的公式求解出相关指数的值,结合结果可得判断.
【详解】(1)因为,
所以,即,
所以线性回归方程为,
所以,
.
,
.
(2),
所以相关指数.
故亩产量的变化有是由灌溉海水浓度引起的.
28.(2023·黑龙江哈尔滨·哈尔滨三中校考二模)中国共产党第二十次全国代表大会上的报告中提到,新时代十年我国经济实力实现历史性跃升,国内生产总值从54万亿元增长到114万亿元,我国经济总量稳居世界第二位.建立年份编号为解释变量,地区生产总值为响应变量的一元线性回归模型,现就2012-2016某市的地区生产总值统计如下:
年份
2012
2013
2014
2015
2016
年份编号
1
2
3
4
5
地区生产总值(亿元)
2.8
3.1
3.9
4.6
5.6
(1)求出回归方程,并计算2016年地区生产总值的残差;
(2)随着我国打赢了人类历史上规模最大的脱贫攻坚战,该市2017-2022的地区生产总值持续增长,现对这11年的数据有三种经验回归模型、、,它们的分别为0.976、0.880和0.985,请根据的数值选择最好的回归模型预测一下2023年该市的地区生产总值;
(3)若2012-2022该市的人口数(单位:百万)与年份编号的回归模型为,结合(2)问中的最佳模型,预测一下在2023年以后,该市人均地区生产总值的变化趋势.
参考公式:,;
【答案】(1),残差为
(2)选用更好,17.773亿元
(3)逐年递增
【分析】(1)应用最小二乘法求回归直线方程即可;
(2)由相关指数的大小,结合其的实际意义确定较好模型,进而估计2023年该市的地区生产总值;
(3)由题设可得该市人均地区生产总值,利用单调性定义判断其在上的单调性即可.
【详解】(1)由数据,,,
而,,
所以,则,
综上,回归方程为,
当时,,故2016年地区生产总值残差为.
(2)根据相关指数越大拟合越好,由于,故模型较好,
因2023年对应,则亿元.
(3)由(2)及题设知:该市人均地区生产总值,
令,且,若,
所以,
而且,则,故,
所以在上递增,则在上递增,
所以该市人均地区生产总值逐年递增.
29.(2023春·四川成都·高二校考阶段练习)某市春节期间家超市的广告费用支出(万元)和销售额(万元)数据如下表:
超市
广告费支出
销售额
(1)若用线性回归模型拟合与的关系,求关于的线性回归方程;提示:,,,
(2)用二次函数回归模型拟合与的关系,可得回归方程,经过计算二次函数回归模型和线性回归模型的相关指数分别约为和,请用说明选择哪个回归模型更合适,并用此模型预测超市广告费用支出万元时的销售额.
【答案】(1)
(2)二次函数模型更合适,超市广告费用支出万元时的销售额为万元
【分析】(1)根据表格数据,利用最小二乘法求解;
(2)根据相关指数得到二次函数模型更合适,然后将代入二次函数模型求解.
【详解】(1)解:由表格数据知:,
,
,
,
设关于的线性回归方程为:,
,,
关于的线性回归方程为.
(2),
二次函数模型更合适,
将代入得:,
即超市广告费用支出万元时的销售额为万元.
30.(2023春·黑龙江哈尔滨·高二哈九中校考阶段练习)某果园种植“糖心苹果”已有十余年,为了提高利润,该果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图是2013年至2022年,该果园每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图:
该果园为了预测2023年投资金额为20万元时的年利润增量,建立了关于的两个回归模型;
模型①:由最小二乘公式可求得与的线性回归方程:;
模型②:由图中样本点的分布,可以认为样本点集中在曲线:的附近,对投资金额做交换,令,则,且有,,,.
(1)根据所给的统计量,求模型②中关于的回归方程;
(2)根据下列表格中的数据,比较两种模型的相关指数,并选择拟合精度更高、更可靠的模型,预测投资金额为20万元时的年利润增量(结果保留两位小数).
回归模型
模型①
模型②
回归方程
102.28
36.19
附:,;
相关指数.
参考数据:,.
【答案】(1);
(2)模型①的小于模型②,选择模型②;(万元).
【分析】(1)根据已知条件,结合最小二乘法和线性回归方程的公式,计算即可;
(2)根据已知条件,结合相关系数公式,即可得两模型的相关指数的大小,并选择拟合效果好的模型,再将,代入计算即可得答案.
【详解】(1)解:由,,得,
所以 ,
,
所以,模型②中,关于的回归方程为;
(2)解:由表中的数据,有,
则,
所以模型①的小于模型②,说明回归模型②刻画的拟合效果更好;
当时,模型②的年利润增量的预测值为:(万元).
考点五 非线性回归
解题方略:
非线性回归问题的处理方法
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象,如图所示;
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数型y=bln x+a
①函数y=bln x+a的图象,如图所示;
②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
31.(2023·宁夏中卫·统考二模)区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术.区块链作为构造信任的机器,将可能彻底改变整个人类社会价值传递的方式,2018年至2022年五年期间,中国的区块链企业数量逐年增长,居世界前列.现收集我国近5年区块链企业总数量相关数据,如表:
年份
2018
2019
2020
2021
2022
编号x
1
2
3
4
5
企业总数量y(单位:千个)
2.156
3.727
8.305
24.279
36.224
(1)根据表中数据判断,与(其中e=2.71828…为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由)
(2)根据(1)的结果,求关于的回归方程;(结果精确到小数点后第三位)
附:线性回归方程中,,
参考数据:,,,
(3)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛,比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司就获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为,甲胜丙的概率为,乙胜丙的概率为,请通过计算说明,哪两个公司进行首场比赛时,甲公司获得“优胜公司”的概率最大?
【答案】(1)适宜
(2)
(3)甲公司获得“优胜公司”的概率最大
【分析】(1)根据增加速度逐渐变快即可得解;
(2)对两边取自然对数,得,转化为线性相关,再利用最小二乘法求出线性回归方程,再转化为关于的回归方程即可;
(3)对于首场比赛的选择分A:甲与乙先赛;B:甲与丙先赛;C:丙与乙先赛,三种情况讨论,分别求出对应概率,即可得出结论.
【详解】(1)根据表中数据可知增加的速度逐渐变快,
所以回归方程适宜预测未来几年我国区块链企业总数量;
(2)对两边取自然对数,得,
令,得,
由于,,,
则,
,
∴关于的回归直线方程为,
则关于的回归方程为;
(3)对于首场比赛的选择有以下三种情况:
A:甲与乙先赛;B:甲与丙先赛;C:丙与乙先赛,
由于在每场比赛中,甲胜乙的概率为,甲胜丙的概率为,乙胜丙的概率为,
则甲公司获胜的概率分别是
,
,
,
由于,
∴甲与丙两公司进行首场比赛时,甲公司获得“优胜公司”的概率最大.
32.(2023春·内蒙古赤峰·高二赤峰二中校考阶段练习)某新能源汽车公司从2018年到2022年汽车年销售量y(单位:万辆)的散点图如下:
记年份代码为
(1)根据散点图判断,模型①与模型②,哪一个更适宜作为年销售量y关于年份代码x的回归方程?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果,建立y关于x的回归方程.
参考数据:
34
55
979
657
2805
,
【答案】(1)
(2)
【分析】(1)根据散点图及一次函数与二次函数特点得出结论;
(2)令,换元后转化为关于的线性回归方程,根据公式求出系数,得出回归直线方程,再换回即可.
【详解】(1)由散点图可知:散点图与一次函数偏差较大,与二次函数较接近,故模型②更适合.
(2)由(1)可设回归方程为,
令,则回归方程.
因为,,
,,
,
,
故回归方程为,
即.
33.(2023·福建·统考模拟预测)放行准点率是衡量机场运行效率和服务质量的重要指标之一.某机场自2012年起采取相关策略优化各个服务环节,运行效率不断提升.以下是根据近10年年份数与该机场飞往A地航班放行准点率()(单位:百分比)的统计数据所作的散点图及经过初步处理后得到的一些统计量的值.
2017.5
80.4
1.5
40703145.0
1621254.2
27.7
1226.8
其中,
(1)根据散点图判断,与哪一个适宜作为该机场飞往A地航班放行准点率y关于年份数x的经验回归方程类型(给出判断即可,不必说明理由),并根据表中数据建立经验回归方程,由此预测2023年该机场飞往A地的航班放行准点率.
(2)已知2023年该机场飞往A地、B地和其他地区的航班比例分别为0.2、0.2和0.6.若以(1)中的预测值作为2023年该机场飞往A地航班放行准点率的估计值,且2023年该机场飞往B地及其他地区(不包含A、B两地)航班放行准点率的估计值分别为和,试解决以下问题:
(i)现从2023年在该机场起飞的航班中随机抽取一个,求该航班准点放行的概率;
(ii)若2023年某航班在该机场准点放行,判断该航班飞往A地、B地、其他地区等三种情况中的哪种情况的可能性最大,说明你的理由.
附:(1)对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,
参考数据:,,.
【答案】(1)适宜,预测2023年该机场飞往A地的航班放行准点率
(2)(i)0.778;(ii)可判断该航班飞往其他地区的可能性最大,理由见解析
【分析】(1)根据线性回归方程的计算公式,选择合适的模型计算即可;
(2)利用全概率公式和条件概率公式,即可根据概率判断可能性最大的情况.
【详解】(1)由散点图判断适宜作为该机场飞往A地航班放行准点率y关于年份数x的经验回归方程类型.
令,先建立y关于t的线性回归方程.
由于,
,
该机场飞往A地航班放行准点率y关于t的线性回归方程为,
因此y关于年份数x的回归方程为
所以当时,该机场飞往A地航班放行准点率y的预报值为
.
所以2023年该机场飞往A地航班放行准点率y的预报值为.
(2)设 “该航班飞往A地”, “该航班飞往B地”, “该航班飞往其他地区”,“该航班准点放行”,
则,,,
,,.
(i)由全概率公式得,
,
所以该航班准点放行的概率为0.778.
(ii),
,
,
因为,
所以可判断该航班飞往其他地区的可能性最大.
34.(2023·云南昆明·高三昆明一中校考阶段练习)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴,要大力推进数字乡村建设,推进智慧农业发展.某乡村合作社借助互联网直播平台进行农产品销售,众多网红主播参与到直播当中,在众多网红直播中,统计了10名网红直播的观看人次和农产品销售量的数据,得到如图所示的散点图.
(1)利用散点图判断,和哪一个更适合作为观看人次x和销售量y的回归方程类型;(只要给出判断即可,不必说明理由)
(2)对数据作出如下处理:得到相关统计量的值如表:
9.4
30.3
2
366
6.6
439.2
66
其中令,.根据(1)的判断结果及表中数据,求y关于x的回归方程,并预测当观看人次为280万人时的销售量;
(3)规定:观看人次大于等于120万人次的主播为优秀主播,从这10名主播中随机抽取3名,记其中优秀主播的人数为,求的分布列和数学期望.
参考数据和公式:,
附:对于一组数据,,…,,其回归线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)更适合
(2),43600件
(3)分布列见解析,
【分析】(1)观察散点图,根据散点的分布规律判断应采用的模型;
(2)令,先求y与的线性回归方程,由此可得y与的回归方程,再利用回归方程预测;
(3)确定随机变量的的可能取值,再求取各值的概率,由此可得的分布列,利用均值公式求其期望.
【详解】(1)由散点图可知,散点分布在一条对数型曲线附近,
所以选择回归方程更适合;
(2)令,则,
因为,,
所以,
又,,
所以,
所以y与的线性回归方程为,
故y关于x的回归方程为.
令,代入回归方程可得(千件),
所以预测观看人次为280万人时的销售量约为43600件.
(3)由散点图可知,这10名主播中,优秀主播的个数有4个,
所以X的可能取值为0,1,2,3,
所以,,
,,
所以X的分布列为:
X
0
1
2
3
P
数学期望.
35.(2023·山西·校联考模拟预测)某剧场的座位数量是固定的,管理人员统计了最近在该剧场举办的五场表演的票价(单位:元)和上座率(上座人数与总座位数的比值)的数据,其中,并根据统计数据得到如下的散点图:
(1)由散点图判断与哪个模型能更好地对与的关系进行拟合(给出判断即可,不必说明理由),并根据你的判断结果求回归方程;
(2)根据(1)所求的回归方程,预测票价为多少时,剧场的门票收入最多.
参考数据:,,;设,则,,;,,.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)能更好地对y与x的关系进行拟合,;
(2)预测票价为元时,剧场的门票收入最多.
【分析】(1)由散点图知,能更好地对与的关系进行拟合,设,由公式求出,再将代入求出,可得关于的线性回归方程,进而得出关于的回归方程;
(2)设函数,对函数求导,判断出单调性和极值,可预测剧场的门票收入最多时的票价.
【详解】(1)能更好地对与的关系进行拟合.
设,先求关于的线性回归方程.
由已知得,
所以,
,
所以关于的线性回归方程为,
所以关于的回归方程为;
(2)设该剧场的总座位数为,由题意得门票收入为,
设函数,则,
当,即时,函数单调递减,当,即时,函数单调递增,
所以在处取最大值,
所以预测票价为元时,剧场的门票收入最多.
36.(2023·全国·模拟预测)某乡镇全面实施乡村振兴,大力发展特色产业——富硒水果.工作人员统计了近8年富硒水果种植面积(单位:百亩)与年销售额(单位:千万元)的数据.经计算得到如下处理后的统计量:,,,,,,,,,其中,.
(1)根据以上数据,从相关系数的角度,判断与哪个适宜作为年销售额关于种植面积的回归方程类型(相关系数精确到0.01).
(2)根据(1)的判断结果及相关数据,建立关于的回归方程(系数精确到0.01).
(3)该乡镇计划年销售额不低于10亿元,请预测种植面积至少为多少亩.
附:相关系数,回归直线的斜率与截距的最小二乘估计分别为,.
参考数据:,.
【答案】(1)适宜作为年销售额关于种植面积的回归方程类型
(2)
(3)706亩
【分析】(1)根据已知条件与相关系数公式求出相关系数,的值,然后根据,的绝对值的大小,可知适宜作为年销售额关于种植面积的回归方程类型;
(2)通过公式求出回归系数,的值,从而可求出回归方程;
(3)把已知数据代入回归方程,即可求出预测值.
【详解】(1)若用作为年销售额关于种植面积的回归方程类型,则设,则.
设与的相关系数为,则.
由,,得,
则,所以.
若用作为年销售额关于种植面积的回归方程类型,则.
设,则.
设与的相关系数为,则
.
因为,所以适宜作为年销售额关于种植面积的回归方程类型.
(2).
由,得.
,
所以关于的线性方程为,则关于的回归方程为.
(3)由题意可知.整理,得,
因为,
解得或(舍去),
故种植面积至少为706亩.
37.(2023·全国·模拟预测)信创产业即信息技术应用创新产业,是一条规模庞大、体系完整的产业链,是数字经济的重要抓手之一.在政府、企业等多方面的共同努力下,中国信创产业市场规模不断扩大,市场释放出前所未有的活力.下表为2018—2022年中国信创产业规模(单位:千亿元),其中2018—2022年对应的代码依次为1~5.
年份代码x
1
2
3
4
5
中国信创产业规模y/千亿元
8.1
9.6
11.5
13.8
16.7
(1)从2018—2022年中国信创产业规模中任取2个数据,求这2个数据都大于10的概率.
(2)由上表数据可知,可用指数型函数模型拟合y与x的关系,请建立y关于x的回归方程(a,b的值精确到0.01),并预测2023年中国信创产业规模能否超过20千亿元.
参考数据:
2.45
38.52
6.81
1.19
2.84
其中,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)
(2),不会超过20千亿元.
【分析】(1)根据古典概型概率计算公式,利用列举法可得2个数据都大于10的概率为;(2)将指数型函数模型两边取对数可得,即,再利用参考数据可得回归方程为,将2023年的年份代码6代入可得,即可得出结论.
【详解】(1)从2018—2022年中国信创产业规模中任取2个数据有
,,,,,,
,,,,共10种情况.
其中这2个数据都大于10的有,,,共3种情况,
所以2个数据都大于10的概率.
(2)两边同时取自然对数,
得,则.
因为,,,
所以,
,所以,
即,所以,
即y关于x的回归方程为.
2023年的年份代码为6,把代入,
得,
所以预测2023年中国信创产业规模不会超过20千亿元.
题组A 基础过关练
1.(2023春·辽宁·高二校联考阶段练习)某种产品的广告费用(单位:万元)与销售额(单位:万元)之间的关系如下表:
1
3
4
5
7
6
8
12
10
14
若与的回归直线方程为,则( )
A.4.1 B.4.7 C.4.8 D.6.8
【答案】C
【分析】根据表格的数据求得样本中心为,代入回归直线方程,即可求解.
【详解】根据表格中的数据,可得,,
即样本中心为,代入回归直线方程,即,
解得.
故选:C.
2.(2023春·四川成都·高二统考期中)某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:)的关系,在个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在至之间,下面四个回归方程类型中最适宜作为发芽率和温度的回归方程类型的是( )
A. B.
C. D.
【答案】D
【分析】根据散点的分布可得出合适的回归方程类型.
【详解】由散点图可见,数据分布成递增趋势,但是呈现上凸效果,即增加缓慢.
A中,是直线型,均匀增长,不符合要求;
B中,是二次函数型,函数对称轴为轴,
当时,图象呈现下凸,增长也较快,不符合要求;
当时,图象呈现上凸,呈递减趋势,不符合要求;
C中,是指数型,爆炸式增长,增长快,不符合要求;
D中,是对数型,增长缓慢,符合要求.
故对数型最适宜该回归模型.
故选:D.
3.(2023春·江西·高二江西师大附中校考阶段练习)经统计,用于数学学习的时间(单位:小时)与成绩(单位:分)近似于线性相关关系.对某小组学生每周用于数学的学习时间与数学成绩进行数据收集如下:
15
16
18
19
22
102
98
115
115
120
由表中样本数据求得回归方程为,则点与直线的位置关系是( )
A.点在直线左侧 B.点在直线右侧
C.点在直线上 D.无法确定
【答案】C
【分析】计算平均数,根据回归方程过样本中心点,然后根据直线方程即得.
【详解】由题得,,
代入回归方程得,
∴点在直线上.
故选:C
4.(2023·上海松江·统考二模)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程,其中,,据此估计,该社区一户收入为15万元家庭年支出为( )
A.11.4万元 B.11.8万元 C.12.0万元 D.12.2万元
【答案】B
【分析】求出,,则求出,最后得到回归直线方程,代入即可.
【详解】由题意得,,
,则,
所以,当时,,
故选:B.
5.(2023春·四川成都·高二树德中学校考阶段练习)已知呈线性相关的变量与的部分数据如表所示:若其回归直线方程是,则______.
2
4
5
6
8
3
4.5
7.5
9
【答案】6.5/
【分析】根据样本中心点一定在回归直线上,代入求解即可.
【详解】
样本点的中心的坐标为
代入得:解得:
故答案为:6.5
6.(2023·高二课时练习)根据如下样本数据,得到的线性回归方程为,则( )
x
2
3
4
5
6
y
4
2.5
A., B., C., D.,
【答案】B
【分析】根据表格分析数据即可得出.
【详解】解:由表格可以得出随增大而减小,故,
又
故过点,代入可得.
故选:B.
7.(2023春·湖北·高三校联考阶段练习)如图是近十年来全国城镇人口、乡村人口随年份变化的折线图(数据来自国家统计局).根据该折线图判断近十年的情况,下列说法错误的是( )
A.城镇人口与年份成正相关
B.乡村人口与年份的样本相关系数接近1
C.城镇人口逐年增长量大致相同
D.可预测乡村人口仍呈下降趋势
【答案】B
【分析】根据折线图可分析城镇人口与年份的关系可判断A,根据相关系数的概念可判断B,根据折线图趋势可判断C,D.
【详解】对于A选项,由折线图可知,城镇人口与年份成正相关,A正确;
对于B选项,因为乡村人口与年份成负线性相关关系,且线性相关性很强,
所以接近B错误;
对于C选项,城镇人口与年份成正相关,且线性相关性很强,
设线性经验回归方程为,
当时,,
故城镇人口逐年增长量大致相同,C正确;
对于D选项,乡村人口与年份成负线性相关关系,
可预测乡村人口仍呈现下降趋势,D正确.
故选:B.
8.(2023·高二课时练习)已知变量y与x之间具有线性相关关系,根据变量x与y的相关数据,计算得则y关于x的线性回归方程为( )
附:回归方程中的斜率和截距的最小二乘法估计公式分别为
A. B.
C. D.
【答案】B
【分析】根据已知数据求,代入回归直线方程即可求解.
【详解】由题中的数据可知,
所以.
所以.
所以y关于x的线性回归方程为.
故选:B.
9.(2023·高二课时练习)以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到经验回归方程,则的值分别是( )
A. B. C. D.
【答案】B
【分析】模型两边取对数,又,可得,又已知回归方程,可求的值.
【详解】由题意得,设,可得.
又经验回归方程为,
所以,故.
故选:B
题组B 能力提升练
10.【多选】(2023春·湖南邵阳·高二邵阳市第二中学校考期中)以下说法正确的是( )
A.89,90,91,92,93,94,95,96,97的第75百分位数为95
B.具有相关关系的两个变量x,y的一组观测数据,,,,由此得到的线性回归方程为,回归直线至少经过点,,,中的一个点
C.相关系数r的绝对值越接近于1,两个随机变量的线性相关性越强
D.已知随机事件A,B满足,,且,则事件A与B不互斥
【答案】ACD
【分析】对于A选项:结合百分位数的定义即可求解;
对于B选项:结合经验回归方程的性质即可求解;
对于C选项:根据相关系数的性质即可判断;
对于D选项:根据互斥事件的定义和事件的相互独立性即可求解.
【详解】对于A选项:从小到大排列共有9个数据,则不是整数,则第75百分位数为从小到大排列的第7个数据,即第75百分位数为95,所以A选项正确;
对于B选项:线性回归方程不一定经过点,,,中的任何一个点,但一定经过样本的中心点即,所以B选项错误;
对于C选项:若两个具有线性相关关系的变量的相关性越强,则线性相关系数的绝对值越接近于,所以C选项正确;
对于D选项:因为,则,
则事件与相互独立,所以事件A与B不互斥,所以D选项正确;
故选:ACD.
11.(2023春·江西赣州·高二统考期中)直播带货已经成为农民创业增收的好帮手,数据显示2022年全国农村直播电商已达到573.2万家.已知2022年某农村电商每月直播销售收入Y(单位:万元)与月份具有线性相关关系,利用该电商全年12个月的直播销售月收入数据,求得线性回归方程为,则下列结论一定正确的是( )
A.把代入求得的是第n个月的销售收入
B.相关系数
C.2022年该电商直播销售收入逐月增加
D.该电商2022年直播销售总收入为213.6万元
【答案】D
【分析】根据线性回归方程为,分别判断A,C,D选项,根据相关系数概念判断B选项.
【详解】利用求得的是每月直播销售收入的预测数据,与每月直播销售收入的真实数据可能不相同,错误;
不是相关系数,,B错误;
,由在回归直线上,得,所以该电商2022年年直播销售总收入为万元.
故选:D.
12.【多选】(2023春·河南南阳·高二校联考期中)某产品的售价x(单位:元)与月销量y(单位:百件)的数据如下:
x
13
14
15
16
17
y
19
m
n
13
11
已知当时,y关于x的线性回归方程为,当时,该产品月销售量为0,下列结论正确的是(注:利润=销售额-成本) ( )
A.
B.
C.若该产品的售价为20元,则估计月销售金额为10000元
D.若该产品每件的成本为10元,则预测该产品的月利润最高为7812.5元
【答案】BCD
【分析】将代入线性回归方程得到y的估计值是15,不一定正确,故A错误;由线性回归方程过,代入线性回归方程即可判断B正确;当该产品的售价为20元时,代入线性回归方程即可判断C正确;利用二次函数的最值即可判断D正确.
【详解】当时,,所以y的估计值是15,则不一定正确,故A错误;
由题意可知,
,则,解得,则B正确;
当该产品的售价为20元时,月销量百件,
则估计月销售金额为元,则C正确;
由题意可知该产品的月利润的估计值为
百元,
即预测该产品的月利润最高为7812.5元,则D正确.
故选:BCD.
13.(2023春·山东潍坊·高二山东省昌乐第一中学校考阶段练习)近年来,新能源产业蓬勃发展,已成为一大支柱产业.据统计,某市一家新能源企业近5个月的产值如下表,由散点图知,该企业产值(亿元)与月份代码线性相关.
月份
6月
7月
8月
9月
10月
月份代码
1
2
3
4
5
产值(亿元
16
20
27
30
37
(1)求出关于的线性回归方程;
(2)根据(1)中的结果,预测明年2月份该企业的产值.
参考公式:.
参考数据:.
【答案】(1)
(2)57.2亿元.
【分析】(1)由已知数据结合回归方程公式计算关于的线性回归方程;
(2)将代入回归方程即可求出明年2月份该企业的产值.
【详解】(1)因为,所以,
所以,
所以关于的线性回归方程为,
(2)明年2月份的月份代码为9,
当时,,
所以明年2月份该企业的产值约为57.2亿元.
14.(2023·重庆·统考模拟预测)风力发电是指把风的动能转为电能.2021年前11个月,我国新能源发电量首次突破1万亿千瓦时大关,其中风力发电达到5866.7亿千瓦时.某校物理课题小组通过查阅国家统计局网站,得到2012年至2020年风力发电量数据,如下表:
年份
2012
2013
2014
2015
2016
2017
2018
2019
2020
年份代码
1
2
3
4
5
6
7
8
9
风力发电量(亿千瓦时)
955.8
1412
1599.8
1857.7
2370.7
2972.3
3659.7
4060.3
4664.7
下图为2012年至2020年风力发电量散点图:
(1)根据散点图分析与之间的相关关系;
(2)根据相应数据计算得,,,求关于的线性回归方程(精确到0.1).
附:回归方程中斜率和截距的最小二乘估计公式分别为:,.
【答案】(1)与呈线性正相关关系
(2)
【分析】(1)根据散点图进行结合相关关系进行分析即可;
(2)利用最小二乘法代入公式分别计算出即可求得关于的线性回归方程.
【详解】(1)根据散点图分析,随着的增大而增大,与之间存在正相关关系,且近似于一条直线.
(2),
,
,
,
,
,
关于的线性回归方程为.
题组C 培优拔尖练
15.(2023·广西柳州·柳州高级中学校联考模拟预测)中国女排曾经十度成为世界冠军,铸就了响彻中华的女排精神,看过中国女排的纪录片后,某大学掀起“学习女排精神,塑造健康体魄”的年度主题活动,一段时间后,学生的身体素质明显提高,将该大学近5个月体重超重的人数进行统计,得到如下表格:
月份x
1
2
3
4
5
体重超重的人数y
640
540
420
300
200
(1)若该大学体重超重人数y与月份变量x(月份变量x依次为1,2,3,4,5…)具有线性相关关系,请预测从第几月份开始该大学体重超重的人数隆至100人以下?
(2)从这5个月中随机抽取2个月,求抽取的这两个月中体重超重的人数都少于500人的概率.
附1:回归方程中斜率和截距的最小二乘估计公式分别为:,,
附2:参考数据:,
【答案】(1)6
(2)
【分析】(1)根据已知求出的值,根据公式求得,,得出回归直线方程为.解,即可得出答案;
(2)由已知写出样本空间,求出要求事件包含基本事件的个数,根据古典概型的概率公式,即可得出答案.
【详解】(1)由已知可得,,
,
又因为,,
所以,,
所以,
所以,,
当时,解得:,
可以预测从第6月份开始该大学体重超重的人数降至100人以下.
(2)从这5个月中随机抽取2个月的基本事件有,,,,,,,,,,共10个基本事件.
抽取的这两个月中体重超重的人数都少于500人的基本事件有,,,共3个,
所以抽取的这两个月中体重超重的人数都少于500人的概率为.
16.(2023春·吉林长春·高二长春市第二实验中学校考阶段练习)为打造“四态融合、产村一体”,望山、见水、忆乡愁的美丽乡村,增加农民收入,某乡政府统计了景区农家乐在2012年-2018年中任选年的接待游客人数(单位:万人)的数据,结果如下表:
年份
年份代号
接待游客人数(单位:万人)
(1)根据数据说明变量,是正相关还是负相关;
(2)求相关系数的值,并说明年份与接待游客人数之间线性关系的强弱.(值精确到)
附:线性回归方程的斜率的最小二乘法估计公式,相关系数的公式分别为,,一般地,当的绝对值大于时,认为两个变量之间有较强的线性相关程度.
参考数据:,,,.
【答案】(1)正相关
(2),年份与接待游客人数之间有较强的线性相关程度
【分析】(1)利用最小二乘法计算,即可判断变量与是正相关;
(2)利用最小二乘法计算,进而判断相关性的强弱.
【详解】(1)由题中数据可得,,,
则,
变量的值随着的值增加而增加,
故与之间是正相关;
(2)由已知得,
故年份与接待游客人数之间有较强的线性相关程度.
17.(2023春·河南南阳·高二校联考期中)某研发小组为了解年研发资金投入量x(单位:亿元)对年销售额y(单位:亿元)的影响,结合近10年的年研发资金投入量和年销售额的数据(1,2,…10),建立了两个函数模型:①,②,其中α,β,λ,t均为常数,e为自然对数的底数.设, (1,2,…10),经过计算得如下数据.
20
66
770
200
14
460
4.20
3125000
0.308
21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,选择一个拟合程度更好的模型.
(2)①根据(1)中选择的模型及表中数据,建立y关于x的回归方程(系数精确到0.01);
②当年研发资金投入量约为亿元时,年销售额大致为亿元,若正数a,b满足,求的最小值.
参考公式:相关系数,
线性回归直线中斜率和截距的最小二乘法估计参数分别为,.
【答案】(1)模型的拟合程度更好
(2)①;②.
【分析】(1)根据相关系数公式分别计算,并比较的大小,较大的拟合程度更好;
(2)①先由指数模型两边取对数转化为线性关系,根据公式先求解线性回归方程,再得出y关于x的回归方程;
②将年销售额代入y关于x的回归方程,得出的关系,利用“1”的代换法结合均值不等式求解结果.
【详解】(1),
,
因为,所以从相关系数的角度,模型的拟合程度更好.
(2)①因为,所以,即.
由题中数据可得,
则,
从而v关于x的线性回归方程为,
故,即.
②将年销售额亿元,代入,得,解得,则.
故
.
因为,
所以.
当且仅当,即时,等号成立,此时,符合题意,
故M的最小值为.
18.(2023·浙江金华·模拟预测)全国 “两会”召开的一项重要意义在于将“两会代表”从人民中得来的信息和要求进行收集及整理,传达给中央,“两会代表”代表着广大选民的利益,代表选民在“两会”期间向政府有关部门提出选民的意见和要求.下表是2011年至2020年历年全国政协提案的数量统计.
年份
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
年份代码x
1
2
3
4
5
6
7
8
9
10
提案数量y(单位:千件)
5.762
6.069
5.641
5.875
5.857
5.769
5.21
5.36
5.488
5.044
(1)请用相关系数说明y与x之间的关系可否用线性回归模型拟合?若能,求y关于x的一元线性回归方程;(运算结果精确到0.01)(若,则线性相关程度很高,可用直线拟合)
(2)中央政府回应2020年“两会”的热点议题“战胜疫情”,以令世界惊叹的中国速度、中国效率和中国奇迹,社会各阶层、各行各业迅速投身战“疫”行动,团结共进、众志成城.其中一个关键举措是2021年全国各地全面展开的疫苗接种.为方便市民合理安排疫苗接种,城市便民电子系统即时提供接种点相关信息,若某疫苗接种点上午和下午接种疫苗分别需要等待20分钟和40分钟,而甲、乙市民均在某日接种疫苗,且上午去接种疫苗的概率分别为,要使两市民需要等待时间的总和的期望值不超过60分钟,求实数p的取值范围.
参考公式:相关系数,.
参考数据:.
【答案】(1)能,
(2)
【分析】(1)根据题中数据求得相关系数,比较可得结论;求出,,即可得一元线性回归方程;
(2)设甲、乙两人需要排队的总时间为,确定的可能取值,求得每个值对应的概率,可得其分布列,求出其数学期望的表达式,列出不等式,即可求得答案.
【详解】(1)由题意可得,
因为,
根据参考数据,所以相关系数,即,
所以线性相关程度很高,可用直线拟合;
由,
所以,
即y关于x的线性回归程为.
(2)设甲、乙两人需要排队的总时间为,则的可能取值为,
,
,
,
所以的分布列为:
40
60
80
P
因此,
可得,又,
故实数p的取值范围为.
高中数学人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.2 一元线性回归模型及其应用当堂检测题: 这是一份高中数学人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.2 一元线性回归模型及其应用当堂检测题,共6页。试卷主要包含了选择题,填空题,解答题等内容,欢迎下载使用。
人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.2 一元线性回归模型及其应用优秀课后复习题: 这是一份人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.2 一元线性回归模型及其应用优秀课后复习题,文件包含第02讲一元线性回归模型及其应用教师版-高二数学同步精品讲义人教A版选择性必修第三册docx、第02讲一元线性回归模型及其应用学生版-高二数学同步精品讲义人教A版选择性必修第三册docx等2份试卷配套教学资源,其中试卷共89页, 欢迎下载使用。
高中数学人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用同步达标检测题: 这是一份高中数学人教A版 (2019)选择性必修 第三册8.2 一元线性回归模型及其应用同步达标检测题,文件包含人教A版2019选择性必修三高中数学同步82一元线性回归模型及其应用解析版docx、人教A版2019选择性必修三高中数学同步82一元线性回归模型及其应用原卷版docx等2份试卷配套教学资源,其中试卷共24页, 欢迎下载使用。