第27讲 统计案例和回归方程-2023年新高考艺术生突破数学90分讲义
展开
这是一份第27讲 统计案例和回归方程-2023年新高考艺术生突破数学90分讲义,文件包含第27讲统计案例和回归方程解析版docx、第27讲统计案例和回归方程原卷版docx等2份试卷配套教学资源,其中试卷共74页, 欢迎下载使用。
第27讲 统计案例和回归方程
【知识点总结】
一、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法。
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心。
步骤:画散点图,如散点图中的点基本分布在一条直线附近,则这条直线叫这两个变量的回归直线,直线斜率k>0,称两个变量正相关;k10.828,有99.9%把握称“A取A1或A2”对“B取B1,B2”有关系;
若10.828³K2>6.635,有99%把握称“A取A1或A2”对“B取B1,B2”有关系;
若6.635³K2>3.841,有95%把握称“A取A1或A2”对“B取B1,B2”有关系;
若K2£3.841,没有把握称A与B相关。
【典型例题】
例1.(2022·全国·高三专题练习(文))在对两个变量x,y进行回归分析时有下列步骤:
①对所求出的回归方程作出解释;②收集数据(xi,yi),i=1,2,…,n;
③求回归方程;④根据所收集的数据绘制散点图.
则下列操作顺序正确的是( )
A.①②④③ B.③②④① C.②③①④ D.②④③①
【答案】D
【详解】
根据回归分析的思想,可知对两个变量x,y进行回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求回归方程,最后对所求的回归方程作出解释.
故选:D
例2.(2022·全国·高三专题练习)对于数据组,如果由线性回归方程得到的对应于自变量的估计值是,那么将称为相应于点的残差.某工厂为研究某种产品产量(吨)与所需某种原材料吨)的相关性,在生产过程中收集4组对应数据如下表所示:
3
4
5
6
2.5
3
4
根据表中数据,得出关于的线性回归方程为,据此计算出样本点处的残差为-0.15,则表中的值为( )
A.3.3 B.4.5 C.5 D.5.5
【答案】B
【详解】
由题意可知,在样本(4,3)处的残差-0.15,则,即,
解得,即,
又,且线性方程过样本中心点(,),
则,则,
解得.
故答案为:B
【点睛】
理解残差的定义,实际值减去估计值;线性方程过样本中心(,);要求对基本知识点比较熟练,计算才准确.
例3.(2022·全国·高三专题练习)据贵州省气候中心报,2021年6月上旬,我省降水量在15.2-170.3mm之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm,其余均在50mmm以上,局地超过100mm.若我省某地区2021年端午节前后3天,每一天下雨的概率均为.通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数(,且)表示是否下雨:当时表示该地区下雨,当时,表示该地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下:
332 714 740 945 593 468 491 272 073 445
992 772 951 431 169 332 435 027 898 719
(1)求出k的值,使得该地区每一天下雨的概率均为;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;
(2)2016年到2020年该地区端午节当天降雨量(单位:mm)如表:
时间
2016年
2017年
2018年
2019年
2020年
年份
1
2
3
4
5
降雨量
28
27
25
23
22
经研究表明:从2016年到2020年,该地区端午节有降雨的年份的降雨量与年份具有线性相关关系,求回归直线方程.并预测该地区2022年端午节有降雨的话,降雨量约为多少?
参考公式:,.
【详解】
(1)由题意可知,,解得,即表示下雨,表示不下雨.
所给的20组数据中,,,,,,,,共组表示天中恰好有天下雨,
故所求的概率为.
(2)由题中所给的数据可得,,
所以,,
所以回归方程为,当时,.
所以该地区年端午节有降雨的话,降雨量约为.
例4.(2022·全国·高三专题练习(理))某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本(元)与生产该产品的数量(千件)有关,经统计得到如下数据:
1
2
3
4
5
6
7
8
112
61
35
28
25
24
根据以上数据,绘制了散点图.观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型和指数函数模型分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为与的相关系数.
(1)用反比例函数模型求关于的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到,并用其估计产量为10千件时每件产品的非原料成本.
参考数据:
360
参考公式:对于一组数据,其回归直线的斜率和截距的最小一乘估计分别为:,,相关系数
【解析】
(1)令,则可转化为.
因为,
所以,
,
得,即关于的回归方程为.
(2)由定义知与的相关系数为:
,
则,所以用反比例函数模型拟合效果更好.
当时,(元),
则当产量为10千件时,每件产品的非原料成本为21元.
例5.(2022·全国·高三专题练习)如图是某小区2020年1月至2021年1月当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码1~13分别对应2020年1月~2021年1月).根据散点图选择和两个模型进行拟合,经过数据处理得到两个回归方程分别为和,并得到以下一些统计量的值:
残差平方和
总偏差平方和
(1)请利用相关指数判断哪个模型的拟合效果更好;
(2)估计该小区2021年6月份的二手房均价.(精确到万元/平方米)
参考数据:,,,,,,,.
参考公式:相关指数.
【详解】
(1)设模型和的相关指数分别为和,
则,.
因为,所以.
所以模型的拟合效果更好.
(2)由(1)知,模型的拟合效果更好,
利用该模型预测可得,这个小区2021年6月份的在售二手房均价为:
(万元/平方米).
例6.(2022·全国·高三专题练习)近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y(单位:cm)与一定范围内的温度x(单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:
现根据散点图利用或建立y关于x的回归方程,令,得到如下数据:
10.15
109.94
3.04
0.16
13.94
-2.1
11.67
0.21
21.22
且(,)与(,)(i=1,2,3,…,13)的相关系数分别为,,且=﹣0.9953.
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立关于x的回归方程;
(3)已知蕲艾的利润z与x、y的关系为,当x为何值时,z的预报值最大.
参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374,=15.7365,对于一组数据(,)(i=1,2,3,…,n),其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【详解】
(1)由题意知,
,
因为,所有用模型建立与的回归方程更合适.
(2)因为,
,
所以关于的回归方程为
(3)由题意知
,所以,当且仅当时等号成立,
所以当温度为20时这种草药的利润最大.
例7.(2022·河北张家口·高三期末)已知某区、两所初级中学的初一年级在校学生人数之比为,该区教育局为了解双减政策的落实情况,用分层抽样的方法在、两校初一年级在校学生中共抽取了名学生,调查了他们课下做作业的时间,并根据调查结果绘制了如下频率分布直方图:
(1)在抽取的名学生中,、两所学校各抽取的人数是多少?
(2)该区教育局想了解学生做作业时间的平均时长(同一组中的数据用该组区间的中点值作代表)和做作业时长超过小时的学生比例,请根据频率分布直方图,估计这两个数值;
(3)另据调查,这人中做作业时间超过小时的人中的人来自中学,根据已知条件填写下面列联表,并根据列联表判断是否有的把握认为“做作业时间超过小时”与“学校”有关?
做作业时间超过小时
做作业时间不超过小时
合计
校
校
合计
附表:
附:.
【解析】
(1)解:设、两校所抽取人数分别为、,由已知可得,解得.
(2)解:由直方图可知,学生做作业的平均时长的估计值为
(小时).
由,可知有的学生做作业时长超过小时.
综上,估计该区学生做作业时间的平均时长为小时,该区有的学生做作业时长超过3小时.
(3)解:由(2)可知,有(人)做作业时间超过3小时.
故填表如下(单位:人):
做作业时间超过小时
做作业时间不超过小时
合计
校
校
合计
,
所以有的把握认为“做作业时间超过小时”与“学校”有关.
【技能提升训练】
一、单选题
1.(2022·全国·高三专题练习)某工厂的每月各项开支与毛利润(单位:万元)之间有如下关系,与的线性回归方程,则( )
2
4
5
6
8
30
40
60
50
70
A.17.5 B.17 C.15 D.15.5
【答案】A
【分析】
根据表中的数据,求得样本中心为,代入回归方程为,即可求解.
【详解】
由题意,根据表中的数据,可得,,
即样本中心为,代入与的线性回归方程为,解得.
故选:A.
【点睛】
本题主要考查了回归直线方程的应用,其中解答中熟记回归直线的方程必过样本中心这一基本特征是解答的关键,着重考查了计算能力.
2.(2021·重庆南开中学高三阶段练习)对两个变量y和x进行回归分析,得到一组样本数据:,,…,,则下列说法中不正确的是( )
A.由样本数据得到的回归方程必过样本中心
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数为r=-0.9362,则变量y和x之间具有线性相关关系
【答案】C
【分析】
理解回归分析中样本中心、残差、相关指数R2、相关系数的含义,即可判断各选项的正误.
【详解】
A:样本中心点在回归直线上,正确;
B:残差平方和越小的模型,拟合效果越好,正确,
C:R2越大拟合效果越好,不正确,
D:当的值大于0.8时,表示两个变量具有高度线性相关关系,正确.
故选:C.
3.(2021·黑龙江·漠河市高级中学高三阶段练习(文))某单位为了了解办公楼用电量(度)与气温(℃)之间的关系,随机统计了四个工作量与当天平均气温,并制作了对照表:
气温(℃)
18
13
10
-1
用电量(度)
24
34
38
64
由表中数据得到线性回归方程,当气温为℃时,预测用电量均为
A.68度 B.52度 C.12度 D.28度
【答案】A
【详解】
由表格可知,,根据回归直线方程必过得,因此当时,,故选择A.
4.(2022·全国·高三专题练习)关于线性回归的描述,有下列命题:
①回归直线一定经过样本中心点;
②相关系数的绝对值越大,拟合效果越好;
③相关指数越接近1拟合效果越好;
④残差平方和越小,拟合效果越好.
其中正确的命题个数为( )
A.1 B.2 C.3 D.4
【答案】C
【分析】
根据回归直线方程的性质,相关系数、相关系数及残差平方和的意义判断各项的正误即可.
【详解】
对于①,回归直线一定经过样本中心点,故正确;
对于②,相关系数的绝对值越接近于1,相关性越强,故错误;
对于③,相关指数越接近1拟合效果越好,故正确;
对于④,残差平方和越小,拟合效果越好,故正确.
故选:C.
5.(2022·全国·高三专题练习)下列表述中,正确的个数是( )
①将一组数据中的每一个数据都加上同一个常数后,方差不变;
②设有一个回归方程,变量增加1个单位时,平均增加5个单位;
③设具有相关关系的两个变量,的相关系数为,那么越接近于0,,之间的线性相关程度越高;
④在一个列联表中,根据表中数据计算得到的观测值,若的值越大,则认为两个变量间有关的把握就越大.
A.0 B.1 C.2 D.3
【答案】C
【分析】
①根据方差的性质即可判断,②由回归方程一次项的系数符号可知增减情况,③根据相关系数的含义判断正误,④根据卡方检验的观测值的意义判断正误.
【详解】
①将一组数据中的每一个数据都加上同一个常数后,方差不变,正确;
②设有一个回归方程,变量增加1个单位时,平均减少5个单位,错误;
③设具有相关关系的两个变量,的相关系数为,那么越接近于1,,之间的线性相关程度越高,错误;
④在一个列联表中,根据表中数据计算得到的观测值,若的值越大,两个变量有关系的出错概率越小,则认为两个变量间有关的把握就越大,正确.
故选:C
6.(2022·全国·高三专题练习(文))对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是( )
A.0.2 B.0.8 C.-0.98 D.-0.7
【答案】C
【分析】
由相关系数的绝对值越大,越具有强大相关性,即可求解
【详解】
∵相关系数的绝对值越大,越具有强大相关性,
C相关系数的绝对值最大约接近1,
∴C拟合程度越好.
故选:C
7.(2022·全国·高三专题练习)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【答案】A
【分析】
由给出的四组数据的散点图,结合相关系数的概念,逐图判定,即可求解.
【详解】
由给出的四组数据的散点图可以看出,题图1和题图3是正相关,相关系数大于0,
题图2和题图4是负相关,相关系数小于0,
题图1和题图2的点相对更加集中,所以相关性更强,所以接近于1,接近于,
由此可得.
故选:A.
8.(2022·全国·高三专题练习(理))如果发现散点图中所有的样本点都落在一条斜率为非0实数的直线上,则下列说法错误的是( )
A.解释变量和预报变量是一次函数关系 B.相关系数
C.相关指数 D.残差平方和为0
【答案】B
【分析】
根据相关指数和残差的定义逐一判断即可.
【详解】
散点图中所有的样本点都落在一条斜率为非0实数的直线上,所以解释变量和预报变量是一次函数关系,且残差平方和为0,因此选项AD正确;
由题意可知,,若直线的斜率为正,则,若直线的斜率为负,则.
故选:B.
9.(2022·全国·高三专题练习(理))对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【答案】A
【分析】
根据题中给出的散点图,先判断是正相关还是负相关,然后根据散点图的集中程度分析相关系数的大小
【详解】
解:由图可知,图2和图3是正相关,图1和图4是负相关,
囷1和图2的点相对更加集中,所以相关性更强,所以接近于,接近1,
所以,
故选:A
10.(2022·全国·高三专题练习(理))变量x,y的线性相关系数为,变量m,n的线性相关系数为,下列说法错误的是( )
A.若,则说明变量x,y之间线性相关性强
B.若,则说明变量x,y之间的线性相关性比变量m,n之间的线性相关性强
C.若,则说明变量x,y之间的相关性为正相关
D.若,则说明变量x,y之间线性不相关
【答案】B
【分析】
根据相关系数的意义逐项分析判断即可.
【详解】
A:因为接近于1,所以说明变量x,y之间线性相关性强,故A正确;
B:若,满足,
但是不能说明变量x,y之间的线性相关性比变量m,n之间的线性相关性强,故B错误;
C:若,则说明变量x,y之间的相关性为正相关,故C正确;
D:,则说明变量x,y之间线性不相关,故D正确.
故选:B.
11.(2022·全国·高三专题练习(文))已知相关变量和的散点图如图所示,若用与拟合时的相关系数分别为则比较的大小结果为( )
A. B. C. D.不确定
【答案】C
【分析】
由散点图可知,对数形式的拟合程度高,再根据负相关,比较两个相关系数大小.
【详解】
由散点图可知,拟合比用拟合的程度高,故;
又因为此关系为负相关,
故选:C
12.(2022·全国·高三专题练习(文))在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C. D.1
【答案】D
【分析】
所有样本点(xi,yi)(i=1,2,…,n)都在直线上,故这组样本数据完全正相关,故其相关系数为1.
【详解】
由题设知,所有样本点(xi,yi)(i=1,2,…,n)都在直线上,
∴这组样本数据完全正相关,故其相关系数为1,故选D.
根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.
13.(2022·全国·高三专题练习)如图,5个数据,去掉后,下列说法错误的是( )
A.相关系数r变大 B.残差平方和变大
C.R2变大 D.解释变量x与预报变量y的相关性变强
【答案】B
【分析】
根据图中的点,计算去掉前后的相关系数、残差平方和、,即可判断各选项的正误.
【详解】
由图,,,则,,,
∴相关系数.
令回归方程,则,
∴,即回归方程为,可得为,,,,,
∴残差平方和,故,
去掉后,
,,则,,,
∴相关系数.
∴,A、D正确;
令回归方程,则,
∴,即回归方程为,可得为,,,,
∴残差平方和,故,
∴,B错误,C正确;
故选:B
14.(2022·全国·高三专题练习)某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:
第天
1
2
3
4
5
使用人数()
15
173
457
842
1333
由表中数据可得y关于x的回归方程为,则据此回归模型相应于点(2,173)的残差为( )
A. B. C.3 D.2
【答案】B
【分析】
先计算出的值,然后求得估计值,最后计算出残差.
【详解】
令,则,
1
4
9
16
25
使用人数()
15
173
457
842
1333
,,
所以,
所以,
当时,,
所以残差为.
故选:B
【点睛】
非线性回归要先转化为线性回归来求解,回归直线方程过样本中心点.
15.(2022·全国·高三专题练习)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
计算得,.
参照下表,
0.050
0.010
0.001
3.841
6.635
10.828
下列结论正确的是( )
A.在犯错误的概率不超过的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过的前提下,认为“生育意愿与城市级别无关”
C.有以上的把握认为“生育意愿与城市级别有关”
D.有以上的把握认为“生育意愿与城市级别无关”
【答案】C
【分析】
根据的值与临界值比较即可判断进而可得正确选项.
【详解】
因为,所以有以上的把握认为“生育意愿与城市级别有关”,
故选项A、B、D不正确,
故选:C.
16.(2022·全国·高三专题练习)2018世界特色魅力城市200强新鲜出炉,包括黄山市在内的28个中国城市入选,美丽的黄山风景和人文景观迎来众多宾客.现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是否与性别有关,在黄山旅游节期间,随机抽取了100人,得如下所示的列联表:
赞成“自助游”
不赞成“自助游”
合计
男性
30
15
45
女性
45
10
55
合计
75
25
100
参考公式:,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参照公式,得到的正确结论是( )
A.有以上的把握认为“赞成‘自助游’与性别无关”
B.有以上的把握认为“赞成‘自助游’与性别有关”
C.在犯错误的概率不超过的前提下,认为“赞成‘自助游’与性别无关”
D.在犯错误的概率不超过的前提下,认为“赞成‘自助游’与性别有关”
【答案】D
【分析】
计算的值与临界值比较即可判断四个选项的正确性,进而可得正确选项.
【详解】
将列联表中的数据代入计算,得,
因为,
所以在犯错误的概率不超过的前提下,可以认为“赞成‘自助游’与性别有关”.
有以上的把握认为“赞成‘自助游’与性别有关”,没有以上的把握认为“赞成‘自助游’与性别有关”,故选项ABC不正确,
故选:D.
17.(2022·全国·高三专题练习(文))为了了解某高中生对电视台某节目的态度,在某中学随机调查了110名同学,得到如下列联表:
男
女
总计
喜欢
40
20
60
不喜欢
20
30
50
总计
60
50
110
由算得.
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别无关”
C.有99%的把握认为“喜欢该节目与性别有关”
D.有99%的把握认为“喜欢该节目与性别无关”
【答案】C
【分析】
根据求出的数据,结合临界值表判断即可
【详解】
解:因为,
所以在犯错误的概率不超过1%的前提下,认为“喜欢该节目与性别有关”,或有99%的把握认为“喜欢该节目与性别有关”,
故选:C
18.(2022·全国·高三专题练习(文))为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出如等高条形图:
根据图中的信息,下列结论中不正确的是( )
A.样本中多数男生喜欢手机支付
B.样本中的女生数量少于男生数量
C.样本中多数女生喜欢现金支付
D.样本中喜欢现金支付的数量少于喜欢手机支付的数量
【答案】C
【分析】
根据两等号条形图的信息,逐个分析判断即可.
【详解】
对于A,由右图可知,样本中多数男生喜欢手机支付,A对;
对于B,由左图可知,样本中的男生数量多于女生数量,B对;
对于C,由右图可知,样本中多数女生喜欢手机支付,C错;
对于D,由右图可知,样本中喜欢现金支付的数量少于喜欢手机支付的数量,D对.
故选:C.
19.(2021·全国·高三专题练习(文))现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:
根据这两幅图中的信息,下列哪个统计结论是不正确的( )
A.样本中的女生数量多于男生数量
B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量
C.样本中的男生偏爱两理一文
D.样本中的女生偏爱两文一理
【答案】D
【分析】
由等高堆积条形图逐项判断即可.
【详解】
解:由条形图知女生数量多于男生数量,故A正确;
有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故B正确;
男生偏爱两理一文,故C正确;
女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故D错误.
故选:D.
二、多选题
20.(2021·山东聊城·三模)对具有相关关系的两个变量x和y进行回归分析时,经过随机抽样获得成对的样本点数据,则下列结论正确的是( )
A.若两变量x,y具有线性相关关系,则回归直线至少经过一个样本点
B.若两变量x,y具有线性相关关系,则回归直线一定经过样本点中心
C.若以模型拟合该组数据,为了求出回归方程,设,将其变换后得到线性方程,则a,b的估计值分别是3和6.
D.用来刻画回归模型的拟合效果时,若所有样本点都落在一条斜率为非零实数的直线上,则的值为1
【答案】BCD
【分析】
分别根据线性相关关系及拟合曲线关系对选项一一分析.
【详解】
若两变量x,y具有线性相关关系,即满足,则一定满足,样本点不一定在拟合直线上,故A错误,B正确;
若以模型拟合该组数据,,故,故C正确;
用来刻画回归模型的拟合效果时,若所有样本点都落在一条斜率为非零实数的直线上,则,即,故D正确;
故选:BCD
21.(2021·辽宁朝阳·一模)关于变量、的个样本点、、、及其线性回归方程:,下列说法正确的有( )
A.若相关系数越小,则表示、的线性相关程度越弱
B.若线性回归方程中的,则表示变量、正相关
C.若残差平方和越大,则表示线性回归方程拟合效果越好
D.若,,则点一定在回归直线上
【答案】BD
【分析】
本题可根据线性相关系数的意义判断出A错误,然后根据判断出B正确,再然后根据残差平方和越大拟合效果越差判断出C错误,最后根据样本中心点一定在回归直线上判断出D正确.
【详解】
A项:根据线性相关系数的意义可知,当的绝对值越接近于0时,两个随机变量线性相关越来越弱,A错误;
B项:当时,结合易知,变量、正相关,B正确;
C项:残差平方和越大,拟合效果越差,C错误;
D项:样本中心点一定在回归直线上,D正确,
故选:BD.
22.(2022·江苏·高三专题练习)则下列说法正确的是( )
A.在回归分析中,残差的平方和越小,模型的拟合效果越好;
B.在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;
C.若数据,,…,的平均数为1,则,,…的平均数为2;
D.对分类变量与的随机变量的观测值来说,越小,判断“与有关系”的把握越大.
【答案】ABC
【分析】
根据残差的意义,可判定AB真命题;根据数据的平均值的计算公式,可得C真命题;根据独立性检验中观测值的几何意义,可判定D为假命题.
【详解】
根据残差的意义知,残差的平方和越小,模型的拟合效果越好,所以A正确;
由残差的意义知,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,
所以B正确;
若数据,,…,的平均数为1,则,,…的平均数为也扩大为原来的2倍,即平均数为2,所以C正确;
对分类变量与的随机变量的观测值来说,应该是越大,判断“与有关系”的把握越大,所以D不正确.
故选:ABC.
23.(2022·全国·高三专题练习)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数,若有的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人
附表:
0.050
0.010
3.841
6.635
附:
A.25 B.45 C.60 D.75
【答案】BC
【分析】
设男生的人数为,列出列联表,计算出的观测值,结合题中条件可得出关于的不等式,解出的取值范围,即可得出男生人数的可能值.
【详解】
解:设男生的人数为,
根据题意列出列联表如下表所示:
男生
女生
合计
喜欢抖音
不喜欢抖音
合计
则,
由于有的把握认为是否喜欢抖音和性别有关,
则,即,
得,
,则的可能取值有、、、,
因此,调查人数中男生人数的可能值为、50、55或.
故选:BC.
三、填空题
24.(2022·全国·高三专题练习)有人发现,多看手机容易使人近视,下表是调查机构对此现象的调查数据:
近视
不近视
总计
少看手机
多看手机
总计
则在犯错误的概率不超过__________的前提下认为近视与多看手机有关系.
附表:
参考公式:,其中.
【答案】
【分析】
根据列联表计算得,进而得答案.
【详解】
解:根据列联表计算,
所以在犯错误的概率不超过的前提下认为近视与多看手机有关系.
故答案为:
四、解答题
25.(2022·全国·高三专题练习(文))近年来,新能源产业蓬勃发展,已成为我市的一大支柱产业.据统计,我市一家新能源企业近5个月的产值如下表:
月 份
5月
6月
7月
8月
9月
月份代码
1
2
3
4
5
产值亿元
16
20
27
30
37
(1)根据上表数据,计算与的线性相关系数,并说明与的线性相关性强弱;(,则认为与线性相关性很强;,则认为与线性相关性不强)
(2)求出关于的线性回归方程,并预测10月该企业的产值.
参考公式:;
参考数据:.
【答案】
(1);相关系数较强;
(2);10月该企业的产值约为亿元
【分析】
(1)利用表中数据求出 ,再由相关系数的求解公式即可求解.
(2)利用最小二乘法即可求解.
(1)
,,
,
因为,所以与线性相关性较强.
(2)
设线性回归方程为:;
,
,
即,
10月份对应的代码为,
,
10月该企业的产值约为亿元.
26.(2021·江西·模拟预测(文))某科技公司研发了一项新产品,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价(千元)和销售量(千件)之间的一组数据如下表所示:
月份
1
2
3
4
5
6
销售单价
销售量
(1)试根据1至5月份的数据,建立关于的回归直线方程;
(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过千元,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?
参考公式:回归直线方程,其中.
参考数据:,.
【答案】(1);(2)是.
【分析】
(1)先由表中的数据求出,再利用已知的数据和公式求出,从而可求出关于的回归直线方程;
(2)当时,求出的值,再与15比较即可得结论
【详解】
(1)因为,,
所以,
得,
于是关于的回归直线方程为;
(2)当时,,
则,
故可以认为所得到的回归直线方程是理想的.
27.(2022·河南·温县第一高级中学高三阶段练习(理))身高体重指数(BMI)的大小直接关系到人的健康状况,某高中高三(1)班班主任为了解该班学生的身体健康状况,从该班学生中随机选取5名学生,测量其身高、体重(数据如下表)并进行线性回归分析,得到线性回归方程为,因为某些原因,3号学生的体重数据丢失.
学生编号
1
2
3
4
5
身高
165
170
175
170
170
体重
58
62
65
63
(1)求表格中的值;
(2)已知公式可以用来刻画回归的效果,请问学生的体重差异约有百分之多少是由身高引起的.(注:结果四舍五入取整数)
【答案】
(1)
(2)88%
【分析】
(1)根据样本中心满足线性回归方程得,再根据平均数求解即可;
(2)根据回归方程依次计算对应数据的残差,并列表,再结合公式计算即可.
(1)
解:,
∵样本点的中心满足线性回归方程,
∴.
∴,解得.
(2)
解:根据回归方程,依次计算各组数据的残差,得如下表:
学生编号
1
2
3
4
5
身高
165
170
175
170
170
体重
58
62
67
65
63
残差
2
0
∴,
.
∴.
∴学生的体重差异约有88%是由身高引起的.
28.(2022·全国·高三专题练习)2021年6月17日9时22分,我国酒泉卫星发射中心用长征遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造、根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:
序号
1
2
3
4
5
6
7
8
9
10
11
12
x
2
3
4
6
8
10
13
21
22
23
24
25
y
15
22
27
40
48
54
60
68.5
68
67.5
66
65
当时,建立了y与x的两个回归模型:模型①:,模型②:;当时,确定y与x满足的线性回归方程为.
(1)根据下列表格中的数据,比较当时模型①,②的相关指数的大小,并选择拟合精度更高、更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益;
回归模型
模型①
模型②
回归方程
79.13
20.2
(2)为鼓励科技创新,当应用改造的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,根据(1)中选择的拟合精度更高更可靠的模型,比较投入17亿元与20亿元时公司收益(直接收益+国家补贴)的大小.
附:刻画回归效果的相关指数,且当越大时,回归方程的拟合效果越好..
用最小二乘法求线性回归方程的截距:.
【答案】(1)模型②拟合精度更高、更可靠,亿;(2)投入17亿元比投入20亿元时收益小.
【分析】
(1)根据公式计算相关指数,再根据大小选择合适的模型,根据所得模型可求直接受益.
(2)根据(1)中的公式结合利润计算方法可求公司收益,从而可得两者的大小关系.
【详解】
(1)对于模型①,
对应的,
故对应的,
故对应的相关指数,
对于模型②,同理对应的相关指数,
故模型②拟合精度更高、更可靠.
故对A型材料进行应用改造的投入为17亿元时的直接收益为.
(2)当时,
后五组的,,
由最小二乘法可得,
故当投入20亿元时公司收益(直接收益+国家补贴)的大小为:
,
故投入17亿元比投入20亿元时收益小.
29.(2021·河南·一模(文))近年来,政府相关部门引导乡村发展旅游的同时,鼓励农户建设温室大棚种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲,乙两同学一起收集6家农户的数据,进行回归分析,得到两个回归摸型:模型①:,模型②: ,对以上两个回归方程进行残差分析,得到下表:
种植面积(亩)
2
3
4
5
7
9
每亩种植管理成本(百元)
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
17.02
13.72
残差
-0.27
0.38
-0.97
-1.02
0.28
模型②
26.84
20.17
18.83
17.31
16.46
-1.84
0.83
3.17
-1.31
-2.46
(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;
(2)视残差的绝对值超过1.5的数据视为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据后,重新求回归方程.
附:, ;
【答案】(1)表格答案见解析,模型①拟合效果比较好.(2)
【分析】
(1)令时,求得,,令时,求得,,填入表格即可.根据残差平方和公式,分别求得模型①的残差平方和,模型②的残差平方和,再比较下结论.
(2)根据视残差的绝对值超过1.5的数据视为异常数据,应剔除第四组数据,分别求得,,利用公式进而求得,,写出回归方程.
【详解】
(1)当时,,,
当时,,,
完成表格如下:
种植面积(亩)
2
3
4
5
7
9
每亩种植管理成本(百元)
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
20.32
17.02
13.72
残差
-0.27
0.38
-0.97
1.68
-1.02
0.28
模型②
26.84
22.39
20.17
18.83
17.31
16.46
-1.84
1.61
0.83
3.17
-1.31
-2.46
模型①的残差平方和为,
模型②的残差平方和为,
所以模型①的残差平方和比模型②的残差平方和小,
所以模型①拟合效果比较好.
(2)由题意知,应剔除第四组数据,
,,
,
,
∴所求回归方程为.
【点睛】
本题考查回归分析,线性回归方程模型的建立,还考查了数据处理能力和运算求解能力,属于中档题.
30.(2021·全国·模拟预测)婺源位于江西省东北部,其境内古村落遍布乡野,保存完整,生态优美,物产丰富,拥有着油菜花之乡的美誉,被誉为一颗镶嵌在赣、浙、皖三省交界处的绿色明珠.为了调查某片实验田3月份油菜花的生长高度,研究人员在当地随机抽取了13株油菜花进行高度测量,所得数据如下:,,,,,,,,.并通过绘制及观察散点图,选用两种模型进行拟合:
模型一:,其中令;
模型二:,其中令.
(1)求模型二的回归方程;
(2)试通过计算相关系数的大小,说明对于所给数据,哪一种模型更加合适.
参考数据:,,,.
附:对于一组数据,,…,,其回归方程的斜率和截距的最小二乘估计分别为,,相关系数.
【答案】
(1)
(2),,模型二更合适.
【分析】
(1)模型二,其中令,则y=c+dt,则y和t成线性关系,由最小二乘法求出c和d即可;
(2)计算两种模型的相关系数,相关系数绝对值越大,拟合越好,模型更合适.
(1)
因为,
,
所以模型二的回归方程为.
(2)
依题意,模型一的相关系数,
模型二的相关系数.
因为,所以用模型建立y与x的回归方程更合适.
31.(2021·陕西·西安中学高三阶段练习(文))我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金,现该企业为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额和年盈利额的数据.通过对比分析,建立了两个函数模型:①;②,其中均为常数,e为自然对数的底数.令,,经计算得如下数据:
26
215
65
2
680
5.36
11250
130
2.6
12
(1)请从相关系数的角度,分析哪一个模型拟合程度更好;
(2)根据(1)的选择及表中数据,建立y关于x的回归方程(回归系数精确到0.01).
附:相关系数,
线性回归直线方程,其中附:,.
【答案】
(1)模型②更好,理由见解析;
(2).
【分析】
(1)根据已知数据,结合函数模型,分别计算相关系数,即可进行比较;
(2)根据参考公式和已知数据,先求得关于的线性回归方程,再转化为关于的回归方程即可.
(1)
若选择模型①,
故可得其相关系数
若选择模型②,,
故可得其相关系数
则,因此从相关系数的角度,模型的拟合程度更好.
(2)
先建立关于的线性回归方程,由得,即.
,,
故关于的线性回归方程为:,
故,即,
故y关于x的回归方程为:.
【点睛】
本题考察回归方程的求解,其中第二问中,需要对取对数得,求得关于的线性回归方程,再转化为关于的回归方程,是处理本题的难点和关键点,属中档题.
32.(2021·四川·成都七中一模(文))某投资公司2012年至2021年每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图如图:该投资公司为了预测2022年投资金额为20万元时的年利润增量,建立了关于的两个回归模型;模型①:由最小二乘公式可求得与的线性回归方程:;模型②:由图中样本点的分布,可以认为样本点集中在由线:的附近,对投资金额做换元,令,则,且有,
(1)根据所给的统计量,求模型②中关于的回归方程;
(2)分别利用这两个回归模型,预测投资金额为20万元时的年利润增量(结果保留两位小数);
附:样本的最小乘估计公式为;参考数据:.
【答案】
(1)
(2)模型①的年利润增量的预测值为(万元),模型②的年利润增量的预测值为(万元)
【分析】
(1)结合已知数据和公式求出这两个系数即可得回归方程;
(2)把代入模型①、②的回归方程,算出即可.
(1)
由题意,知,可得,
又由,
则
所以,模型②中关于的回归方程.
(2)
当时,模型①的年利润增量的预测值为(万元),
当时,模型②的年利润增量的预测值为
万元
33.(2021·云南师大附中高三阶段练习(文))近年来,由于耕地面积的紧张,化肥的施用量呈增加趋势.一方面,化肥的施用对粮食增产增收起到了关键作用,另一方面,也成为环境污染、空气污染、土壤污染的重要来源之一如何合理地施用化肥,使其最大程度地促进粮食增产,减少对周围环境的污染成为需要解决的重要问题研究粮食产量与化肥施用量的关系,成为解决上述问题的前提某研究团队收集了10组化肥施用量和粮食亩产量的数据并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值化肥施用量为(单位:公斤),粮食亩产量为(单位:百公斤).
参考数据:
650
91.5
52.5
1478.6
30.5
15
15
46.5
表中.
(1)根据散点图判断,与,哪一个适宜作为粮食亩产量关于化肥施用量的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)根据(2)的回归方程,并预测化肥施用量为27公斤时,粮食亩产量的值;
附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为;②取.
【答案】
(1)更适合作为关于的回归方程类型;
(2);
(3)810公斤.
【分析】
(1)根据散点图即可判断,更适合作为关于的回归方程类型;
(2)对两边取对数,得,即,根据表中数据求出,再根据最小二乘法求出和的值,从而得出关于的回归方程;
(3)由(2)得,当时,即可预测粮食亩产量的值.
(1)
解:根据散点图可判断,更适合作为关于的回归方程类型.
(2)
解:对两边取对数,得,即,
由表中数据得:,,
,
,所以,
所以关于的回归方程为.
(3)
解:由(2)得,
当时,,
所以当化肥施用量为27公斤时,粮食亩产量约为810公斤.
34.(2021·河北·高三阶段练习)《2021新锐品牌数字化运营白皮书》中,我国提出了新锐品牌的概念,全称是国货新锐品牌.对这个名称进行拆解:国货、新、锐.新有两个层面,一是针对企业本身,指2011年后成立的品牌.二是针对消费者本身,开拓了新的消费场景(需求),形成了细分化的品类.锐:是在短期内实现大大高于传统品牌的爆发式增长,并且占据了一定的消费者心智.如图是11月份中国某信息网发布的我国市2021年上半年新锐品牌人群用户(新锐品牌人群,指在指定周期内浏览新锐品牌相关内容以及商品详情页的人群)性别分析数据.市对购买家电类新锐品牌人群中随机调查了100位男性顾客和100位女性顾客,统计出每位顾客购买家电消费金额,根据这些数据得到如下的频数分布表:
消费金额(元)
女性顾客人数
50
30
10
6
4
男性顾客人数
20
40
24
10
6
(1)若以我国市2021年上半年新锐品牌人群用户性别分析数据作为市抽取新锐品牌人群中性别概率,从市新锐品牌人群中随机抽取四人,为四人中男性的人数,求的概率分布列和期望.
(2)根据市统计购买家电消费金额数据频数分布表,完成下列列联表,并根据列联表,判断是否有99%的把握认为购买家电类新锐品牌人群消费金额千元以上与性别有关?
不超千元
千元以上
合计
女性顾客
男性顾客
合计
附:,
0.050
0.010
0.001
3.841
6.635
10.828
【答案】
(1)分布列答案见解析,数学期望:
(2)列联表答案见解析,有99%的把握认为顾客购买家电消费金额千元以上与性别有关
【分析】
(1)由频率估计概率得人群中随机抽取一人为男性的概率为75%,为女性的概率为25%,进而结合二项分布求解即可;
(2)根据题意补全列联表,结合公式计算,进行独立性检验.
(1)
解:若以我国2021年上半年新锐品牌人群用户性别比例数据作为市抽取新锐品牌人群性别概率,
则市新锐品牌人群中随机抽取一人为男性的概率为75%,为女性的概率为25%,且服从二项分布,
得分布列为
0
1
2
3
4
的数学期望:.
(2)
解:根据所给数据,可得列联表:
不超千元
千元以上
合计
女性顾客
80
20
100
男性顾客
60
40
100
合计
140
60
200
根据列联表得.
因为,所以有99%的把握认为顾客购买家电消费金额千元以上与性别有关.
35.(2022·全国·高三专题练习)某中学随机抽查了名同学的每天课外阅读时间,得到如下统计表:
时长(分)
人数
(1)求这名同学的平均阅读时长(用区间中点值代表每个人的阅读时长);
(2)在阅读时长位于的人中任选人,求甲同学被选中的概率;
(3)进一步调查发现,语文成绩和每天的课外阅读时间有很大关系,每天的课外阅读时间多于半小时称为“阅读迷”,语文成绩达到分视为优秀,根据每天的课外阅读时间和语文成绩是否优秀,制成一个列联表:
阅读迷
非阅读迷
合计
语文成绩优秀
语文成绩不优秀
合计
根据表中数据,判断是否有的把握认为语文成绩是否优秀与课外阅读时间有关.
参考公式:,其中.
参考数据:
【答案】
(1)小时
(2)
(3)有,理由见解析
【分析】
(1)将每组的中点值乘以对应组的人数相乘,将所求结果相加后除以可得这名同学的平均阅读时长;
(2)设这名学生分别为甲、乙、丙、丁,列举出所有的基本事件,并确定所求事件所包含的基本事件,利用古典概型的概率公式可求得结果;
(3)计算出的观测值,结合临界值表可得出结论.
(1)
设这名同学的平均阅读时长为小时,
则,
故这名同学的平均阅读时长为小时;
(2)
设这名学生分别为甲、乙、丙、丁,
从这名学生任取名学生,所有的基本事件有:(甲,乙)、(甲、丙)、(甲、丁)、(乙、丙)、(乙,丁)、(丙、丁),共个,
其中,事件“甲同学被选中”所包含的基本事件有:(甲,乙)、(甲、丙)、(甲、丁),
因此,所求概率为;
(3)
,
因此,有的把握认为语文成绩是否优秀与课外阅读时间有关.
36.(2022·全国·高三专题练习)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2)
表1:注射药物A后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
频数
30
40
20
10
表2:注射药物B后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
[80,85)
频数
10
25
20
30
15
(1)完成下面2×2列联表;
疱疹面积小于70 mm2
疱疹面积不小于70 mm2
总计
注射药物A
a=
b=
注射药物B
c=
d=
总计
n=
(2)能否在犯错误概率不超过0.01的前提下,认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”?
【答案】
(1)列联表见解析
(2)能在犯错误概率不超过0.01的前提下,认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
【分析】
(1)根据表格1和表格2中的数据,分别求得的值,即可得到列联表;
(2)由(1)中列联表中的数据,利用公式求得,结合,即可得到结论.
(1)
解:根据题意,利用表格1和表格2中的数据,
则注射药物且疱疹面积小于70 mm2,可得;
注射药物且疱疹面积不小于70 mm2,可得;
注射药物且疱疹面积小于70 mm2,可得;
注射药物且疱疹面积不小于70 mm2,可得;
可得列联表,如图下表所示:
疱疹面积小于70 mm2
疱疹面积不小于70 mm2
总计
注射药物A
100
注射药物B
100
总计
105
95
200
(2)解:由列联表中的数据,可得,
由于,所以有99 %的把握认为两者有关系,
即在犯错误概率不超过0.01的前提下,认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
37.(2022·全国·高三专题练习)某淘宝店经过对春节七天假期的消费者进行统计,发现在金额不超过1000元的消费者中男女比例为,该店按此比例抽取了100名消费者进行进一步分析,得到下表女性消费情况:
消费金额(元)
人数
5
10
15
47
3
男性消费情况:
消费金额(元)
人数
2
3
10
3
2
若消费金额不低于600元的网购者为“网购达人”,低于600元的网购者为“非网购达人”
(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?
(2)根据以上统计数据填写如下列联表,并回答能否在犯错误的概率不超过的前提下认为“是否为‘网购达人’与性别有关”.
女性
男性
合计
“网购达人”
“非网购达人”
合计
附:.
【答案】(1)女消费者消费平均数为582.5元,男消费者消费平均数为500元,“平均消费水平”高的一方“网购达人”出手不一定更阔绰;
(2)列联表略,可以认为“是否为‘网购达人’与性别有关”
【详解】
(1)女消费者消费平均数
(元).
男消费者消费平均数.
虽然女消费者消费水平较高,但“女网购达人”平均消费水平(为712元),低于“男网购达人”平均消费水平(为780元),所以“平均消费水平”高的一方“网购达人”出手不一定更阔绰.
(2)列联表如下所示:
女性
男性
合计
“网购达人”
50
5
55
“非网购达人”
30
15
45
合计
80
20
100
假设“是否为‘网购达人’与性别无关”,
则,
因为,
所以在犯错误的概率不超过的前提下可以认为“是否为‘网购达人’与性别有关”.
相关试卷
这是一份备战2024高考数学艺体生一轮复习40天突破90分讲义word版专题28 统计案例和回归方程(解析版),共40页。
这是一份备战2024高考数学艺体生一轮复习讲义-专题28 统计案例和回归方程,文件包含专题28统计案例和回归方程解析版docx、专题28统计案例和回归方程原卷版docx等2份试卷配套教学资源,其中试卷共67页, 欢迎下载使用。
这是一份第26讲 统计-2023年新高考艺术生突破数学90分讲义,文件包含第26讲统计解析版docx、第26讲统计原卷版docx等2份试卷配套教学资源,其中试卷共77页, 欢迎下载使用。