2023高考数学艺体生一轮复习 专题28 统计案例和回归方程(原卷版)
展开专题28 统计案例和回归方程
【考点预测】
知识点一、变量间的相关关系
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2、散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3、相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
知识点二、线性回归
1、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
2、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
知识点三、独立性检验
1、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
2、等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.
(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.
3、独立性检验
(1)定义:利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
(2)公式:,其中为样本容量.
(3)独立性检验的具体步骤如下:
①计算随机变量的观测值,查下表确定临界值:
0.5
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
②如果,就推断“与有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”.
(2)两个分类变量和是否有关系的判断标准:
统计学研究表明:
当时,认为与无关;
当时,有的把握说与有关;
当时,有的把握说与有关;
当时,有的把握说与有关.
【典例例题】
例1.(2023·浙江湖州·高三安吉县高级中学校考期末)研究变量得到一组样本数据,进行回归分析,以下说法中错误的是( )
A.若变量和之间的相关系数为,则变量和之间的负相关很强
B.用决定系数来比较两个模型拟合效果,越大,表示残差平方和越小,即模型的拟合效果越好
C.在经验回归方程中,当解释变量每增加1个单位时,响应变量平均减少2个单位
D.经验回归直线至少经过点中的一个
例2.(2023春·河南濮阳·高三统考开学考试)某大型企业开发了一款新产品,投放市场后供不应求,为了达到产量最大化,决定增加生产线.经过一段时间的生产,统计得该款新产品的生产线条数与月产量(件)之间的统计数据如下表:
4
6
8
10
30
40
60
70
由数据可知,线性相关,且满足回归直线方程,则当该款新产品的生产线为12条时,预计月产量为( )A.73件 B.79件 C.85件 D.90件
例3.(2023·高三课时练习)通过随机询问110名不同的大学生是否爱好某项运动,得到了如下的列联表:
男
女
合计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
附表:
0.05
0.010
0.001
3.841
6.635
10.828
参照附表,能得到的正确结论是( ). A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
例4.(多选题)(2023·山西·统考一模)某同学用搜集到的六组数据绘制了如下散点图,在这六个点中去掉点后重新进行回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的绝对值越趋于1
C.残差平方和变小 D.解释变量与预报变量相关性变弱
例5.(2023·浙江宁波·高三期末)已知变量x和y的统计数据如下表:
x
6
7
8
9
10
y
3.5
4
5
5.5
7
如果由表中数据可得经验回归直线方程为,那么,当时,残差为______.(注:残差=观测值-预测值)
例6.(2023·全国·模拟预测)2022年是极其不平凡的一年,我国在新冠疫情的反复肆虐下奋勇前行,取得了可观的抗疫成果.下表是2022年3月13日至3月18日河北省现存新冠肺炎确诊病例数目的统计结果:
日期
2022.3.13
2022.3.14
2022.3.15
2022.3.16
2022.3.17
2022.3.18
日期编号x
1
2
3
4
5
6
病例数目y
131
182
195
233
271
292
(1)请根据表中的数据用最小二乘法求y与x的回归直线方程;(计算结果均保留整数)
(2)若已知某校须在河北省病例数目达到450例之前采取封校措施,假设该时间段内河北省的疫情增长速率持平,请根据(1)中的回归直线方程推测该校最晚在哪一天采取封校措施.
参考公式:,,,
例7.(2023春·河北石家庄·高三石家庄二中校考开学考试)某中药企业计划种植两种药材,通过大量考察研究得到如下统计数据.药材A的亩产量约为300公斤,其收购价格处于上涨趋势,最近五年的价格如下表:
年份
2018
2019
2010
2021
2022
年份编号
1
2
3
4
5
单价(元/公斤)
18
20
23
25
29
药材的收购价格始终为20元/公斤,其亩产量的频率分布直方图如下:
(1)若药材A的单价(单位:元/公斤)与年份编号间具有线性相关关系;请求出关于的回归直线方程,并估计2024年药材A的单价;
(2)利用上述频率分布直方图估计药材B的平均亩产量(同一组数据用中点值为代表);
(3)若不考虑其他因素影响,为使收益最大,试判断2024年该药企应当种植药材A还是药材B?并说明理由.
参考公式:回归直线方程,其中.
例8.(2023·全国·高三专题练习)为了让人民享受到更优质的教育服务,我国逐年加大对教育的投入.为了预测2022年全国普通本科招生数,建立了招生数y(单位:万人)与时间变量t的三个回归模型.其中根据2001年至2019年的数据(时间变量t的值依次取1,2,3,…,19)建立模型①: (决定系数)和模型②:=152.4+16.3t(相关系数0.97,决定系数).根据2014年至2019年的数据(时间变量t的值依次取1,2,3,…,6)建立模型③:=372.8+9.8t(相关系数0.99,决定系数).
(1)可以根据模型①得到2022年全国普通本科招生数的预测值为597.88万人,请你分别利用模型②③,求2022年全国普通本科招生数的预测值;
(2)你认为用哪个模型得到的预测值更可靠?说明理由(写出一个即可).
例9.(2023·辽宁·校联考模拟预测)5G技术对社会和国家十分重要,从战略地位来看,业界一般将其定义为继蒸汽机革命、电气革命和计算机革命后的第四次工业革命.某科技公司生产一种5G手机的核心部件,下表统计了该公司2017-2021年在该部件上的研发投入x(单位:千万元)与收益y(单位:亿元)的数据,结果如下:
年份
2017
2018
2019
2020
2021
研发投入x
2
3
4
5
6
收益y
2
3
3
3
4
(1)求研发投入x与收益y的相关系数r(精确到0.01);
(2)由表格可知y与x线性相关,试建立y关于x的线性回归方程,并估计当x为9千万元时,该公司生产这种5G手机的核心部件的收益为多少亿元;
(3)现从表格中的5组数据中随机抽取2组数据并结合公司的其他信息作进一步调研,记其中抽中研发投入超出4千万元的组数为X,求X的分布列及数学期望.
参考公式及数据:对于一组数据(i=1,2,3,⋯,n),相关系数,其回归直线的斜率和截距的最小二乘估计分别为,,.
例10.(2023·河南信阳·高三统考期末)热心网友们调查统计了柳州市某网红景点在2022年6月至10月的旅游收入y(单位:万元),得到以下数据:
月份x
6
7
8
9
10
旅游收入y
10
12
11
12
20
(1)根据表中所给数据,用相关系数r加以判断,是否可用线性回归模型拟合y与x的关系?若可以,求出y关于x之间的线性回归方程;若不可以,请说明理由;
(2)为调查游客对该景点的评价情况,网友们随机抽查了200名游客,得到如图列联表,请填写2×2列联表,并判断能否有99.9%的把握认为“游客是否喜欢该网红景点与性别有关联”?
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考数据:,
注:r与的计算结果精确到0.001.参考公式:相关系数,
线性回归方程:,其中,,
.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
例11.(2023·全国·高三专题练习)网民的智慧与活力催生新业态,网络购物,直播带货,APP买菜等进入我们的生活,改变了我们的生活方式,随之电信网络诈骗犯罪形势也非常严峻.自“国家反诈中心APP”推出后,某地区采取多措并举的推广方式,努力为人民群众构筑一道防诈反诈的“防火墙”.经统计,该地区网络诈骗月报案数与推广时间有关,并记录了经推广x个月后月报案件数y的数据.
x(个)
1
2
3
4
5
6
7
y(件)
891
888
351
220
200
138
112
(1)根据以上数据,使用作为回归方程模型,求出y关于x的回归方程;
(2)分析该地区一直推广下去,两年后能否将网络诈骗月报案数降至75件以下.参考数据(其中,,,,.
参考公式:对于一组数据,,,…,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.
例12.(2023·陕西榆林·统考一模)第二十二届世界杯足球赛在卡塔尔正式拉开序幕,这是历史上首次在北半球冬季举行的世界杯足球赛.某市为了解高中生是否关注世界杯足球赛与性别的关系,随机对该市50名高中生进行了问卷调查,得到如下列联表.
关注
不关注
合计
男高中生
4
女高中生
14
合计
已知在这50名高中生中随机抽取1人,抽到关注世界杯足球赛的高中生的概率为.
(1)完成上面的列联表;
(2)根据列联表中的数据,判断能否有的把握认为该市高中生是否关注世界杯足球赛与性别有关.
附:,其中.
【技能提升训练】
一、单选题
1.(2023·全国·高三专题练习)下列关于回归分析与独立性检验的说法正确的是( )
A.回归分析和独立性检验没有什么区别
B.回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系
C.回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验
D.独立性检验可以100%确定两个变量之间是否具有某种关系
2.(2023·全国·高三专题练习)已知下列命题:
①回归直线恒过样本点的中心;
②两个变量线性相关性越强,则相关系数就越接近于1;
③两个模型中残差平方和越小的模型拟合的效果越好.
则正确命题的个数是( ).
A.0 B.1 C.2 D.3
3.(2023·全国·高三专题练习)某中学有学生近600人,要求学生在每天上午7:30之前进校,现有一个调查小组调查某天7:00~7:30进校人数的情况,得到如下表格(其中纵坐标表示第分钟至第分钟到校人数,,,如当时,纵坐标表示在7:08~7:09这一分钟内进校的人数为4人).根据调查所得数据,甲同学得到的回归方程是(图中的实线表示),乙同学得到的回归方程是(图中的虚线表示),则下列结论中错误的是( )
1
5
9
15
19
21
24
27
28
29
30
1
3
4
4
11
21
36
66
94
101
106
A.7:00~7:30内,每分钟的进校人数与相应时间呈正相关
B.乙同学的回归方程拟合效果更好
C.根据甲同学得到的回归方程可知该校当天7:09~7:10这一分钟内的进校人数一定是9人
D.该校超过半数的学生都选择在规定到校时间的前5分钟内进校
4.(2023·全国·高三专题练习)下图是某地区2001年至2021年环境保护建设投资额(单位:万元)的折线图.
根据该折线图判断,下列结论正确的是( )
A.为预测该地2022年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠
B.为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠
C.投资额与年份负相关
D.投资额与年份的相关系数
5.(2023春·广东揭阳·高三校考阶段练习)给出以下四个命题:
①在回归分析中,可用相关指数的值判断模型的拟合效果,越大,模型的拟合效果越好;
②回归模型中离差是实际值与估计值的差,离差点所在的带状区域宽度越窄,说明模型拟合精度越高;
③在一组样本数据(,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的线性相关系数为;
④对分类变量与的统计量来说,值越小,判断“与有关系”的把握程度越大.
其中,真命题的个数为( )
A. B. C. D.
6.(2023秋·江苏南通·高三统考期末)经验表明,树高与胸径具有线性关系,为了解回归方程的拟合效果,利用下列数据计算残差,用来绘制残差图.
胸径x/cm
18.2
19.1
22.3
24.5
26.2
树高的观测值y/m
18.9
19.4
20.8
22.8
24.8
树高的预测值
18.6
19.3
21.5
23.0
24.4
则残差的最大值和最小值分别是( )A.0.4,-1.8 B.1.8,-0.4 C.0.4,-0.7 D.0.7,-0.4
7.(2023春·河南开封·高三统考开学考试)某部门统计了某地区今年前7个月在线外卖的规模如下表:
月份代号x
1
2
3
4
5
6
7
在线外卖规模y(百万元)
11
13
18
★
28
★
35
其中4、6两个月的在线外卖规模数据模糊,但这7个月的平均值为23.若利用回归直线方程来拟合预测,且7月相应于点的残差为,则( )A.1.0 B.2.0 C.3.0 D.4.0
8.(2023·广西柳州·统考模拟预测)下列说法正确的是( )
A.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差
B.某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学
C.数据2,3,4,5的方差是数据4,6,8,10的方差的一半
D.在回归直线方程,当解释变量每增加1个单位时,预报变量多增加0.1个单位
9.(2023·全国·高三专题练习)用模型拟合一组数据时,设,将其变换后得到回归方程为,则( )
A. B.1 C. D.2
10.(2023·全国·高三专题练习)如图是一组实验数据的散点图,拟合方程,令,则关于的回归直线过点,,则当时,的取值范围是( )
A. B. C. D.
11.(2023·全国·高三专题练习)人类已进入大数据时代,目前,全球年数据产生量已经从级别跃升到,乃至级别(,,,).由国际数据公司的研究结果得到2008年至2020年全球年数据产生量(单位:)的散点图.根据散点图,下面四个选项中最适宜刻画2008年至2020年全球年数据产生量和实际的函数模型是( )
A. B.
C. D.
12.(2023·全国·高三专题练习)某高中调查学生对2022年冬奥会的关注是否与性别有关,随机抽样调查150人,进行独立性检验,经计算得,临界值表如下:
0.15
0.10
0.05
0.025
0.010
2.072
2.076
3.841
5.024
6.635
则下列说法中正确的是:( )A.有97.5%的把握认为“学生对2022年冬奥会的关注与性别无关”
B.有99%的把握认为“学生对2022 年冬奥会的关注与性别有关”
C.在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别有关”
D.在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别无关”
13.(2023·上海·高三专题练习)为了考查某种病毒疫苗的效果,现随机抽取100只小白鼠进行试验,得到如下2×2列联表:
感染
未感染
总计
服用
10
40
50
未服用
20
30
50
总计
30
70
100
附:,其中.
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
根据以上数据,得到的结论正确的是( )A.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”
B.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗无关”
C.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”
D.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗无关”
14.(2023·全国·高三专题练习)通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表:
跳绳
性别
合计
男
女
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
已知,
0.05
0.01
0.001
3.841
6.635
10.828
则以下结论正确的是( )A.根据小概率值的独立性检验,爱好跳绳与性别无关
B.根据小概率值的独立性检验,爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
C.根据小概率值的独立性检验,有99%以上的把握认为“爱好跳绳与性别无关”
D.根据小概率值的独立性检验,在犯错误的概率不超过1%的前提下,认为“爱好跳绳与性别无关”
二、多选题
15.(2023春·广东·高三统考开学考试)给出下列说法,其中正确的是( )
A.某病8位患者的潜伏期(天)分别为3,3,8,4,2,7,10,18,则它们的第50百分位数为
B.已知数据的平均数为2,方差为3,那么数据,,的平均数和方差分别为5,13
C.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定
D.样本相关系数
16.(2023·全国·高三专题练习)下列命题中正确的是( )
A.在回归分析中,成对样本数据的样本相关系数r的绝对值越大,成对样本数据的线性相关程度越强
B.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好
C.比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型拟合效果越差
D.对分类变量X与Y,统计量的值越大,则判断“X与Y有关系”的把握程度越大
17.(2023·全国·高三专题练习)(多选)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,随机观察了他所在地区的100天中的“日落云里走”的情况和后半夜天气情况,得到如下数据,
后半夜天气情况
“日落云里走”的情况
下雨
未下雨
总计
出现
25
5
30
未出现
25
45
70
总计
50
50
100
并计算得到,则小波对该地区天气的判断正确的是( )A.后半夜下雨的概率约为
B.未出现“日落云里走”时,后半夜下雨的概率约为
C.有99%的把握认为“‘日落云里走’是否出现”与“后半夜是否下雨”有关
D.若出现“日落云里走”,则后半夜有99%的可能会下雨
18.(2023·全国·高三专题练习)“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如下所示的列联表,通过计算得到K2的观测值为9
认可
不认可
40岁以下
20
20
40岁以上(含40岁)
40
10
已知,,则下列判断正确的是( )A.在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动”
B.在该餐厅用餐的客人中大约有99%的客人认可“光盘行动”
C.有99%的把握认为“光盘行动”的认可情况与年龄有关
D.在犯错误的概率不超过0.001的前提下,认为“光盘行动”的认可情况与年龄有关
19.(2023秋·河北保定·高三校考期末)下列说法中正确的有( )
A.将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
B.设有一个线性回归方程,变量增加1个单位时,平均增加5个单位;
C.设具有相关关系的两个变量,的相关系数为,则越接近于0,和之间的线性相关程度越弱;
D.在一个列联表中,由计算得的值,在的前提下,的值越大,判断两个变量间有关联的把握就越大.
三、填空题
20.(2023·全国·高三专题练习)2020年,全球展开了某疫苗研发竞赛,我为处于领先地位,为了研究疫苗的有效率,在某地进行临床试验,对符合一定条件的10000名试验者注射了该疫苗,一周后有20人感染,为了验证疫苗的有效率,同期,从相同条件下未注射疫苗的人群中抽取2500人,分成5组,各组感染人数如下:
调查人数
300
400
500
600
700
感染人数
3
3
6
6
7
并求得与的回归方程为,同期,在人数为10000的条件下,以拟合结果估算未注射疫苗的人群中感染人数,记为;注射疫苗后仍被感染的人数记为,则估计该疫苗的有效率为__________. (疫苗的有效率为;参考数据:;结果保留3位有效数字)
21.(2023·全国·高三专题练习)给出的下列四个命题中,正确的命题序号为______.
①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②设回归直线方程为,当变量每增加一个单位时,平均增加2个单位;
③已知服从正态分布,且,则;
④变量与相对应的一组样本数据为,,,,由上述样本数据得到与的线性回归分析,若表示解释变量对于预报变量变化的贡献率,则.
22.(2023·全国·高三专题练习)x和y的散点图如图所示,在相关关系中,若用拟合时的决定系数为,用拟合时的决定系数为,则,中较大的是________.
23.(2023·高三课时练习)已知x、y的取值如下表所示:
x
2
3
4
5
y
2.2
3.8
5.5
m
若y与x线性相关,且回归直线方程为,则表格中实数m的值为_________.
24.(2023·高三课时练习)观察下列图形,其中两个变量x、y具有相关关系的图是______.(写出所有满足条件的图形序号)
25.(2023·湖南岳阳·统考一模)已知某车间在上半年的六个月中,每个月的销售额y(万元)与月份()满足线性回归方程,则该车间上半年的总销售额约为______万元.
26.(2023·高三课时练习)某实验室对小白鼠体内x、y两项指标进行研究,连续五次实验所测得的这两项指标数据如下表:
x
120
110
125
130
115
y
92
83
90
96
89
已知y与x具有线性相关关系,利用上表中的五组数据求得回归直线方程为.若下一次实验中,利用该回归直线方程预测得,则的值为______.
27.(2023秋·广西河池·高三统考期末)近年来,“考研热”持续升温,2022年考研报考人数官方公布数据为457万,相比于2021年增长了80万之多,增长率达到21%以上.考研人数急剧攀升原因较多,其中,本科毕业生人数增多、在职人士考研比例增大,是两大主要因素.据统计,某市各大高校近几年的考研报考总人数如下表:
年份
2018
2019
2020
2021
2022
年份序号x
1
2
3
4
5
报考人数y(万人)
1. 1
1.6
2
2.5
m
根据表中数据,可求得y关于x的线性回归方程为,则m的值为___________.
四、解答题
28.(2023·全国·高三专题练习)据贵州省气候中心报,2021年6月上旬,我省降水量在15.2-170.3mm之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm,其余均在50mmm以上,局地超过100mm.若我省某地区2021年端午节前后3天,每一天下雨的概率均为.通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数(,且)表示是否下雨:当时表示该地区下雨,当时,表示该地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下:
332 714 740 945 593 468 491 272 073 445
992 772 951 431 169 332 435 027 898 719
(1)求出k的值,使得该地区每一天下雨的概率均为;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;
(2)2016年到2020年该地区端午节当天降雨量(单位:mm)如表:
时间
2016年
2017年
2018年
2019年
2020年
年份
1
2
3
4
5
降雨量
28
27
25
23
22
经研究表明:从2016年到2020年,该地区端午节有降雨的年份的降雨量与年份具有线性相关关系,求回归直线方程.并预测该地区2022年端午节有降雨的话,降雨量约为多少?
参考公式:,.
29.(2023·全国·高三专题练习)互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲,乙两家网络外卖企业(以下称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:
1日
2日
3日
4日
5日
外卖甲日接单(百单)
5
2
9
8
11
外卖乙日接单(百单)
2
3
10
5
15
(1)试根据表格中这五天的日接单量情况,从统计的角度说明这两家外卖企业的经营状况;
(2)据统计表明,与之间具有线性相关关系.
①请用相关系数对与之间的相关性强弱进行判断;(若,则可认为与有较强的线性相关关系,值精确到0.001)
②经计算求得与之间的回归直线方程为,假定每单外卖业务企业平均能获纯利润3元,试预测当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润的大致范围.(值精确到0.01)
参考数据:,.
30.(2023·高三课时练习)为打造“四态融合、产村一体”的望山、见水、忆乡愁的美丽乡村,增加农民收入,某乡政府在近几年中任选了5年,经统计,年份代号x与景区农家乐接待游客人数y(单位:万人)的数据如下表:
年份代号x
2
3
5
7
8
接待游客人数y(万人)
3
3.5
4
6.5
8
(1)根据数据说明变量x与y是正相关还是负相关;
(2)求相关系数r的值,并说明年份与接待游客数的相关性的强与弱;
(3)分析近几年中该景区农家乐接待游客人数y的变化情况,求该景区农家乐接待游客人数关于年份代号的回归直线方程;并预测在年份代号为10时该景区农家乐接待游客的人数(单位:万人,精确到小数点后2位).
附:一般地,当r的绝对值大于0.75时认为两个变量之间有很强的线性关系.
,
.
31.(2023秋·河南开封·高三统考期末)某加工工厂加工产品A,现根据市场调研收集到需加工量X(单位:千件)与加工单价Y(单位:元/件)的四组数据如下表所示:
X
6
8
10
12
Y
12
m
6
4
根据表中数据,得到Y关于X的线性回归方程为,其中.
(1)若某公司产品A需加工量为1.1万件,估计该公司需要给该加工工厂多少加工费;
(2)通过计算线性相关系数,判断Y与X是否高度线性相关.
参考公式: ,时,两个相关变量之间高度线性相关.
32.(2023·全国·高三专题练习)受北京冬奥会的影响,更多人开始关注滑雪运动,但由于室外滑雪场需要特殊的气候环境,为了满足日益增长的消费需求,国内出现了越来越多的室内滑雪场.某投资商抓住商机,在某大学城附近开了一家室内滑雪场.经过6个季度的经营,统计该室内滑雪场的季利润数据如下:
第个季度
1
2
3
4
5
6
季利润(万元)
2.2
3.6
4.3
4.9
5.3
5.5
根据上面的数据得到的一些统计量如下:
4.3
0.5
101.4
14.1
1.8
表中,.
(1)若用方程拟合该室内滑雪场的季利润与季度的关系,试根据所给数据求出该方程;
(2)利用(1)中得到的方程预测该室内滑雪场从第几个季度开始季利润超过6.5万元;
附:线性回归方程中,,.参考数据:
33.(2023·全国·高三专题练习)长沙某公司对其主推产品在过去5个月的月广告投入xi(百万元)和相应的销售额yi(百万元)进行了统计,其中i=1,2,3,4,5,对所得数据进行整理,绘制散点图并计算出一些统计量如下:
,,,,,
,,其中,i=1,2,3,4,5.
(Ⅰ)根据散点图判断,与哪一个适宜作为月销售额关于月广告投入xi的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及题中所给数据,建立y关于x的回归方程,并据此估计月广告投入220万元时的月销售额.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
34.(2023春·河南濮阳·高三统考开学考试)某出租车公司为推动驾驶员服务意识和服务水平大提升,对出租车驾驶员从驾驶技术和服务水平两个方面进行了考核,并从中随机抽取了100名驾驶员,这100名驾驶员的驾驶技术与性别的2×2列联表和服务水平评分的频率分布直方图如下,已知所有驾驶员的服务水平评分均在区间内.
驾驶技术
优秀
非优秀
男
25
45
女
5
25
(1)判断能否有95%的把握认为驾驶员的驾驶技术是否优秀与性别有关;
(2)从服务水平评分在,内的驾驶员中用分层抽样的方法抽取5人,再从这5人中随机抽取3人,求这3人中恰有2人的评分在内的概率.
附:,其中.
0.10
0.050
0.010
2.706
3.841
6.635
35.(2023秋·浙江嘉兴·高三统考期末)为积极响应“反诈”宣传教育活动的要求,某企业特举办了一次“反诈”知识竞赛,规定:满分为100分,60分及以上为合格.该企业从甲、乙两个车间中各抽取了100位职工的竞赛成绩作为样本.对甲车间100位职工的成绩进行统计后,得到了如图所示的成绩频率分布直方图.
(1)估算甲车间职工此次“反诈”知识竞赛的合格率;
(2)若将频率视为概率,以样本估计总体.从甲车间职工中,采用有放回的随机抽样方法抽取3次,每次抽1人,每次抽取的结果相互独立,记被抽取的3人次中成绩合格的人数为.求随机变量的分布列;
(3)若乙车间参加此次知识竞赛的合格率为,请根据所给数据,完成下面的列联表,并根据列联表判断是否有的把握认为此次职工“反计”知识竞赛的成绩与其所在车间有关?
2×2列联表
甲车间
乙车间
合计
合格人数
不合格人数
合计
附参考公式:①,其中.
②独立性检验临界值表
36.(2023·江苏南通·统考一模)第二十二届卡塔尔世界杯足球赛(FIFAWorldCupQatar2022)决赛中,阿根廷队通过扣人心弦的点球大战战胜了法国队.某校为了丰富学生课余生活,组建了足球社团.足球社团为了解学生喜欢足球是否与性别有关,随机抽取了男、女同学各100名进行调查,部分数据如表所示:
喜欢足球
不喜欢足球
合计
男生
40
女生
30
合计
(1)根据所给数据完成上表,并判断是否有的把握认为该校学生喜欢足球与性别有关?
(2)社团指导老师从喜欢足球的学生中抽取了2名男生和1名女生示范点球射门.已知男生进球的概率为,女生进球的概率为,每人射门一次,假设各人射门相互独立,求3人进球总次数的分布列和数学期望.
附:.
37.(2023秋·内蒙古阿拉善盟·高三阿拉善盟第一中学校考期末)盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开后才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内装有正版海贼王手办,且每个盲盒只装一个.某销售网点为调查该款盲盒的受欢迎程度,随机抽取了400人进行问卷调查,并全部收回.经统计,有的人购买了该款盲盒,在这些购买者当中,男生占;而在未购买者当中,男生、女生各占.
(1)完成下面的列联表,并判断是否有的把握认为是否购买该款盲盒与性别有关?
女生
男生
总计
购买
未购买
总计
(2)从购买该款盲盒的人中按性别用分层抽样的方法随机抽取6人,再从这6人中随机抽取3人发放优惠券,求抽到的3人中恰有1位男生的概率.
参考公式:,其中.
参考数据:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
38.(2023秋·江苏·高三统考期末)为深入贯彻党的教䏍方针,全面落实《中共中央国务院关于全面加强新时代大中小学劳动教育的意见》,某校从2022年起积极推进劳动课程改革,先后开发开设了具有地方特色的家政、烹饪、手工、园艺、非物质文化遗产等劳动实践类校本课程.为调研学生对新开设劳动课程的满意度并不断改进劳动教育,该校从2022年1月到10月每两个月从全校3000名学生中随机抽取150名学生进行问卷调查,统计数据如下表:
月份
2
4
6
8
10
满意人数
80
95
100
105
120
(1)由表中看出,可用线性回归模型拟合满意人数与月份之间的关系,求关于的回归直线方程,并预测12月份该校全体学生中对劳动课程的满意人数;
(2)10月份时,该校为进一步深化劳动教育改革,了解不同性别的学生对劳动课程是否满意,经调研得如下统计表:
满意
不满意
合计
男生
65
10
75
女生
55
20
75
合计
120
30
150
请根据上表判断是否有的把握认为该校的学生性别与对劳动课程是否满意有关?参考公式:.
,其中.
39.(2023秋·河南郑州·高三校联考期末)近年来,各地电商行业迅速发展,电商行业的从业人数也相应增长.现将某地近5年电商行业的从业人数统计如下表所示.
第年
1
2
3
4
5
从业人数(万人)
5
8
11
11
15
(1)若与线性相关,求与之间的回归直线方程;
(2)若甲、乙、丙、丁4名大学生毕业后进入电商行业的概率分别为,且他们是否进入电商行业相互独立.记这4人中最终进入电商行业的人数为,求的分布列以及数学期望.
参考公式:在线性回归方程中,.
备战2024高考数学艺体生一轮复习40天突破90分讲义专题28 统计案例和回归方程(原卷版+解析版): 这是一份备战2024高考数学艺体生一轮复习40天突破90分讲义专题28 统计案例和回归方程(原卷版+解析版),共69页。
备战2024高考数学艺体生一轮复习40天突破90分讲义word版专题28 统计案例和回归方程(解析版): 这是一份备战2024高考数学艺体生一轮复习40天突破90分讲义word版专题28 统计案例和回归方程(解析版),共40页。
2024年高考数学第一轮复习专题28 统计案例和回归方程(原卷版): 这是一份2024年高考数学第一轮复习专题28 统计案例和回归方程(原卷版),共27页。