专题09 成对数据的统计分析- 2022届高考数学二模试题分类汇编(新高考卷)(解析版)
展开这是一份专题09 成对数据的统计分析- 2022届高考数学二模试题分类汇编(新高考卷)(解析版),共20页。试卷主要包含了【经验回归分析】的折线图等内容,欢迎下载使用。
《专题9 成对数据的统计分析- 2022届高考数学二模试题分类汇编(新高考卷)》
1.【统计与古典概型】(2022·陕西·宝鸡市渭滨区教研室二模)随着华为手机的上市,很多消费者觉得价格偏高,尤其是一部分大学生可望而不可及,因此“国美在线”推出无抵押分期付款的购买方式,某店对最近位采用分期付款的购买者进行统计,统计结果如下表所示.
付款方式
分期
分期
分期
分期
分期
频数
已知分期付款的频率为,并且销售一部手机,若果顾客分期付款,商家利润为元;分期或期付款,其利润为元;分期或期付款,其利润为元,以频率作为概率.
(1)求的值,并求事件:“某顾客购买手机,商家利润不高于元”的概率;
(2)事件:“购买手机的位顾客分别采用不同的分期付款方式,商家利润为元”的概率.
【解析】 (1)分期付款的频率为,,,解得:;
事件:“利润不高于元”,即“分期或分期或分期付款”,
.
(2)
设分期付款的概率为,则,,,,;
.
2.【统计与古典概型】((2022·贵州毕节·模拟预测)某市全体高中学生参加某项测试,从中抽取部分学生的测试分数绘制成茎叶图和频率分布直方图如下,后来茎叶图受到了污损,可见部分信息如图.
(1)从抽取的测试分数在的学生中随机选取2人,求至少1人的测试分数大于55分的概率;
(2)求频率分布直方图中a的值,并根据直方图估计该市全体高中学生的测试分数的中位数和平均数(同一组中的数据以这组数据所在区间中点的值作代表,结果保留一位小数);
【解析】 (1)∵测试分数位于中小于55的有2人,分别记为,,
大于55的有2人,记为,,
从中随机取2人的基本事件有,,,,,共6个,
至少有1人的测试分数大于55的基本事件包含5个,
所以至少有1人的测试分数大于55的概率为.
(2)∵测试分数位于的个数为4,频率为,
∴抽取个数为:,
∴测试分数位于的个数为:,
∴.
设由直方图估计分数的中位数为t.
则有:,解得:
估计平均数为:
3.【相关系数】((2022·广西·模拟预测)近期新冠病毒奥密克戎毒株全球蔓延,传染性更强、潜伏期更短、防控难度更大.为落实动态清零政策下的常态化防疫,某高中学校开展了每周的核酸抽检工作:周一至周五,每天中午13:00开始,当天安排450位师生核酸检测,五天时间全员覆盖.
(1)该校教职工有410人,高二学生有620人,高三学生有610人,
①用分层抽样的方法,求高一学生每天抽检人数;
②高一年级共15个班,该年级每天抽检的学生有两种安排方案,方案一:集中来自部分班级;方案二:分散来自所有班级.你认为哪种方案更合理,并给出理由.
(2)学校开展核酸抽检的第一周,周一至周五核酸抽检用时记录如下:
第天
1
2
3
4
5
用时(小时)
1.2
1.2
1.1
1.0
1.0
①计算变量和的相关系数(精确到0.01),并说明两变量线性相关的强弱;
②根据①中的计算结果,判定变量和是正相关,还是负相关,并给出可能的原因.
参考数据和公式:,相关系数.
【解析】(1)①高一学生每天抽检人数为(人);
②方案二更合理,因为新冠病毒奥密克戎毒株传染性更强、潜伏期更短,分散抽检可以全面检测年级中每班学生的状况,更有利于防控筛查工作;
(2)①,,
所以,
,
变量和的相关系数为,
因为,可知两变量线性相关性很强;
②由可知变量和是负相关,可能的原因:随着抽检工作的开展,学校相关管理协调工作效率提高,因此用时缩短;
4.【相关系数】(2021·辽宁抚顺·一模)为了解篮球爱好者小张每天打篮球的时长与投篮的命中率之间的关系,将小张某月1日到10日每天打篮球的时长x(单位:h)与当天投篮的命中率y的数据记录如表:
x(时长)
1
1.5
2
2.5
3
3.5
4
4.5
5
5.5
y(命中率)
0.4
0.4
0.5
0.6
0.6
0.7
0.6
0.4
0.4
0.3
(1)当x不取整数时,从中任取两个时长,求小张的命中率之和为1的概率;
(2)从小张的命中率为0.4和0.6的几天中选出3天,用X表示所选3天中命中率为0.6的天数,求X的数学期望E(X);
(3)当x取整数时,设r表示变量x与y之间样本相关系数,求r(精确到0.01),并说明此时去求回归直线方程是否有意义?
相关性检验的临界值表
n﹣2
小概率
0.05
0.01
1
0.997
1.000
2
0.950
0.990
3
0.878
0.959
4
0.811
0.917
5
0.754
0.874
注:表中的n为数据的对数.
附:≈3.16;r=.
【解析】(1)由题意可知,小张的命中率之和为1的概率为;
(2)由题意可得,X的可能取值是0,1,2,3,
又(k=0,1,2,3),
所以X的分布列为:
X
0
1
2
3
P
所以数学期望E(X)==;
(3)由题意可知,,
所以,,,
所以,
由相关性检验的临界值表可得,r0.05=0.878,因此|r|<r0.05,
所以此时去求回归直线方程是毫无意义的.
5.【经验回归分析】(2022·江西上饶·二模)计算机和互联网的出现使得“千里眼”“顺风耳”变为现实.现在,的到来给人们的生活带来颠覆性的变革,某科技创新公司基于领先技术的支持,经济收入在近一个时期内逐月攀升,如图是该创新公司年至月份的经济收入(单位:千万)的折线图.
(1)由折线图初步判断,可用线性回归模型拟合与的关系,请建立关于的回归方程;
(2)若该创新公司定下了年内经济月收入突破千万的宏伟目标,请你预测该公司能否达到目标?
附注:参考数据:,
参考公式:回归方程中斜率和截距的最小二乘法估计公式分别为,
【解析】 (1)由题意得:,,
,
,
关于的回归方程为:.
(2)当时,,该公司能达到目标.
6.【经验回归分析】(2022·陕西·西安中学模拟预测)某地医疗机构承担了该地的新冠疫苗接种任务,现统计了前5天每天(用表示)前来接种的人数y的相关数据,如下表所示:
日期t
1
2
3
4
5
人数y
8
20
29
40
53
(1)根据表格,请利用线性回归模型拟合y与t的关系,求出y关于t的回归方程,并求出第6天前来接种人数的预报值;
(2)若用分层抽样的方法从第2天和第4天前来接种的人群中随机抽取6人作样本分析,并打算对样本6人中的两人随机进行电话回访,则被回访的两人接种日期不同的概率是多少?参考公式:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为:
【解析】 (1)
关于t的线性回归方程为
当时,第6天前来接种人数的预报值为63
(2)
由题意可得第二天抽取2人,第4天抽取4人,
记第二天的2人为,第4天的4人为,所有基本事件为
,
共十五种,两人来自不同日期的事件有8种,
.
7.【非线性经验回归分析】(2022·四川绵阳·三模)随着科技进步,近来年,我国新能源汽车产业迅速发展.以下是中国汽车工业协会2022年2月公布的近六年我国新能源乘用车的年销售量数据:
年份
2016
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
6
新能源乘用车年销售y(万辆)
50
78
126
121
137
352
(1)根据表中数据,求出y关于x的线性回归方程;(结果保留整数)
(2)若用模型拟合y与x的关系,可得回归方程为,经计算该模型和第(1)问中模型的(为相关指数)分别为0.87和0.71,请分别利用这两个模型,求2022年我国新能源乘用车的年销售量的预测值;
(3)你认为(2)中用哪个模型得到的预测值更可靠?请说明理由.
参考数据:设,其中.
144
4.78
841
5.70
37.71
380
528
参考公式:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【解析】 (1)由表中数据得,
,,,
,
y关于x的线性回归方程为:.
(2)
由(1)知,y关于x的线性回归方程为:,
当时,2022年我国新能源乘用车的年销售量的预测值:
(万辆);
对于回归方程,
当时,2022年我国新能源乘用车的年销售量的预测值:
(万辆).
(3)
依题意:模型和第(1)问中模型的(为相关指数)分别为0.87和0.71,
由于相关指数越接近于,两个变量之间的关系就强,相应的拟合程度也越好,
所以模型得到的预测值更可靠.
8.【非线性经验回归分析】(2022·四川绵阳·三模)随着科技进步,近来年,我国新能源汽车产业迅速发展.以下是中国汽车工业协会2022年2月公布的近六年我国新能源乘用车的年销售量数据:
年份
2016
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
6
新能源乘用车年销售y(万辆)
50
78
126
121
137
352
(1)根据表中数据,求出y关于x的线性回归方程;(结果保留整数)
(2)若用模型拟合y与x的关系,可得回归方程为,经计算该模型和第(1)问中模型的(为相关指数)分别为0.87和0.71,请分别用这两个模型,求2022年我国新能源乘用车的年销售量的预测值;
(3)你认为(2)中用哪个模型得到的预测值更可靠?请说明理由.
参考数据:设,其中.
144
4.78
841
5.70
380
528
参考公式:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【解析】 (1)
关于的线性回归方程为 .
(2)
若利用线性回归模型,可得2022年我国新能源乘用车的年销售量的预测值为(万辆)
若利用模型,可得2022年我国新能源乘用车的年销售量的预测值为 (万辆)
(3)
,且越大,反映残差平方和越小,模型的拟合效果越好,
用模型得到的预测值更可靠.
9.【统计案例】(2022·陕西西安·二模)某中学对学生进行体质测试(简称体测),随机抽取了100名学生的体测结果等级(“良好以下”或“良好及以上”)进行统计,并制成列联表如下:
良好以下
良好及以上
合计
男
25
女
10
合计
70
100
(1)将列联表补充完整;计算并判断是否有的把握认为本次体测结果等级与性别有关系;
(2)事先在本次体测等级为“良好及以上”的学生中按照性别采用分层抽样的方式随机抽取了9人.若从这9人中随机抽取3人对其体测指标进行进一步研究,求抽到的3人全是男生的概率.
附:,.
0.10
0.05
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【解析】 (1)
良好以下
良好及以上
合计
男
25
20
45
女
45
10
55
合计
70
30
100
所以,
所以有99%的把握认为本次体测结果等级与性别有关系.
(2)根据题意,抽取了9人中男生有6人,女生有3人;设事件表示9人中随机抽取3人对其体测指标进行进一步研究,抽到的3人全是男生,所以,
故从这9人中随机抽取3人对其体测指标进行进一步研究,求抽到的3人全是男生的概率为:.
10.【统计案例】(2022·新疆·模拟预测)2021年8月8日是我国第13个“全民健身日”,社会上参与全民健身活动的人越来越多,小明也有大量好友参与了“健步团”,他随机选取了其中的40人,记录了他们某一天的走路步数,并将数据整理如下:
步量
性别
5001~6000
6001~7000
7001~8000
8001~9000
>9000
男
1
2
3
6
8
女
0
2
10
6
2
(1)若在小明该日走路不超过7000步的好友中任选2人,求至少有1名男性的概率;
(2)如果每人一天的走路步数超过8000步就会被系统评定为“健步型”,否则为“良好型”,根据题意完成下面的列联表,并据此判断能否有95%以上的把握认为“评定类型”与“性别”有关
健步型
良好型
总计
男
女
总计
附:参考公式.
临界值表:
0.10
0.05
0.025
0.010
2.706
3.841
5.024
6.635
【解析】 (1)用表示“任选2人中至少有1名男性”这一事件,则
(2)由题意得列联表为:
健步型
良好型
总计
男
14
6
20
女
8
12
20
总计
22
18
40
由表中数据可得
故没有95%以上的把握认为“评定类型”与“性别”有关.
11.【频率分布直方图与统计案例】(2022·辽宁·鞍山一中模拟预测)为了研究注射某种抗病毒疫苗后是否产生抗体与某项指标值的相关性,研究人员从某地区10万人中随机抽取了200人,对其注射疫苗后的该项指标值进行测量,按,,,,分组,得到该项指标值频率分布直方图如图所示.同时发现这200人中有120人在体内产生了抗体,其中该项指标值不小于60的有80人.
(1)填写下面的列联表,判断是否有95%的把握认为“注射疫苗后产生抗体与指标值不小于60有关”.
指标值小于60
指标值不小于60
合计
有抗体
没有抗体
合计
(2)以注射疫苗后产生抗体的频率作为注射疫苗后产生抗体的概率,若从该地区注射疫苗的人群中随机抽取4人,求产生抗体的人数的分布列及期望.
附:,其中n=a+b+c+d.
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【解析】(1)由频率分布直方图可知,样本中指标值不小于60的人数为,则标值小于60的人数为80.
所以列联表如下:
指标值小于60
指标值不小于60
合计
有抗体
40
80
120
没有抗体
40
40
80
合计
80
120
200
.
所以有的把握认为“注射疫苗后人体产生抗体与指标值不小于60有关”.
(2)
解:注射疫苗后产生抗体的概率,
由题可知,,
∴,
所以的分布列为:
0
1
2
3
4
所以.
12.【频率分布直方图与统计案例】(2022·四川泸州·三模)劳动教育具有树德、增智、强体、育美的综合育人价值.某学校为了解学生参加家务劳动的情况,随机抽查了100名学生,其中有40名男生,并统计了这些学生在某个休息日做家务劳动的时间,将劳动时间分为5组:,,,,,得到如图所示的频率分布直方图.
(1)已知该校学生李华在该休息日做了1.6小时的家务劳动,根据绘制的频率分布直方图,试用统计的知识分析李华做家务劳动的时间处于什么水平(同一组中的数据以这组数据所在区间中点的值作代表);
(2)若做家务劳动的时间不低于2小时称为“喜欢做家务”,已知调查数据中喜欢做家务劳动的男生有5人,据所给数据,完成下面的列联表,并判断是否有95%的把握认为“是否喜欢做家务劳动与性别有关”.
喜欢做家务
不喜欢做家务
男生
女生
附:,
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
【解析】 (1)由题知:,解得.
劳动的时间在的频率为,
劳动的时间在的频率为,
,
所以1.6小时的家务劳动处于的水平.
(2)
列联表
喜欢做家务
不喜欢做家务
合计
男生
5
35
40
女生
20
40
60
合计
25
75
100
,
所以有95%的把握认为“是否喜欢做家务劳动与性别有关.
13.【统计与数学期望】(2022·安徽滁州·二模)2022年2月20日,北京冬奥会在鸟巢落下帷幕,中国队创历史最佳战绩.北京冬奥会的成功举办推动了我国冰雪运动的普及,让越来越多的青少年爱上了冰雪运动.某校组织了一次全校冰雪运动知识竞赛,并抽取了100名参赛学生的成绩制作成如下频率分布表:
竞赛得分
频率
(1)如果规定竞赛得分在为“良好”,竞赛得分在为“优秀”,从成绩为“良好”和“优秀”的两组学生中,使用分层抽样抽取5人.现从这5人中抽取2人进行座谈,求两人竞赛得分都是“优秀”的概率;
(2)以这100名参赛学生中竞赛得分为“优秀”的频率作为全校知识竞赛中得分为“优秀”的学生被抽中的概率.现从该校学生中随机抽取3人,记竞赛得分为“优秀”的人数为,求随机变量的分布列及数学期望.
【解析】(1)成绩为“良好”和“优秀”的两组频率合计,共人,抽样比为.
所以成绩为“良好”的抽取人,成绩为“优秀”的抽取人.
所以抽到的竞赛得分都是“优秀”的概率为.
(2)由题意知,的可能取值,,,.
由题可知,任意1名学生竞赛得分“优秀”的概率为,竞赛得分不是“优秀”的概率为.若以频率估计概率,则服从二项分布.
;;;.
所以的分布列为
.
14.【概率中的决策问题】(2022·河南平顶山·模拟预测)家用自来水水龙头由于使用频繁,很容易损坏,受水龙头在保修期内维修费等因素的影响,企业生产每件水龙头的利润与该水龙头首次出现损坏的时间有关,某阀门厂生产尺寸都为4分(指的是英制尺寸)的甲(不锈钢阀芯),乙(黄铜阀芯)两种品牌的家用水龙头,保修期均为1年(4个季度),现从该厂已售出的这两种水龙头中各随机抽取200件,统计数据如下表,
品牌
甲
乙
首次出现损坏时间x(季度)
水龙头数量(件)
20
180
8
16
176
每件的利润(元)
3.6
5.8
2
4
6
将频率视为概率,解答下列问题:
(1)从该厂生产的甲、乙两种品牌水龙头中各随机抽取一件,试比较首次出现损坏发生在保修期内的概率的大小;
(2)由于资金限制,只能生产其中一种品牌的水龙头,若从水龙头的利润的平均值考虑,你认为应选择生产哪种品牌的水龙头比较合理?
【解析】 (1)设“甲、乙两种品牌水龙头首次出现损坏发生在保修期内”为事件,
,,.
即乙品牌水龙头首次出现损坏发生在保修期内的概率大于甲品牌水龙头首次出现损坏发生在保修期内的概率.
(2)由题意,甲水龙头的利润的平均值,
乙水龙头的利润的平均值,
因为,所以应生产乙品牌的水龙头.
15.【概率中的决策问题】(2022·四川攀枝花·二模)某种植园在芒果临近成熟时,随机从一些芒果树上摘下100个芒果,其质量分别,,,,(单位:克)中,经统计频率分布直方图如图所示.
(1)估计这组数据的平均数;
(2)在样本中,按分层抽样从质量在,中的芒果中随机抽取5个,再从这5个中随机抽取2个,求这2个芒果都来自同一个质量区间的概率;
(3)某经销商来收购芒果,同一组中的数据以这组数据所在区间中点的值作代表,用样本估计总体,该种植园中共有芒果大约10000个,经销商提出以下两种收购方案:方案①:所有芒果以10元/千克收购;方案②:对质量低于350克的芒果以3元/个收购,对质量高于或等于350克的芒果以5元/个收购.请通过计算确定种植园选择哪种方案获利更多?
【解析】 (1)
由频率分布直方图知,各区间频率为,
这组数据的平均数为:;
(2)利用分层抽样从这两个范围内抽取5个芒果,则质量在内的芒果有2个,记为,,质量在内的芒果有3个,记为;
从抽取的5个芒果中抽取2个共有10种不同情况:,
记事件为“这2个芒果都来自同一个质量区间”,则有4种不同组合:
从而,故这2个芒果都来自同一个质量区间的概率为;
(3)
方案①收入:(元);
方案②:低于350克的芒果收入为(元;
不低于350克的支果收入为(元);
故方案②的收入为(元).
由于,所以选择方案(2)获利多.
16.【概率中的决策问题】(2022·黑龙江实验中学三模)制成奶嘴的主要材质是橡胶,在加工过程中,可能会残留一些未挥发完全的溶剂,以及橡胶本身含有的化合物等.因为奶嘴直接接触食物和婴儿口腔,使用过程中,挥发性物质的溶出会污染奶质,甚至通过消化道被宝宝身体吸收,长期潜伏积累,对免疫力尚未健全的婴幼儿会危害甚大,因此我国对奶嘴和安抚奶嘴的挥发性物质做了规定,要求其含量不得超过0.5%.某婴儿用品的生产商为了测量某新产品的挥发性物质含量,从试生产的产品中随机抽取100个,得到如下频率分布直方图:注:以频率作为概率,该婴儿用品的生产商规定挥发性物质含量<18‰为合格产品.
(1)根据频率分布直方图,求这100个奶嘴的挥发性物质含量的中位数;
(2)为了解产品不合格的原因,用分层抽样的方法从与中抽取6个进行分析,然后从这6个中抽取2个进一步实验,求在与中各有一个的概率;
(3)若这100个奶嘴的挥发性物质含量的平均值大于16,则需进行技术改进,试问该新产品是否需要技术改进?
【解析】(1)挥发性物质含量位于的频率为,
挥发性物质含量位于的频率为,
所以这100个奶嘴的挥发性物质含量的中位数位于区间,
设中位数为,则,解得;
(2)组的奶嘴的个数为,
组的奶嘴的个数为,
所以从组中抽取个,从组中抽取个,
记组中抽取的5个分别为a,b,c,d,e,组中抽取的一个为f,
则从6个中抽取2个的所有情况如下:
,,,,,,,,,,,,,,
共15种情况,
其中在与中各有1个的有,,,,共5种情况,
所以所求的概率;
(3)因为
,
故该产品需要进行技术改进.
相关试卷
这是一份新高考数学一轮复习课时过关练习第09章 统计与成对数据的统计分析第3节 成对数据的统计分析 (含解析),共23页。试卷主要包含了了解样本相关系数的统计含义,样本相关系数,一元线性回归模型,列联表与独立性检验,1% B,069>6,616,8,1等内容,欢迎下载使用。
这是一份专题07 立体几何的向量方法- 2022届高考数学二模试题分类汇编(新高考卷)(解析版),共29页。
这是一份专题16 函数与导数的综合问题- 2022届高考数学二模试题分类汇编(新高考卷)(解析版),共20页。试卷主要包含了【利用导数证明不等式】已知函数等内容,欢迎下载使用。