新高考数学二轮复习培优训练专题23 变量间的相关关系、统计案例(含解析)
展开专题23 变量间的相关关系、统计案例
1、(2021年全国高考甲卷数学(理))为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
【答案】C
【解析】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.
该地农户家庭年收入低于4.5万元的农户的比率估计值为,故A正确;
该地农户家庭年收入不低于10.5万元的农户比率估计值为,故B正确;
该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为,故D正确;
该地农户家庭年收入的平均值的估计值为(万元),超过6.5万元,故C错误.
综上,给出结论中不正确的是C.
故选:C.
2、(2021年全国新高考Ⅰ卷数学试题)有一组样本数据,,…,,由这组数据得到新样本数据,,…,,其中(为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样数据的样本极差相同
【答案】CD
【解析】A:且,故平均数不相同,错误;
B:若第一组中位数为,则第二组的中位数为,显然不相同,错误;
C:,故方差相同,正确;
D:由极差的定义知:若第一组的极差为,则第二组的极差为,故极差相同,正确;
故选:CD
3、(2021年全国高考乙卷数学(文)试题)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备
9.8
10.3
10.0
10.2
9.9
9.8
10.0
10.1
10.2
9.7
新设备
10.1
10.4
10.1
10.0
10.1
10.3
10.6
10.5
10.4
10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为和.
(1)求,,,;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
【答案】(1);(2)新设备生产产品的该项指标的均值较旧设备有显著提高.
【解析】(1),
,
,
.
(2)依题意,,,
,所以新设备生产产品的该项指标的均值较旧设备有显著提高.
4、(2021年全国高考甲卷数学(理)试题)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050
0.010
0.001
k
3.841
6.635
10.828
【解析】(1)甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.
(2),
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
5、(2020全国Ⅲ理3)在一组样本数据中,出现的频率分别为,且,则下面四种情形中,对应样本的标准差最大的一组是 ( )
A. B.
C. D.
【答案】B
【解析】对于A选项,该组数据的平均数为,方差为;对于B选项,该组数据的平均数为,方差为;对于C选项,该组数据的平均数为,方差为;对于D选项,该组数据的平均数为,方差为,因此B选项这一组的标准差最大,故选B.
6、(2020天津4)从一批零件中抽取80个,测量其直径(单位:),将所得数据分为9组:,并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间内的个数为( )
A.10 B.18 C.20 D.36
【答案】B【解析】由题意可得,直径落在区间之间的零件频率为:,
则区间内零件的个数为:,故选B.
7、(2020年全国统一高考数学试卷(文科)(新课标Ⅰ))某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B.
C. D.
【答案】D
【解析】由散点图分布可知,散点图分布在一个对数函数的图象附近,
因此,最适合作为发芽率和温度的回归方程类型的是.
故选:D.
8、(2019全国II理5)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是
A.中位数 B.平均数
C.方差 D.极差
【答案】A
【解析】根据题意,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分,7个有效评分与9个原始评分相比,最中间的一个数不变,即中位数不变.故选A.
9、(2019全国II理13)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为__________.
【答案】0.98
【解析】经停该站高铁列车所有车次的平均正点率的估计值为:
.
10、(2020年全国统一高考数学试卷(文科)(新课标Ⅱ))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
【解析】(1)样区野生动物平均数为,
地块数为200,该地区这种野生动物的估计值为
(2)样本(i=1,2,…,20)的相关系数为
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,
由于各地块间植物覆盖面积差异很大,从俄各地块间这种野生动物的数量差异很大,
采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
11、(2020年全国统一高考数学试卷(理科)(新课标Ⅲ))某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400
人次>400
空气质量好
空气质量不好
附:,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【解析】(1)由频数分布表可知,该市一天的空气质量等级为的概率为,等级为的概率为,等级为的概率为,等级为的概率为;
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为
(3)列联表如下:
人次
人次
空气质量不好
空气质量好
,
因此,有的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
12、(2019年全国统一高考数学试卷(文科)(新课标Ⅰ))某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:.
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【解析】(1)由题中表格可知,50名男顾客对商场服务满意的有40人,
所以男顾客对商场服务满意率估计为,
50名女顾客对商场满意的有30人,
所以女顾客对商场服务满意率估计为,
(2)由列联表可知,
所以能有的把握认为男、女顾客对该商场服务的评价有差异.
题组一、线性回归方程
1-1、(2022·湖南常德·高三期末)根据如下样本数据得到的回归直线方程中的,根据此方程预测当时,y的取值为( )
x
3
4
5
6
7
8
9
y
4.0
2.5
0.5
A. B. C. D.
【答案】B
【解析】根据图表数据求出,,
把代入回归直线,有,解得,
所以.
当时,.
故选:B
1-2、(2022·湖北江岸·高三期末)(多选题)某电子商务平台每年都会举行“年货节”商业促销狂欢活动,现在统计了该平台从2013年到2021年共9年“年货节”期间的销售额(单位:亿元)并作出散点图,将销售额y看成年份序号x(2013年作为第一年)的函数.运用excel软件,分别选择回归直线和三次函数回归曲线进行拟合,效果如下图,则下列说法正确的是( )
A.销售额y与年份序号x正相关
B.销售额y与年份序号x线性关系不显著
C.三次函数回归曲线的拟合效果好于回归直线的拟合效果
D.根据三次函数回归曲线可以预测2022年“年货节”期间的销售额约为2680.54亿元
【答案】ACD
【解析】根据图象可知,散点从左下到右上分布,
销售额与年份序号呈正相关关系,故A正确;
因为相关系数,靠近,销售额与年份序号线性相关显著,B错误.
根据三次函数回归曲线的相关指数,
相关指数越大,拟合效果越好,所以三次多项式回归曲线的拟合效果好于回归直线的拟合效果,C正确;
由三次多项式函数,
当时,亿元,D正确;
故选:ACD
1-3、(2022·湖北·高三期末)(多选题)某工厂研究某种产品的产量x(单位:吨)与需求某种材料y(单位:吨)之间的相关关系,在生产过程中收集了4组数据如表所示
x
3
4
6
7
y
2.5
3
4
5.9
根据表中的数据可得回归直线方程,则以下正确的是( )
A.变量x与y正相关 B.y与x的相关系数
C. D.产量为8吨时预测所需材料约为5.95吨
【答案】ACD
【解析】,
,
所以,
所以变量x与y正相关,y与x的相关系数,,产量为8吨时预测所需材料约为吨.
所以ACD选项正确,B选项错误.
故选:ACD
1-4、(2022·山东青岛·高三期末)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
50
60
70
根据上表可得回归方程,其中,据此估计,当投入10万元广告费时,销售额为_________万元;
【答案】85
【解析】由上表可知:.
得样本点的中心为,代入回归方程,得.
所以回归方程为,
将代入可得:.
故答案为:85
1-5、(2022·山东青岛·高三期末)由样本数据得到的回归方程为:,已知如下数据:,则实数的值为___________.
【答案】4
【解析】令,则回归方程过样本中心点,
因为,,
所以有,即.
故答案为:4
1-6、(2022·河北唐山·高三期末)某统计部门依据《中国统计年鉴——2017》提供的数据,对我国1997-2016年的国内生产总值(GDP)进行统计研究,作出了两张散点图:图1表示1997-2016年我国的国内生产总值(GDP),图2表示2007-2016年我国的国内生产总值(GDP).
(1)用表示第i张图中的年份与GDP的线性相关系数,,依据散点图的特征分别写出的结果;
(2)分别用线性回归模型和指数回归模型对两张散点图进行回归拟合,分别计算出统计数据——相关指数的数值,部分结果如下表所示:
年份
1997-2016
2007-2016
线性回归模型
0.9306
指数回归模型
0.9899
0.978
①将上表中的数据补充完整(结果保留3位小数,直接写在答题卡上);
②若估计2017年的GDP,结合数据说明采用哪张图中的哪种回归模型会更精准一些?若按此回归模型来估计,2020年的GDP能否突破100万亿元?事实上,2020年的GDP刚好突破了100万亿元,估计与事实是否吻合?结合散点图解释说明.
【答案】(1),
(2)①0.996,②不吻合,理由见解析.
【解析】(1)
由散点图可知,图2拟合效果更好、相关系数较大,所以,.
(2)
①0.996
②由图2中的线性回归模型得到的相关指数为0.996,是所有回归模型的相关指数中数值最大的,而且2017年是最近的年份,因此选择图2中的线性回归模型来估计2017年的GDP,是比较精准的.
按照图2中的线性回归模型来估计(延长回归直线可发现),2020年不能突破100万亿元.
估计与事实不吻合.综合两张图来考虑,我国的GDP随年份的增长整体上呈现指数增长的趋势,而且2020年比2016年又多发展了4年,指数回归趋于明显,因此,按照线性回归模型得到的估计值与实际数据有偏差、不吻合,属于正常现象.
1-7、(2022·江苏通州·高三期末)当今时代,国家之间的综合国力的竞争,在很大程度上表现为科学技术水平与创新能力的竞争.特别是进入人工智能时代后,谁掌握了核心科学技术,谁就能对竞争对手进行降维打击.我国自主研发的某种产品,其厚度越小,则该种产品越优良,为此,某科学研发团队经过较长时间的实验研发,不断地对该产品的生产技术进行改造提升,最终使该产品的优良厚度达到领先水平并获得了生产技术专利.
(1)在研发过程中,对研发时间x(月)和产品的厚度y(nm)进行统计,其中1~7月的数据资料如下:
x(月)
1
2
3
4
5
6
7
y(nm)
99
99
45
32
30
24
21
现用作为y关于x的回归方程类型,请利用表中数据,求出该回归方程,并估计该产品的“理想”优良厚度约为多少?
(2)某企业现有3条老旧的该产品的生产线,迫于竞争压力,决定关闭并出售生产线.现有以下两种售卖方案可供选择:
①直接售卖,则每条生产线可卖5万元;
②先花20万元购买技术专利并对老旧生产线进行改造,使其达到生产领先水平后再售卖.已知在改造过程中,每条生产线改造成功的概率均为,若改造成功,则每条生产线可卖20万元;若改造失败,则卖价为0万元.请判断该企业应选择哪种售卖方案更为科学? 并说明理由.
参考数据:设z=,zi=,=0.37,=50,=184.5,-72=0.55;
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=u+中的斜率和纵截距的最小二乘法估计的计算公式为=,=-.
【解析】(1)
由题可得,
∴,
∴,
∵,
∴,即该产品的“理想”优良厚度约为13nm.
(2)方案①,售卖收益为万元;
方案②,设为3条老旧生产线改造成功的收益,的可能取值为-20,0,20,40,
,,
,,
∴,
∵,
∴该企业应选择方案②更为科学.
题组二、独立性检验
2-1、(2022·广东揭阳·高三期末)每年的毕业季都是高校毕业生求职和公司招聘最忙碌的时候,甲、乙两家公司今年分别提供了2个和3个不同的职位,一共收到了100份简历,具体数据如下:
公司
文史男
文史女
理工男
理工女
甲
10
10
20
10
乙
15
20
10
5
分析毕业生的选择意愿与性别的关联关系时,已知对应的的观测值;分析毕业生的选择意愿与专业关联的的观测值,则下列说法正确的是( )
A.有的把握认为毕业生的选择意愿与专业相关联
B.毕业生在选择甲、乙公司时,选择意愿与专业的关联比与性别的关联性更大一些
C.理科专业的学生更倾向于选择乙公司
D.女性毕业生更倾向于选择甲公司
【答案】B
【解析】解:与专业关联的的观测值,明显大于,明显小于,所以有的把握认为毕业生的选择意愿与专业相关联,所以不正确;
因为,故正确;根据题中的数据表列出专业与甲、乙公司的关联表可知,理科专业的学生更倾向于选择甲公司,列出性别与甲、乙公司的关联表可知,
女性毕业生更倾向于选择乙公司,所以C,D均不正确.
故选:B.
2-2、(2022·山东莱西·高三期末)通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表:
跳绳
性别
合计
男
女
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
已知,,根据小概率值的独立性检验,以下结论正确的为( )
A.爱好跳绳与性别有关
B.爱好跳绳与性别有关,这个结论犯错误的概率不超过0.001
C.爱好跳绳与性别无关
D.爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
【答案】D
【解析】,,,
,,,
故,爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
故选:D
2-3、(2022·湖北武昌·高三期末)武汉热干面既是中国四大名面之一,也是湖北武汉最出名的小吃之一.某热干面店铺连续10天的销售情况如下(单位:份):
天数
1
2
3
4
5
6
7
8
9
10
套餐一
120
100
140
140
120
70
150
120
110
130
套餐二
80
90
90
60
50
90
70
80
90
100
(1)分别求套餐一、套餐二的均值、方差,并判断两种套餐销售的稳定情况;
(2)假定在连续10天中每位顾客只购买了一份,根据图表内容填写下列列联表,并据此判断能否有95%的把握认定顾客性别与套餐选择有关?
顾客套餐
套餐一
套餐二
合计
男顾客
400
女顾客
500
合计
附:
0.10
0.05
0.025
0.010
2.706
3.841
5.024
6.635
【答案】(1)套餐一:均值120,方差480;套餐二:均值80,方差220;套餐二销量相对稳定
(2)填表见解析;没有
【解析】(1)
套餐一:均值
方差;
套餐二:均值
方差.
因为,所以,套餐二销量相对稳定.
(2)
列联表如下:
顾客套餐
套餐一
套餐二
合计
男顾客
400
300
700
女顾客
800
500
1300
合计
1200
800
2000
因为,
所以,没有95%以上的把握认定顾客性别与套餐选有关
2-4、(2022·江苏苏州·高三期末)年月国务院印发《全民健身计划》,《计划》中提出了各方面的主要任务,包括加大全民健身场地设施供给、广泛开展全民健身赛事活动、提升科学健身指导服务水平、激发体育社会组织活动、促进重点人群健身活动开展和营造全民健身社会氛围等.在各种健身的方式中,瑜伽逐渐成为一种新型的热门健身运动.某瑜伽馆在月份随机采访了名市民,对于是否愿意把瑜伽作为主要的健身方式作了调查.
愿意
不愿意
合计
男性
女性
合计
(1)能否在犯错误的概率不超过的前提下认为“愿意把瑜伽作为主要健身方式”与性别有关?
附:
(2)为了推广全民健身,某市文化馆计划联合该瑜伽馆举办“瑜你一起”的公益活动,在全市范围内开设一期公益瑜伽课,先从上述参与调查的人中选择“愿意”的人按分层抽样抽出人,再从人中随机抽取人免费参加.市文化馆拨给瑜伽馆一定的经费补贴,补贴方案为:男性每人元,女性每人元.求补贴金额的分布列及数学期望(四舍五入精确到元)
【答案】(1)能在犯错误的概率不超过的前提下认为“愿意把瑜伽作为主要健身方式”与性别有关
(2)的分布列为
期望为1385(元)
【解析】(1)
由已知得.
所以能在犯错误的概率不超过的前提下认为“愿意把瑜伽作为主要健身方式”与性别有关.
(2)
调查的人中选择“愿意”的人按分层抽样抽出人,
其中男性人数为,女性人数为.
记补贴金额为,则可能为,,.
,,,
则的分布列为
数学期望(元).
题组三、统计案例、线性回归分析与概率的综合
3-1、(2022·河北张家口·高三期末)已知某区、两所初级中学的初一年级在校学生人数之比为,该区教育局为了解双减政策的落实情况,用分层抽样的方法在、两校初一年级在校学生中共抽取了名学生,调查了他们课下做作业的时间,并根据调查结果绘制了如下频率分布直方图:
(1)在抽取的名学生中,、两所学校各抽取的人数是多少?
(2)该区教育局想了解学生做作业时间的平均时长(同一组中的数据用该组区间的中点值作代表)和做作业时长超过小时的学生比例,请根据频率分布直方图,估计这两个数值;
(3)另据调查,这人中做作业时间超过小时的人中的人来自中学,根据已知条件填写下面列联表,并根据列联表判断是否有的把握认为“做作业时间超过小时”与“学校”有关?
做作业时间超过小时
做作业时间不超过小时
合计
校
校
合计
附表:
附:.
【答案】(1)、两校所抽取人数分别为、;
(2)估计该区学生做作业时间的平均时长为小时,该区有的学生做作业时长超过小时;
(3)列联表答案见解析,有的把握认为“做作业时间超过小时”与“学校”有关.
【解析】
【分析】
(1)设、两校所抽取人数分别为、,根据已知条件列出关于、的方程组,解出这两个量的值,即可得解;
(2)将频率分布直方图中每个矩形底边的中点值乘以对应矩形的面积,可得出该区学生做作业时间的平均时长,计算出频率直方图中后三个矩形的面积之和,可得出该地区做作业时长超过小时的学生比例;
(3)根据题中信息完善列联表,计算出的观测值,结合临界值表可得出结论.
(1)
解:设、两校所抽取人数分别为、,由已知可得,解得.
(2)
解:由直方图可知,学生做作业的平均时长的估计值为
(小时).
由,可知有的学生做作业时长超过小时.
综上,估计该区学生做作业时间的平均时长为小时,该区有的学生做作业时长超过3小时.
(3)
解:由(2)可知,有(人)做作业时间超过3小时.
故填表如下(单位:人):
做作业时间超过小时
做作业时间不超过小时
合计
校
校
合计
,
所以有的把握认为“做作业时间超过小时”与“学校”有关.
3-2、(2022·山东济南·高三期末)某机构为了解市民对交通的满意度,随机抽取了100位市民进行调查结果如下:回答“满意”的人数占总人数的一半,在回答“满意”的人中,“上班族”的人数是“非上班族”人数的;在回答“不满意”的人中,“非上班族”占.
(1)请根据以上数据填写下面列联表,并依据小概率值的独立性检验,分析能否认为市民对于交通的满意度与是否为上班族存关联?
满意
不满意
合计
上班族
非上班族
合计
(2)为了改善市民对交通状况的满意度,机构欲随机抽取部分市民做进一步调查.规定:抽样的次数不超过,若随机抽取的市民属于不满意群体,则抽样结束;若随机抽取的市民属于满意群体,则继续抽样,直到抽到不满意市民或抽样次数达到时,抽样结束.
(i)若,写出的分布列和数学期望;
(ii)请写出的数学期望的表达式(不需证明),根据你的理解说明的数学期望的实际意义.
附:
参考公式:,其中.
【答案】(1)列联表见解析,市民对交通的满意度与是否上班有关,此推断犯错误的概率不大于0.001
(2)(i)分布列见解析,;(ii),平均每抽取2个人,就会有一个不满意的市民
【解析】(1)
由题意可知
满意
不满意
合计
上班族
15
40
55
非上班族
35
10
45
合计
50
50
100
零假设为:市民对交通的满意度与是否上班独立,
因为;
根据小概率值的独立性检验,我们推断不成立,即认为市民对交通的满意度与是否上班有关,此推断犯错误的概率不大于0.001.
(2)
(i)当时,的取值为1,2,3,4,5,
由(1)可知市民的满意度和不满意度均为;
所以,,,,,
所以的分布列为
1
2
3
4
5
P
所以;
(ⅱ)
当n趋向于正无穷大时,趋向于2,此时恰好为不满意度的倒数;
也可以理解为平均每抽取2个人,就会有一个不满意的市民.
1、(2022·山东青岛·高三期末)如图是民航部门统计的年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )
A.深圳的变化幅度最小,北京的平均价格最高
B.深圳和厦门的春运期间往返机票价格同去年相比有所下降
C.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门
D.平均价格从高到低居于前三位的城市为北京、深圳、广州
【答案】C
【解析】从折线图看,深圳的涨幅最接近,从条形图看,北京的平均价格最高,故A正确;
从折线图看,深圳和厦门的涨幅均为负值,故B正确;
从折线图看,平均价格的涨幅从高到低居于前三位的城市为天津、西安、南京,故C错误;
从条形图看,平均价格从高到低居于前三位的城市为北京、深圳、广州,故D正确.
故选:C.
2、(2022·江苏扬州·高三期末)(多选题)下列说法中正确的有( )
A.将一组数据中的每个数据都乘以后,平均数也变为原来的倍
B.若一组数据的方差越小,则该组数据越稳定
C.由样本数据点、、、所得到的回归直线至少经过其中的一个点
D.在某项测量中,若测量结果,则
【答案】ABD
【解析】对于A,设数据、、、的平均数为,则,
则数据、、、的平均数为,A对;
对于B,由方差的定义可知,方差越小,样本越稳定,B对;
对于C,回归直线一定过样本的中心点,不一定过样本点,C错;
对于D, 在某项测量中,若测量结果,则,D对.
故选:ABD.
3、(2022·湖北襄阳·高三期末)(多选题)下列说法正确的是( )
A.当总体是由差异明显的几个部分组成时,通常采用分层抽样的方法抽样
B.频率分布直方图中每个小矩形的高就是该组的频率
C.若两个满足线性回归的变量负相关,则其回归直线的斜率为负
D.已知随机变量服从正态分布,,则
【答案】AC
【解析】对于A, 根据分层抽样的定义可知,当总体是由差异明显的几个部分组成时,通常采用分层抽样的方法抽样,A正确;
对于B, 频率分布直方图中每个矩形的高是“频率/组距”,即每个小矩形所代表的对象的频率/组距,每个小矩形的面积才是该组的频率;B错误;
对于C,根据回归方程性质,若两个满足线性回归的变量负相关,则其回归直线的斜率为负,C正确;
对于D,, ,D错误;
故选:AC.
4、(2022·湖北省鄂州高中高三期末)(多选题)下列说法正确的是( )
A.线性回归方程对应的直线一定经过点
B.若随机变量,则
C.方差描述了一组数据围绕平均数波动的大小,方差越大,数据的离散程度越大;方差越小,数据的离散程度越小
D.“事件是互斥事件”是“事件是对立事件”的充分不必要条件
【答案】ABC
【解析】选项A: 线性回归方程对应的直线经过样本点的中心.判断正确;
选项B: 若随机变量,则.判断正确;
选项C: 方差描述了一组数据围绕平均数波动的大小,方差越大,数据的离散程度越大;方差越小,数据的离散程度越小. 判断正确;
选项D: “事件是互斥事件”是“事件是对立事件”的必要不充分条件.选项D判断错误.
故选:ABC
5、(2022·山东临沂·高三期末)为研究数学成绩与物理成绩是否具有线性相关性,李老师将班级里4位同学的某次数学成绩和物理成绩记录如下表所示:
学生编号
1
2
3
4
数学分数x
98
102
118
122
物理分数y
80
83
m
100
经检验数学成绩确实与物理成绩具有相关性,且线性回归方程为,则表中______.
【答案】97
【解析】由题可知:,
样本中心点在回归直线方程上,代入得
解得.
故答案为:.
6、(2022·湖南郴州·高三期末)2021年东京奥运会,中国举重代表队共10人,其中主教练、教练各1人,参赛选手8人,赛后结果7金1银,在全世界面前展现了真正的中国力量;举重比赛根据体重进行分级,某次举重比赛中,男子举重按运动员体重分为下列十级:
级别
54公斤级
59公斤级
64公斤级
70公斤级
76公斤级
体重
级别
83公斤级
91公斤级
99公斤级
108公斤级
108公斤级以上
体重
每个级别的比赛分为抓举与挺举两个部分,最后综合两部分的成绩得出总成绩,所举重量最大者获胜,在该次举重比赛中,获得金牌的运动员的体重以及举重成绩如下表
体重
54
59
64
70
76
83
91
99
106
举重成绩
291
304
337
353
363
389
406
421
430
(1)根据表中的数据,求出运动员举重成绩与运动员的体重的回归直线方程(保留1位小数);
(2)某金牌运动员抓举成绩为180公斤,挺举成绩为218公斤,则该运动员最有可能是参加的哪个级别的举重?
(3)凯旋回国后,中央一台记者从团队的10人中随机抽取3人进行访谈,用表示抽取到的是金牌得主的人数,求的概率分布列与数学期望.
参考数据:;
参考公式:.
【答案】(1)
(2)参加的应该是91公斤级举重
(3)分布列见解析;期望为
【解析】(1)
依题意,,
,
,则,
故回归方程为:;
(2)该运动员的抓举和挺举的总成绩为398公斤,
根据回归方程可知:,解得,
即该运动员的体重应该在90公斤左右,即参加的应该是91公斤级举重;
(3)
随机变量的取值为0,1,2,3.则
,,
,,
所以随机变量的概率分布列为:
0
1
2
3
所以随机变量的数学期望为.
7、(2022·广东清远·高三期末)某市为积极响应上级部门的号召,通过沿街电子屏、微信公众号等各种渠道对抗疫进行了深入的宣传,帮助全体市民深入了解新型冠状病毒,增强战胜疫情的信心.为了检验大家对新型冠状病毒及防控知识的了解程度,该市推出了相关的问卷调查,随机抽取了年龄在18~99岁之间的200人进行调查,把年龄在和内的人分别称为“青年人”和“中老年人”.经统计,“青年人”和“中老年人”的人数之比为2∶3,其中“青年人”中有50%的人对防控的相关知识了解全面,“中老年人”中对防控的相关知识了解全面和了解不全面的人数之比是2∶1.
(1)根据已知条件,完成下面的列联表,并根据统计结果判断是否有95%的把握认为“中老年人”比“青年人”更加了解防控的相关知识.
了解全面
了解不全面
合计
青年人
中老年人
合计
(2)用频率估计概率从该市18~99岁市民中随机抽取3位市民,记抽出的市民对防控相关知识了解全面的人数为X,求随机变量X的分布列与数学期望.
附表及公式:,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)表格见解析,有
(2)分布列见解析,
【解析】(1)
解:(1)因为“青年人”和“中老年人”的人数之比为2∶3,所以“青年人”和“中老年人”的人数分别为80和120,
因为“青年人”中有50%的人对防控的相关知识了解全面,所以“青年人”中对防控的相关知识了解全面的有40人,了解不全面的有40人,
因为“中老年人”中对防控的相关知识了解全面和了解不全面的人数之比是2∶1,所以“中老年人”中对防控的相关知识了解不全面的有80人,了解不全面的有40人,
列联表如下:
了解全面
了解不全面
合计
青年人
40
40
80
中老年人
80
40
120
合计
120
80
200
因为,
所以有95%的把握认为“中老年人”比“青年人”更加了解防控的相关知识;
(2)
解:用样本估计总体可知,从该市18~99岁市民中随机抽取1人,抽到的市民对防控相关知识了解全面的概率为,
所以随机变量,
随机变量可取,
因为,
,
所以X的分布列为
X
0
1
2
3
P
.
8、(2022·广东·铁一中学高三期末)年月底,为严防新型冠状病毒疫情扩散,有效切断病毒传播途径,坚决遏制疫情蔓延势头,确保人民群众生命安全和身体健康,多地相继做出了封城决定.某地在月日至日累计确诊人数如下表:
日期(月)
日
日
日
日
日
日
日
人数(人)
由上述表格得到如散点图(月日为封城第一天).
(1)根据散点图判断与(,均为大于的常数)哪一个适宜作为累计确诊人数与封城后的天数的回归方程类型(给出判断即可,不必说明理由);并根据上表中的数据求出回归方程;
(2)随着更多的医护人员投入疫情的研究,月日武汉影像科医生提出存在大量核酸检测呈阴性(阳性则确诊),但观其肺片具有明显病变,这一提议引起了广泛的关注,月日武汉疾控中心接收了份血液样本,假设每份样本的检验结果是阳性还是阴性都是相互独立的,且每份样本是阳性样本的概率为,核酸试剂能把阳性样本检测出阳性结果的概率是(核酸检测存在阳性样本检测不出来的情况,但不会把阴性检测呈阳性),求这份样本中检测呈阳性的份数的期望.
参考数据:
其中,,参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)选择,关于的回归方程为;(2)期望为人.
【解析】(1)由散点图可知选择,
由两边同时取常用对数得,
设,.
计算,,,
,
把样本中心点代入得.
,关于的回归方程为;
(2)这份样本中检测呈阳性的份数为,
则每份检测出阳性的概率,
由题意可知,(人),
故这份样本中检测呈阳性份数的期望为人.
新高考数学二轮复习导数培优专题23 导数之凹凸反转(含解析): 这是一份新高考数学二轮复习导数培优专题23 导数之凹凸反转(含解析),共12页。
高中数学高考3 第3讲 变量间的相关关系、统计案例 新题培优练: 这是一份高中数学高考3 第3讲 变量间的相关关系、统计案例 新题培优练,共9页。试卷主要包含了根据如下样本数据等内容,欢迎下载使用。
新人教A版高考数学二轮复习专题十一概率与统计5变量间的相关关系统计案例专题检测含解析: 这是一份新人教A版高考数学二轮复习专题十一概率与统计5变量间的相关关系统计案例专题检测含解析,共1页。