所属成套资源:【五年高考·三年模拟】2025年新教材高考数学一轮基础练习(含答案)
- 10.1 计数原理、排列与组合(含答案)-【五年高考·三年模拟】2025年新教材高考数学一轮基础练习(含答案) 试卷 0 次下载
- 11.1 随机事件及概率(含答案)-【五年高考·三年模拟】2025年新教材高考数学一轮基础练习(含答案) 试卷 0 次下载
- 11.2 离散型随机变量及其分布列、均值、方差(含答案)-【五年高考·三年模拟】2025年新教材高考数学一轮基础练习(含答案) 试卷 0 次下载
- 11.3 二项分布、超几何分布和正态分布(含答案)-【五年高考·三年模拟】2025年新教材高考数学一轮基础练习(含答案) 试卷 0 次下载
- 11.4 抽样方法与总体分布的估计(含答案)-【五年高考·三年模拟】2025年新教材高考数学一轮基础练习(含答案) 试卷 0 次下载
11.5 成对数据的统计分析(含答案)-【五年高考·三年模拟】2025年新教材高考数学一轮基础练习(含答案)
展开
这是一份11.5 成对数据的统计分析(含答案)-【五年高考·三年模拟】2025年新教材高考数学一轮基础练习(含答案),共29页。试卷主要包含了5 成对数据的统计分析,038,i=110yi2=1,2 18,5 27,8 9,0 18等内容,欢迎下载使用。
五年高考
考点1 变量间的相关关系
1.(2022全国乙理,19,12分,中)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
并计算得i=110xi2=0.038,i=110yi2=1.615 8,i=110xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数i=1n(xi−x)(yi−y)i=1n(xi−x)2i=1n(yi−y)2ri=1n(xi−x)(yi−y)i=1n(xi−x)2i=1n(yi−y)2=,1.896≈1.377.
2.(2020课标Ⅱ理,18,12分,中)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得i=120xi=60,i=120yi=1 200,i=120(xi-x)2=80,i=120(yi-y)2=9 000,i=120(xi-x)(yi-y)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数i=1n(xi−x)(yi−y)i=1n(xi−x)2i=1n(yi−y)2ri=1n(xi−x)(yi−y)i=1n(xi−x)2i=1n(yi−y)2=,2≈1.414.
3.(2018课标Ⅱ理,18,12分,中)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
考点2 列联表和独立性检验
1.(2022全国甲文,17,12分,中)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),
.
2.(2020新高考Ⅰ,19,12分,中)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
附:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),
.
(2020课标Ⅲ,18,12分,中)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
附:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),
.
4.(2023全国甲理,19,12分,中)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1)设X表示指定的两只小白鼠中分配到对照组的只数,求X的分布列和数学期望.
(2)试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8
26.5 27.5 30.1 32.6 34.3 34.8 35.6
35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5
18.0 18.8 19.2 19.8 20.2 21.6 22.8
23.6 23.9 25.1 28.2 32.3 36.5
(i)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表:
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),
.
三年模拟
综合基础练
1.(2024届福建宁德第一中学二模,4)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如表所示:
若y与x线性相关,且经验回归方程为y^=0.24x+a^,则下列说法不正确的是( )
A.由题中数据可知,变量y与x正相关
B.a^=0.28
C.可以预测x=6时该商场5G手机销量为1.72千只
D.x=5时,残差为-0.02
2.(2023河南安阳二模,4)已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是( )
A.
B.
C.
D.
3.(2024届湖南名校联合体第三次联考,3)某校数学兴趣小组在某座山测得海拔高度x(单位:千米)与气压y(单位:千帕)的六组数据(xi,yi)(i=1,2,…,6),并将其绘制成如下散点图,分析研究发现B点相关数据不符合实际,删除B点后重新进行回归分析,则下列说法正确的是( )
A.删除点B后,样本数据的两变量x,y正相关
B.删除点B后,相关系数r的绝对值更接近于1
C.删除点B后,新样本的残差平方和变大
D.删除点B后,解释变量x与响应变量y相关性变弱
4.(2024届云南曲靖第一中学第二次月考,13)为了比较甲、乙、丙、丁四组数据的线性相关性强弱,某同学分别计算了甲、乙、丙、丁四组数据的相关系数,求得数值依次为-0.98,-0.27,0.36,0.93,则这四组数据中线性相关性最强的是 组数据.
综合拔高练
1.(多选)(2023广东深圳二模,9)为了研究y关于x的线性相关关系,收集了5组样本数据,如下表:
假设经验回归方程为y^=b^x+0.28,则( )
A.b^=0.24
B.当x=8时,y的预测值为2.2
C.样本数据y的40%分位数为0.8
D.去掉样本点(3,1)后,x与y的样本相关系数r不变
2.(2023湖南师大附中二模,18)某高中学校开展生涯规划教育,对今年的1 200名考生(其中女生540人)进行调查,统计知:有意向报考师范专业的学生有200人(其中女生120人).
(1)完成下面的列联表,并依据小概率值α=0.001的独立性检验分析判断报考师范专业意向是否与性别有关;
(2)对有报考师范专业意向的学生按男女分层随机抽样得一个容量为10的样本,从样本中任意抽取5人,记抽取到的男生人数为X,求X的分布列与期望值.
附:
χ2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d).
3.(2024届山东新高考质量检测联盟质检(一),17)某学校研究性学习小组在学习生物遗传学的过程中,为验证高尔顿提出的关于儿子成年后身高y(单位:cm)与父亲身高x(单位:cm)之间的关系及存在的遗传规律,随机抽取了5对父子的身高数据,如下表:
(1)根据表中数据,求出y关于x的经验回归方程,并利用回归直线方程分别确定儿子比父亲高和儿子比父亲矮的条件,由此可得到怎样的遗传规律?
(2)记e^i=yi−y^i=yi−b^xi−a^(i=1,2,…,n),其中yi为观测值,y^i为预测值,e^i为对应(xi,yi)的残差.求(1)中儿子身高的残差的和,并探究这个结果是否对任意具有线性相关关系的两个变量都成立.若成立,加以证明;若不成立,说明理由.
参考数据及公式:i=15xi=880,i=15xi2=155 450,i=15yi=885,i=15xiyi=156 045,
b^=i=1n(xi−x)(yi−y)i=1n(xi−x)2,a^=y−b^x.
4.(2024届广东广州荔湾月考,19)某专营店统计了最近5天到该店购物的人数yi和时间第xi天之间的数据,列表如下:
(1)由表中给出的数据,判断是否可用线性回归模型拟合人数y与时间x之间的关系?(若|r|>0.75,则认为线性相关程度高,可用线性回归模型拟合;否则,不可用线性回归模型拟合.计算r时精确到0.01)
(2)该专营店为了吸引顾客,推出两种促销方案:方案一,购物金额每满100元可减10元;方案二,购物金额超过800元可抽奖三次,每次中奖的概率均为13,且每次抽奖互不影响,中奖一次打9折,中奖两次打8折,中奖三次打6折.某顾客计划在此专营店购买一件价值
1 000元的商品,请从实际付款金额的数学期望的角度分析,选哪种方案更优惠?
参考数据:4 340≈65.88.
附:相关系数r=i=1n(xi−x)(yi−y)i=1n(xi−x)2i=1n(yi−y)2.
5.(2024届浙江金华十校模拟,20)2023年9月8日,第19届亚运会火炬传递启动仪式在杭州西湖涌金公园广场成功举行.火炬传递首日,火炬手从杭州西湖涌金公园广场出发,沿南山路—湖滨路—环城西路—北山街—西泠桥—孤山路传递,在“西湖十景”之一的平湖秋月收火.杭州亚运会火炬首日传递共有106棒火炬手参与.
(1)组委会从全省火炬手中随机抽取了100名火炬手进行信息分析,得到如下表格:
根据小概率值α=0.1的χ2独立性检验,试判断全省火炬手的性别与年龄满或未满50周岁是否有关联;
(2)在全省的火炬手中,男性占比72%,女性占比28%,且50%的男性火炬手和25%的女性火炬手喜欢观看足球比赛.某电视台随机选取一位喜欢足球比赛的火炬手做访谈,请问这位火炬手是男性的概率为多少?
附:
6.(2024届重庆渝中期中,20)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近6年区块链企业总数量相关数据,如表:
(1)若用模型y=aebx拟合y与x的关系,根据提供的数据,求出y与x的经验回归方程;
(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化技术比赛的“优胜公司”称号.已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,求甲公司获得“优胜公司”称号的概率.
参考数据:i=16ui=28.5,i=16xiui=106.05,其中,ui=ln yi.
参考公式:对于一组数据(xi,yi)(i=1,2,3,…,n),其经验回归直线y^=b^x+a^的斜率和截距的最小二乘估计分别为b^=i=1nxiyi−nx·yi=1nxi2−nx2,a^=y−b^x.
7.(2024届浙江台州统考,19)为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(如表一).
表一
(1)请根据所给数据求出x,y的经验回归方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩;(参考数据:i=15xiyi=22 820,i=15yi=435,xi的方差为200)
(2)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到2×2列联表(如表二).依据表中数据及小概率值α=0.001的独立性检验,分析“周末在校自主学习”与“成绩进步”是否有关.
表二
附:b^=i=1n(xi−x)·(yi−y)i=1n(xi−x)2,a^=y−b^x,χ2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d).
11.5 成对数据的统计分析
五年高考
考点1 变量间的相关关系
1.(2022全国乙理,19,12分,中)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
并计算得i=110xi2=0.038,i=110yi2=1.615 8,i=110xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数i=1n(xi−x)(yi−y)i=1n(xi−x)2i=1n(yi−y)2ri=1n(xi−x)(yi−y)i=1n(xi−x)2i=1n(yi−y)2=,1.896≈1.377.
解析 (1)估计该林区这种树木平均一棵的根部横截面积为x=0.610=0.06(m2),平均一棵的材积量为y=3.910=0.39(m3).
(2)样本相关系数i=110(xi−x)(yi−y)i=110(xi−x)2i=110(yi−y)2ri=110(xi−x)(yi−y)i=110(xi−x)2i=110(yi−y)2=
=i=110xiyi−10xy(i=110xi2−10x 2)(i=110yi2−10y 2)
=0.247 4−10×0.06×0.39(0.038−10×0.062)×(1.615 8−10×0.392)
=0.013 40.002×0.094 8=0.013 ≈0.013 40.013 77≈0.97.
计算相关系数i=110(xi−x)(yi−y)i=110(xi−x)2i=110(yi−y)2ri=110(xi−x)(yi−y)i=110(xi−x)2i=110(yi−y)2=时,需要将分子、分母稍加变换,采用题设中给出的数据求解
即该林区这种树木的根部横截面积与材积量的样本相关系数约为0.97.
设这种树木的根部横截总面积为X m2,总材积量为Y m3,则XY=xy,则Y=X·yx=186×
1 209,
所以该林区这种树木的总材积量的估计值为1 209 m3.
2.(2020课标Ⅱ理,18,12分,中)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得i=120xi=60,i=120yi=1 200,i=120(xi-x)2=80,i=120(yi-y)2=9 000,i=120(xi-x)(yi-y)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数i=1n(xi−x)(yi−y)i=1n(xi−x)2i=1n(yi−y)2ri=1n(xi−x)(yi−y)i=1n(xi−x)2i=1n(yi−y)2=,2≈1.414.
解析 (1)由已知得样本平均数y=120i=120yi=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
i=120(xi−x)(yi−y)i=120(xi−x)2i=120(yi−y)2=ri=120(xi−x)(yi−y)i=120(xi−x)2i=120(yi−y)2==80080×9 000=223≈0.94.
(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
3.(2018课标Ⅱ理,18,12分,中)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解析 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).
(2)解法一:利用模型②得到的预测值更可靠.理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=
-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
解法二:模型②得到的预测值更可靠,因为从总体数据看,该地区从2000年到2016年的环境基础设施投资额是逐年上升的,从2000年到2009年间递增的幅度较小些,从2010年到2016年间递增的幅度较大些,所以利用模型②得到的预测值更可靠.
考点2 列联表和独立性检验
1.(2022全国甲文,17,12分,中)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),
.
解析 (1)根据题表中数据得A公司共有260个班次,B公司共有240个班次,
设事件“A公司甲、乙两城之间的长途客车准点”为M,则P(M)=240260=1213,
设事件“B公司甲、乙两城之间的长途客车准点”为N,则P(N)=210240=78,
所以A公司甲、乙两城之间的长途客车准点的概率为1213,B公司甲、乙两城之间的长途客车准点的概率为78.
(2)2×2列联表如下:
K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)=500×(240×30−20×210)2260×240×450×50≈3.205>2.706,故有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
2.(2020新高考Ⅰ,19,12分,中)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
附:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),
.
解析 (1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.
(2)根据抽查数据,可得2×2列联表:
(3)根据(2)的列联表得
K2=100×(64×10−16×10)280×20×74×26≈7.484.
由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
(2020课标Ⅲ,18,12分,中)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
附:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),
.
解析 (1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如表:
(2)一天中到该公园锻炼的平均人次的估计值为1100×(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
根据列联表得K2=100×(33×8−22×37)255×45×70×30≈5.820.
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
4.(2023全国甲理,19,12分,中)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1)设X表示指定的两只小白鼠中分配到对照组的只数,求X的分布列和数学期望.
(2)试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8
26.5 27.5 30.1 32.6 34.3 34.8 35.6
35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5
18.0 18.8 19.2 19.8 20.2 21.6 22.8
23.6 23.9 25.1 28.2 32.3 36.5
(i)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表:
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),
.
解析 (1)依题意得,X的所有可能取值为0,1,2,
则P(X=0)=C200C202C402=1978,
P(X=1)=C201C201C402=2039,
P(X=2)=C202C200C402=1978,
∴X的分布列为
∴E(X)=0×1978+1×2039+2×1978=1.
(2)(i)依题意可得m=23.2+23.62=23.4.
则对照组样本中小于m的数据的个数为6,
试验组样本中小于m的数据的个数为14,
则列联表为
(ii)由(i)中列联表可得
K2=40×(6×6−14×14)220×20×20×20=6.4>3.841,
∴有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.
三年模拟
综合基础练
1.(2024届福建宁德第一中学二模,4)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如表所示:
若y与x线性相关,且经验回归方程为y^=0.24x+a^,则下列说法不正确的是( )
A.由题中数据可知,变量y与x正相关
B.a^=0.28
C.可以预测x=6时该商场5G手机销量为1.72千只
D.x=5时,残差为-0.02
答案 D
2.(2023河南安阳二模,4)已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是( )
A.
B.
C.
D.
答案 C
3.(2024届湖南名校联合体第三次联考,3)某校数学兴趣小组在某座山测得海拔高度x(单位:千米)与气压y(单位:千帕)的六组数据(xi,yi)(i=1,2,…,6),并将其绘制成如下散点图,分析研究发现B点相关数据不符合实际,删除B点后重新进行回归分析,则下列说法正确的是( )
A.删除点B后,样本数据的两变量x,y正相关
B.删除点B后,相关系数r的绝对值更接近于1
C.删除点B后,新样本的残差平方和变大
D.删除点B后,解释变量x与响应变量y相关性变弱
答案 B
4.(2024届云南曲靖第一中学第二次月考,13)为了比较甲、乙、丙、丁四组数据的线性相关性强弱,某同学分别计算了甲、乙、丙、丁四组数据的相关系数,求得数值依次为-0.98,-0.27,0.36,0.93,则这四组数据中线性相关性最强的是 组数据.
答案 甲
综合拔高练
1.(多选)(2023广东深圳二模,9)为了研究y关于x的线性相关关系,收集了5组样本数据,如下表:
假设经验回归方程为y^=b^x+0.28,则( )
A.b^=0.24
B.当x=8时,y的预测值为2.2
C.样本数据y的40%分位数为0.8
D.去掉样本点(3,1)后,x与y的样本相关系数r不变
答案 ABD
2.(2023湖南师大附中二模,18)某高中学校开展生涯规划教育,对今年的1 200名考生(其中女生540人)进行调查,统计知:有意向报考师范专业的学生有200人(其中女生120人).
(1)完成下面的列联表,并依据小概率值α=0.001的独立性检验分析判断报考师范专业意向是否与性别有关;
(2)对有报考师范专业意向的学生按男女分层随机抽样得一个容量为10的样本,从样本中任意抽取5人,记抽取到的男生人数为X,求X的分布列与期望值.
附:
χ2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d).
解析 (1)列联表如下:
零假设为H0:报考师范专业意向与性别无关,
∵χ2=1 200×(80×420−120×580)2200×1 000×540×660≈21.818>10.828,
∴依据小概率值α=0.001的独立性检验推断H0不成立,即认为报考师范专业意向与性别有关,此推断犯错误的概率不大于0.001.
(2)据题意知,样本中男生有4人,女生有6人,
则X的所有可能取值为0,1,2,3,4,
P(X=0)=C40C65C105=142,P(X=1)=C41C64C105=521,P(X=2)=C42C63C105=1021,P(X=3)=C43C62C105=521,P(X=4)=C44C61C105=142.
所以X的分布列为
E(X)=0×142+1×521+2×1021+3×521+4×142=2.
3.(2024届山东新高考质量检测联盟质检(一),17)某学校研究性学习小组在学习生物遗传学的过程中,为验证高尔顿提出的关于儿子成年后身高y(单位:cm)与父亲身高x(单位:cm)之间的关系及存在的遗传规律,随机抽取了5对父子的身高数据,如下表:
(1)根据表中数据,求出y关于x的经验回归方程,并利用回归直线方程分别确定儿子比父亲高和儿子比父亲矮的条件,由此可得到怎样的遗传规律?
(2)记e^i=yi−y^i=yi−b^xi−a^(i=1,2,…,n),其中yi为观测值,y^i为预测值,e^i为对应(xi,yi)的残差.求(1)中儿子身高的残差的和,并探究这个结果是否对任意具有线性相关关系的两个变量都成立.若成立,加以证明;若不成立,说明理由.
参考数据及公式:i=15xi=880,i=15xi2=155 450,i=15yi=885,i=15xiyi=156 045,
b^=i=1n(xi−x)(yi−y)i=1n(xi−x)2,a^=y−b^x.
解析 (1)由题意得x=8805=176,y=8855=177,b^=i=15xiyi−5x yi=15xi2−5x2=156 045−5×176×177155 450−5×1762=285570=0.5,a^=y−b^x=177-0.5×176=89,所以经验回归方程为y^=0.5x+89,
令0.5x+89-x>0,得x0.75,则认为线性相关程度高,可用线性回归模型拟合;否则,不可用线性回归模型拟合.计算r时精确到0.01)
(2)该专营店为了吸引顾客,推出两种促销方案:方案一,购物金额每满100元可减10元;方案二,购物金额超过800元可抽奖三次,每次中奖的概率均为13,且每次抽奖互不影响,中奖一次打9折,中奖两次打8折,中奖三次打6折.某顾客计划在此专营店购买一件价值
1 000元的商品,请从实际付款金额的数学期望的角度分析,选哪种方案更优惠?
参考数据:4 340≈65.88.
附:相关系数r=i=1n(xi−x)(yi−y)i=1n(xi−x)2i=1n(yi−y)2.
解析 (1)x=1+2+3+4+55=3,y=75+84+93+98+1005=90,
所以i=15(xi-x)(yi-y)=-2×(-15)+(-1)×(-6)+0+1×8+2×10=64,
i=15(xi-x)2=4+1+0+1+4=10,i=15(yi-y)2=(-15)2+(-6)2+32+82+102=434,
所以r=i=15(xi−x)(yi−y)i=15(xi−x)2·i=15(yi−y)2=6410×434≈6465.88≈0.97>0.75,
所以y与x的线性相关性很强,故可用线性回归模型拟合人数y与时间x之间的关系.
(2)设方案一的实际付款金额为X元,方案二的实际付款金额为Y元,
由题意可知E(X)=1 000×0.9=900(元),
Y的可能取值有600、800、900、1 000,
P(Y=600)=133=127,P(Y=800)=C32·132·23=29,
P(Y=900)=C31·13·232=49,P(Y=1 000)=233=827,
所以E(Y)=600×127+800×29+900×49+1 000×827=24 20027400
空气质量好
空气质量不好
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
400
空气质量好
空气质量不好
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
空气质量等级
1
2
3
4
概率的估计值
0.43
0.27
0.21
0.09
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
相关试卷
这是一份2025年高考数学一轮复习-成对数据的统计分析-专项训练【含答案】,共6页。试卷主要包含了762,则可以推断出,01);,484等内容,欢迎下载使用。
这是一份2025版高考数学全程一轮复习练习第九章统计与成对数据的统计分析第三节成对数据的统计分析,共19页。试卷主要包含了了解样本相关系数的统计意义.,8 20,3 34,2 11,971 B.5,775 D.9,8+9等内容,欢迎下载使用。
这是一份2025年高考数学一轮复习-成对数据的统计分析-专项训练【含答案】,共7页。