高考数学一轮复习考点微专题(新高考地区专用)考向43统计与统计案例(九大经典题型)(原卷版+解析)
展开经典题型一:随机抽样、分层抽样
经典题型二:频率分布直方图、条形统计图、折线统计图、扇形统计图
经典题型三:百分位数
经典题型四:样本的数字特征
经典题型五:变量间的相关关系
经典题型六:线性回归
经典题型七:非线性回归
经典题型八:独立性检验
经典题型九:误差分析
(2023·全国·高考真题(文))某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
【解析】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为
(2)
则
(3)设该林区这种树木的总材积量的估计值为,
又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.
则该林区这种树木的总材积量估计为
(2023·全国·高考真题)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
(2)估计该地区一位这种疾病患者的年龄位于区间的概率;
(3)已知该地区这种疾病的患病率为,该地区年龄位于区间的人口占该地区总人口的.从该地区中任选一人,若此人的年龄位于区间,求此人患这种疾病的概率.(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001).
【解析】(1)平均年龄
(岁).
(2)设{一人患这种疾病的年龄在区间},所以
.
(3)设“任选一人年龄位于区间[40,50)”,“从该地区中任选一人患这种疾病”,
则由已知得:
,
则由条件概率公式可得
从该地区中任选一人,若此人的年龄位于区间,此人患这种疾病的概率为.
知识点一、抽样
1、抽样调查
(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.
(2)个体:构成总体的每一个元素叫做个体.
(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量.
2、简单随机抽样
(1)定义
一般地,设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
(2)两种常用的简单随机抽样方法
①抽签法:一般地,抽签法就是把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到一个容量为的样本.
②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.随机数表由数字,,,…,组成,并且每个数字在表中各个位置出现的机会都是一样的.
注意:为了保证所选数字的随机性,需在查看随机数表前就指出开始数字的横、纵位置.
(3)抽签法与随机数法的适用情况
抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况,但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便.
(4)简单随机抽样的特征
①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平.
只有四个特点都满足的抽样才是简单随机抽样.
3、分层抽样
(1)定义
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
分层抽样适用于已知总体是由差异明显的几部分组成的.
(2)分层抽样问题类型及解题思路
①求某层应抽个体数量:按该层所占总体的比例计算.
②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.
③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比=eq \f(样本容量,总体容量)=eq \f(各层样本数量,各层个体数量)”
注意:分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取()个个体(其中是层数,是抽取的样本容量,是第层中个体的个数,是总体容量).
知识点二、用样本估计总体
1、频率分布直方图
(1)频率、频数、样本容量的计算方法
①eq \f(频率,组距)×组距=频率.
②eq \f(频数,样本容量)=频率,eq \f(频数,频率)=样本容量,样本容量×频率=频数.
③频率分布直方图中各个小方形的面积总和等于 .
2、频率分布直方图中数字特征的计算
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.设中位数为,利用左(右)侧矩形面积之和等于,即可求出.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有,其中为每个小长方形底边的中点,为每个小长方形的面积.
3、百分位数
(1)定义
一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
(3)四分位数
我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
4、样本的数字特征
(1)众数、中位数、平均数
①众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
②中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
③平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:.
5、标准差和方差
(1)定义
①标准差:标准差是样本数据到平均数的一种平均距离,一般用表示.假设样本数据是,表示这组数据的平均数,则标准差.
②方差:方差就是标准差的平方,即.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.
(2)数据特征
标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小.
(3)平均数、方差的性质
如果数据的平均数为,方差为,那么
①一组新数据的平均数为,方差是.
②一组新数据的平均数为,方差是.
③一组新数据的平均数为,方差是.
知识点三、变量间的相关关系
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2、散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3、相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
知识点四、线性回归
1、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
2、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
知识点五、非线性回归
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
1、建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
知识点六、独立性检验
1、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
2、等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.
(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.
3、独立性检验
(1)定义:利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
(2)公式:,其中为样本容量.
(3)独立性检验的具体步骤如下:
①计算随机变量的观测值,查下表确定临界值:
②如果,就推断“与有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”.
(2)两个分类变量和是否有关系的判断标准:
统计学研究表明:
当时,认为与无关;
当时,有的把握说与有关;
当时,有的把握说与有关;
当时,有的把握说与有关.
常见的非线性回归模型
(1)指数函数型(且,)
两边取自然对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(2)对数函数型
令,原方程变为,然后按线性回归模型求出,.
(3)幂函数型
两边取常用对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(4)二次函数型
令,原方程变为,然后按线性回归模型求出,.
(5)反比例函数型型
令,原方程变为,然后按线性回归模型求出,.
经典题型一:随机抽样、分层抽样
1.(2023·全国·高三专题练习)某工厂利用随机数表对生产的700个零件进行抽样测试,先将700个零件进行编号,001,002,……,699,700.从中抽取70个样本,下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是( )
3221183429 7864540732 5242064438 1223435677 3578905642
8442125331 3457860736 2530073286 2345788907 2368960804
3256780843 6789535577 3489948375 2253557832 4577892345
A.623B.328C.253D.007
2.(2023·全国·高三专题练习)有甲、乙两箱篮球,其中甲箱27个,乙箱9个,现从这两箱篮球中随机抽取4个,甲箱抽3个,乙箱抽1个.下列说法不正确的是( )
A.总体是36个篮球B.样本是4个篮球
C.样本容量是4D.每个篮球被抽到的可能性不同
3.(2023·上海宝山·高三阶段练习)某个年级有男生180人,女生160人,用分层抽样的方法从该年级全体学生中抽取一个容量为68的样本,则此样本中女生人数为( )
A.40B.36C.34D.32
4.(2023·江西·赣源中学高三阶段练习(文))年月日,搭载问天实验舱的长征五号遥三运载火箭,在我国文昌航天发射场成功发射,我国的航天事业又上了一个新的台阶.某校现有高一学生人,高二学生人,高三学生人,为了调查该校学生对我国航天事业的了解程度,现从三个年级中采用分层抽样的方式抽取人填写问卷调查,则高三年级有多少人被抽中( )
A.16B.18C.20D.24
5.(2023·上海静安·二模)2022年2月4日至2月20日春节期间,第24届冬奥会在北京市和张家口市联合举行.共有个冬奥村供运动员和代表队官员入住,其中北京冬奥村的容量约为人,延庆冬奥村的容量约人,张家口冬奥村的容量约人.为了解各冬奥村服务质量,现共准备了份调查问卷,采用分层抽样的方法,则需在延庆冬奥村投放的问卷数量是( )
A.58份B.50份C.32份D.19份
6.(2023·全国·高三专题练习)利用简单随机抽样的方法,从个个体中抽取13个个体,若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的可能性为___________.
7.(2023·重庆南开中学高三阶段练习)某中学为了掌握学校员工身体状况,偶尔会采用抽检的方式来收集各部门员工的健康情况.为了让样本更具有代表性,学校对各部门采用分层抽样的方法进行抽检.已知该校部门、部门、部门分别有40、60、80人,各部门员工不存在交叉任职情况,若共抽检了90人,则部门抽检人数为______.
经典题型二:频率分布直方图、条形统计图、折线统计图、扇形统计图
8.(2023·辽宁朝阳·高三阶段练习)某市教育局为得到高三年级学生身高的数据,对高三年级学生进行抽样调查,随机抽取了名学生,他们的身高都在,,,,五个层次内,分男、女生统计得到以下样本分布统计图,则( )
A.样本中层次的女生比相应层次的男生人数多
B.估计样本中男生身高的中位数比女生身高的中位数大
C.层次的女生和层次的男生在整个样本中频率相等
D.样本中层次的学生数和层次的学生数一样多
9.(2023·黑龙江·佳木斯一中三模(理))如图1为某省2019年1~4月份快递业务量统计图,图2为该省2019年1~4月份快递业务收入统计图,对统计图理解不正确的是( )
A.2019年1~4月份快递业务量3月份最高,2月份最低,差值接近2000万件
B.从1~4月份来看,业务量与业务收入有波动,但整体保持高速增长
C.从两图中看,增量与增长速度并不完全一致,但业务量与业务收入变化高度一致
D.2019年1~4月份快递业务量同比增长率均超过50%,在3月份最高,和春节后网购迎来喷涨有关
10.(2023·湖北孝感·高三阶段练习)2021年7月至2022年7月,我国居民消费价格保持平稳,居民消费价格涨跌幅如图所示,则( )
备注:同比增长率=,环比增长率=,
A.2022年1月全国居民消费价格比2021年1月全国居民消费价格有所下降
B.2022年5月全国居民消费价格比2022年4月全国居民消费价格有所上升
C.2021年7月至2022年7月全国居民消费价格同比增长率的40%分位数为1.0%
D.2021年10月至2022年7月全国居民消费价格环比增长率的平均数为0.25%
经典题型三:百分位数
11.(2023·福建省福州华侨中学高三阶段练习)某读书会有5名成员,寒假期间他们每个人阅读的节本数分别如下:3,5,4,2,1,则这组数据的分位数为( )
A.3B.3.5C.4D.4.5
12.(2023·山东潍坊·高三阶段练习)从2,3,4,5,6,7,8,9中随机取两个数,这两个数一个比大,一个比小的概率为,已知为上述数据中的分位数,则的取值可能为( )
A.50B.60C.70D.80
13.(2023·安徽·高三开学考试)学校组织班级知识竞赛,某班的8名学生的成绩(单位:分)分别是: 68、63、77、76、82、 88、92、93,则这8名学生成绩的75%分位数是( )
A.88 分B.89 分C.90 分D.92 分
14.(2023·全国·高三专题练习)如图一所示,某市月日至日的日均值(单位:)变化的折线图,则该组数据第百分位数为( )
A.B.C.D.
15.(2023·湖北武汉·高三开学考试)某校高三数学备课组老师的年龄(单位:岁)分别为:28,29,42,32,41,56,45.48,55,59,则这组数据的第80百分位数为( )
A.54.5B.55C.55.5D.56
经典题型四:样本的数字特征
16.(2023·河南·郑州四中高三阶段练习(文))运动员甲10次射击成绩(单位:环)如下:7,8,9,7,4,8,9,9,7,2,则下列关于这组数据说法不正确的是( ).
A.众数为7和9B.平均数为7
C.中位数为7D.方差为
17.(2023·全国·高三专题练习)在2022北京冬奥会单板滑雪U型场地技巧比赛中,6名评委给选手打出了6个各不相同的原始分,经过“去掉其中一个最高分和一个最低分”处理后,得到4个有效分.则经处理后的4个有效分与6个原始分相比,一定会变小的数字特征是( )
A.平均数B.中位数C.众数D.方差
18.(2023·江苏·南京市天印高级中学模拟预测)在发生某公共卫生事件期间,我国有关机构规定:该事件在一段时间没有发生规模群体感染的标志为“连续天每天新增加疑似病例不超过人”.根据过去天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )
A.甲地总体均值为,中位数为
B.乙地总体平均数为,总体方差大于;
C.丙地总体均值为,总体方差为
D.丁地中位数为,众数为
19.(2023·浙江·高三开学考试)某学校食堂为了解学生对食堂的满意度,从高一、高二两个年级分别随机调查了100名学生,根据学生对食堂的满意度评分,分别得到高一和高二学生满意度评分的频率分布直方图.
若高一和高二学生的满意度评分中位数分别为,平均数分别为,则( )
A.B.
C.D.
20.(2023·全国·高三专题练习)为了进一步推动全市学习型党组织、学习型社会建设,某市组织开展“学习强国”知识测试,从全体测试人员中随机抽取了一部分人的测试成绩,得到频率分布直方图如图所示.假设同组中的每个数据都用该组区间的中点值代替,则估计这部分人的测试成绩的平均数和中位数分别是( )
A.85,87.5B.86.75,86.67C.86.75,85D.85,85
21.(2023·全国·高三阶段练习(理))某组样本数据的平方和,平均数,则该组数据的方差( )
A.1B.C.2D.
22.(2023·广东佛山·高三阶段练习)已知一组数据的平均数是3,方差是2,则由这5个数据组成的新的一组数据的方差是( )
A.4B.6C.D.
23.(2023·四川省成都市第八中学校高三阶段练习(理))某班统计一次数学测验成绩的平均分与方差,计算完毕才发现有个同学的分数还未录入,只好重算一次.已知原平均分和原方差分别为,,新平均分和新方差分别为,,若此同学的得分恰好为,则( )
A.,B.,
C.,D.,
24.(2023·全国·高三专题练习(文))某家庭记录了未使用节水龙头50天的日用水量数据(单位:)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
使用了节水龙头50天的日用水量频数分布表
(1)在图中作出使用了节水龙头50天的日用水量数据的频率分布直方图:
(2)估计该家庭使用节水龙头后,日用水量小于的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表.)
25.(2023·重庆十八中两江实验中学高三阶段练习)年月日,第十三届全国人民代表大会第五次会议在北京人民大会堂开幕,会议报告指出,年,国内生产总值和居民人均可支配收入明显增长.某地为了解居民可支配收入情况,随机抽取人,经统计,这人去年可支配收入(单位:万元)均在区间内,按,,,,,分成组,频率分布直方图如图所示,若上述居民可支配收入数据的第百分位数为.
(1)求的值,并估计这位居民可支配收入的平均值(同一组中的数据用该组区间的中点值作代表);
(2)用样本的频率估计概率,从该地居民中抽取甲、乙、丙人,若每次抽取的结果互不影响,求抽取的人中至少有两人去年可支配收入在内的概率.
26.(2023·全国·高三专题练习)某中学高三年级有400名学生参加月考,用简单随机抽样的方法抽取了一个容量为50的样本,得到数学成绩的频率分布直方图如图所示.
(1)求第四个小矩形的高;
(2)估算样本的众数、中位数和平均数.
27.(2023·北京市第一零九中学高三阶段练习)北京市某区针对高三年级的一次测试做调研分析,随机抽取同时选考物理、化学的学生330名,下表是物理、化学成绩等级和人数的数据分布情况:
(1)从该区高三年级同时选考物理、化学的学生中随机抽取1人,已知该生的物理成绩等级为,估计该生的化学成绩等级为的概率;
(2)从该区高三年级同时选考物理、化学的学生中随机抽取2人,以表示这2人中物理、化学成绩等级均为的人数,求的分布列和数学期望(以上表中物理、化学成绩等级均为的频率作为每名学生物理、化学成绩等级均为的概率);
(3)记抽取的330名学生在这次考试中数学成绩(满分150分)的方差为,排名前的成绩方差为,排名后的成绩方差为,则不可能同时大于和,这种判断是否正确,并说明理由.
28.(2023·重庆·高三阶段练习)重庆轨道交通号线一期己于今年月日开通运营,全长公里,从高滩岩站至兴科大道站一路经过座车站.沙坪坝站是目前客流量最大的站点,某数学兴趣小组在沙坪坝站作乘客流量来源地相关调查,从上车人群中随机选取了名乘客,记录了他们从来源地到沙坪坝站所花费时间t,得到下表:
(1)从在沙坪坝站上车的乘客中任选一人,估计该乘客花费时间小于的概率;
(2)估计所有在沙坪坝站上车的乘客花费时间的中位数;
(3)已知的人,其平均数和方差分别为,;的人,其平均数和方差分别为,,计算样本数据中的平均数和方差.
经典题型五:变量间的相关关系
29.(2023·四川省仁寿县文宫中学高三阶段练习(理))对于,两变量,有四组样本数据,分别算出它们的线性相关系数(如下),则线性相关性最强的是( )
A.-0.82B.0.78C.-0.69D.0.87
30.(2023·上海嘉定·高三阶段练习)通过抽样调研发现,当地第三季度的医院心脑血管疾病的人数和便利店购买冷饮的人数的相关系数很高,甲认为这是巧合,两者其实没有关系:乙认为冷饮的某种摄入成分导致了疾病;丙认为病人对冷饮会有特别需求:丁认为两者的相关关系是存在的,但不能视为因果,请判断哪位成员的意见最可能成立( )
A.甲B.乙C.丙D.丁
31.(2023·四川·成都七中高三阶段练习(理))某统计部门对四组数据进行统计分析后,获得如图所示的散点图.
下面关于相关系数的比较,正确的是( )
A.B.C.D.
32.(2023·上海交大附中高三阶段练习)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:头),并计算得,,,,.
(1)估计该地区这种野生动物的数量;
(2)求样本的相关系数.(精确到0.01)
33.(2023·陕西·宝鸡市陈仓高级中学高三开学考试(理))对两个变量x,y进行线性相关检验,得线性相关系数r1=0.8995,对两个变量u,v进行线性相关检验,得线性相关系数r2=﹣0.9568,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
34.(2023·全国·高三专题练习)甲、乙、丙、丁四位同学各自对两变量的线性相关性做试验,分别求得样本相关系数,如下表:
则试验结果中两变量有更强线性相关性的是( )
A.甲B.乙C.丙D.丁
35.(2023·全国·高三专题练习)近五年来某草场羊只数量与草地植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示:
根据表及图得到以下判断:①羊只数量与草地植被指数成减函数关系;②若利用这五组数据得到的两变量间的相关系数为,去掉第一年数据后得到的相关系数为,则;③可以利用回归直线方程,准确地得到当羊只数量为万只时的草地植被指数.以上判断中正确的个数是________.
经典题型六:线性回归
36.(2023·河南安阳·高三阶段练习(文))某学习小组用计算机软件对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,数据误输成,将这两个数据修正后得到回归直线方程,则实数( )
A.B.C.D.
37.(2023·河南·商丘市第一高级中学高三开学考试(文))已知具有线性相关关系的变量x,y,设其样本点为,回归直线方程为,若,,则( )
A.40B.-17C.-170D.4
38.(2023·江西·高三开学考试(文))新能源汽车的核心部件是动力电池,电池成本占了新能源整车成本很大的比例,从2022年年初开始,生产电池的某种有色金属的价格一路水涨船高.下表是2022年前5个月我国某电池企业采购的该有色金属价格y(单位:千元/kg)与月份x的统计数据.
已知y与x之间满足线性相关关系,且,由此方程预测到时,,则( )
A.1.38B.1.40C.1.42D.1.44
39.(2023·江苏镇江·高三开学考试)新能源汽车的核心部件是动力电池,碳酸锂是动力电池的主要成分,从2021年底开始,碳酸锂的价格一直升高,下表是2022年我国某企业前5个月购买碳酸锂价格与月份的统计数据.由下表可知其线性回归方程为,
则表中的值为( )
A.0.5B.0.6C.0.7D.0.8
40.(2023·全国·模拟预测(文))2020年,国庆“遇上”中秋,中国人把这个“超长黄金周”过出了年味.假期期间,全国各大旅游景点、车站、机场人头攒动的景象也吸引了世界的目光.外国媒体、专家和网友“实名羡慕”,这一派热闹景象证明了抗疫的成功,也展示了中国经济复苏的劲头.抗疫的成功离不开国家强大的医疗卫生体系,下表是某省2013年至2019年医疗卫生机构数(单位:万个):
(1)求关于的线性回归方程(,保留两位小数);
(2)规定若某年的实际医疗卫生机构数与估计值的差的绝对值不超过500个,则称该年是“吻合”年.利用(1)的结果,假设2020年该省医疗卫生机构数的估计值为实际值,现从2013年至2020年这8年中任选3年,其中“吻合”年的个数为,求的分布列与数学期望.
参考数据:,.
参考公式:线性回归方程中斜率和截距的最小二乘估计公式分别为:,.
41.(2023·贵州·高三阶段练习(理))某电商平台统计了其牌下一家专营店在2022年3月至7月的营业收入(单位:万),得到以下数据:
(1)依据表中给出的数据,是否可用线性回归模型拟合与的关系?请计算相关系数并加以说明(计算结果精确到0.01);(若,则线性相关程度很高,可用线性回归模型拟合)
(2)试用最小二乘法求出营业收入与月份的回归方程,并预测当时该专营店的营业收入.
参考公式:相关系数,参考数据:,线性回归方程;,其中,
42.(2023·江苏南京·高三阶段练习)第五代移动通信技术(简称5G)是具有高速率、低时延和大连接特点的新一代宽带移动通信技术,它具有更高的速率、更宽的带宽、更高的可靠性、更低的时延等特征,能够满足未来虚拟现实、超高清视频、智能制造、自动驾驶等用户和行业的应用需求.某机构统计了共6家公司在5G通信技术上的投入(千万元)与收益(千万元)的数据,如下表:
(1)若与之间线性相关,求关于的线性回归方程.并估计若投入千万元,收益大约为多少千万元?(精确到)
(2)现家公司各派出一名代表参加某项宣传活动,该活动在甲,乙两个城市同时进行,6名代表通过抛掷一枚质地均匀的骰子决定自己去哪个城市参加活动,规定:每人只抛掷一次,掷出正面向上的点数为的去甲城市,掷出正面向上的点数为的去乙城市.求:
①公司派出的代表去甲城市参加活动的概率;
②求6位代表中去甲城市的人数少于去乙城市的人数的概率.(用最简分数作答)
参考数据及公式:,
43.(2023·全国·高三专题练习)随着时代的不断发展,社会对高素质人才的需求不断扩大,我国本科毕业生中考研人数也不断攀升,2020年的考研人数是341万人,2021年考研人数是377万人.某省统计了该省其中四所大学2022年的毕业生人数及考研人数(单位:千人),得到如下表格:
(1)已知y与x具有较强的线性相关关系,求:y关于x的线性回归方程;
(2)假设该省对选择考研的大学生每人发放0.5万元的补贴.
①若该省大学2022年毕业生人数为8千人,估计该省要发放补贴的总全额:
②若大学的毕业生中小浙、小江选择考研的概率分别为,,该省对小浙、小江两人的考研补贴总金额的期望不超过0.75万元,求的取值范围.
参考公式:,.
经典题型七:非线性回归
44.(2023·广东·广州大学附属中学高三阶段练习)红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害,每只红铃虫的平均产卵数y和平均温度x有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,与(其中为自然对数的底数)哪一个更适宜作为平均产卵数y关于平均温度x的回归方程类型?(给出判断即可,不必说明理由)并由判断结果及表中数据,求出y关于x的回归方程,(计算结果精确到0.01)
(2)根据以往统计,该地每年平均温度达到28℃以上时红铃虫会造成严重伤害,需要人工防治,其他情况均不需要人工防治,假设该地每年平均温度达到28℃以上的概率为p.若当时,该地今后5年中恰好有3年需要人工防治的概率最大,求的值.
附:回归方程,,.
45.(2023·福建省福州格致中学高三阶段练习)近年来,美国方面滥用国家力量,不择手段打压中国高科技企业,随着贸易战的不断升级,中国某科技公司为了不让外国“卡脖子”,决定在企业预算中减少宣传广告预算,增加对技术研究和人才培养的投入,下表是的连续7年研发投入x和公司年利润y的观测数据,根据绘制的散点图决定用回归模型:来进行拟合.
表I
表II(注:表中)
(1)请借助表II中的数据,求出回归模型的方程;(精确到0.01)
(2)试求研发投入为20亿元时年利润的残差.
参考数据:,附:回归方程中和,残差
46.(2023·全国·高三专题练习)5G网络是指第五代移动网络通讯技术,它的主要特点是传输速度快,峰值传输速度可达每秒钟数十GB.作为新一代移动通讯技术,它将要支持的设备远不止智能手机,而是会扩展到未来的智能家居,智能穿戴等设备.某科技创新公司基于领先技术的支持,经济收入在短期内逐月攀升,该公司1月份至6月份的经济收入y(单位:万元)关于月份x的数据如下表所示,并根据数据绘制了如图所示的散点图.
(1)根据散点图判断,与(a,b,c,d均为常数)哪一个更适合作为经济收入y关于月份x的回归方程类型(给出判断即可,不必说明理由)?
(2)根据(1)的结果及表中数据,求出y关于x的回归方程(结果保留两位小数);
(3)根据(2)所求得的回归方程,预测该公司7月份的经济收入(结果保留两位小数).
参考公式及参考数据:回归方程中斜率和截距的最小二乘估计公式为:,;
其中,().
47.(2023·全国·高三专题练习)某城市选用某种植物进行绿化,设其中一株幼苗从观察之日起,第x天的高度为y cm,测得一些数据如下表所示:
作出这组数的散点图如下
(1)请根据散点图判断,与中哪一个更适宜作为幼苗高度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测第196天这株幼苗的高度(结果保留整数).
附:, 参考数据:
48.(2023·全国·高三专题练习)在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高速增长.已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:
(1)根据统计表中的数据判断,与哪一个更适合作为关于的经验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立关于的经验回归方程;
(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.
参考数据:
,,,其中,,,.
参考公式:
对于一组数据(,),(,),…,(,),其经验回归直线的斜率和截距的
最小二乘估计公式分别为;
49.(2023·全国·高三专题练习)以模型去拟合一组数据时,为了求出回归方程,设,其变换后得到线性回归方程,则______.
50.(2023·全国·高三专题练习)由样本数据,,,得到的回归方程为,已知如下数据:, ,,则实数的值为______.
51.(2023·全国·高三专题练习)已知下列说法:
①分类变量A与B的随机变量越大,说明“A与B有关系”的可信度越大;
②以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则的值分别是和;
③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为,若,,,则.
其中说法正确的为_____________.(填序号)
经典题型八:独立性检验
52.(2023·全国·高三专题练习)为了解高中生选科时是否选择物理与数学成绩之间的关系,学校抽取了50名高中生,通过问卷调查,得到以下数据:
由以上数据,计算得到,则有______的把握认为是否选择物理与数学成绩有关系.
53.(2023·全国·高三专题练习)有两个分类变量X和Y,其中一组观测值为如下的2×2列联表:
其中a,均为大于5的整数,则a=______时,有的把握认为“X和Y之间有关系”.
54.(2023·全国·高三专题练习)在一个列联表中,由其数据计算得,认为两个变量有关系犯错误的概率不超过________.
附:常用的小概率值和临界值表
55.(2023·四川省仁寿县文宫中学高三阶段练习(理))在一个2×2列联表中,由计算得,则判断“这两个变量有关系”时,判断出错的可能性是________.
参考临界值表:
56.(2023·吉林·东北师大附中模拟预测)某兴趣小组为了解某城市不同年龄段的市民每周的阅读时长情况,在市民中随机抽取了人进行调查,并按市民的年龄是否低于岁及周平均阅读时间是否少于小时将调查结果整理成列联表,现统计得出样本中周平均阅读时间少于小时的人数占样本总数的.岁以上(含岁)的样本占样本总数的,岁以下且周平均阅读时间少于小时的样本有人.
(1)请根据已知条件将上述列联表补充完整,并依据小概率值的独立性检验,分析周平均阅读时间长短与年龄是否有关联.如果有关联,解释它们之间如何相互影响.
(2)现从岁以上(含岁)的样本中按周平均阅读时间是否少于小时用分层抽样法抽取人做进一步访谈,然后从这人中随机抽取人填写调查问卷,记抽取的人中周平均阅读时间不少于小时的人数为,求的分布列及数学期望.
参考公式及数据:,.
57.(2023·陕西·武功县普集高级中学模拟预测(理))今年月以来,世界多个国家报告了猴痘病例,我国作为为人民健康负责任的国家,对猴痘病毒防控提前做出部署.同时国家卫生健康委员会同国家中医药管理局制定了《猴痘诊疗指南(年版)》.此《指南》中指出:①猴痘病人潜伏期天;②既往接种过天花疫苗者对猴痘病毒存在一定程度的交叉保护力.据此,援非中国医疗队针对援助的某非洲国家制定的猴痘病毒防控措施之一是要求与猴痘病毒确诊患者的密切接触者集中医学观察天,在医学观察期结束后发现密切接触者中未接种过天花疫苗者感染病毒的比例较大.对该国家个接种与未接种天花疫苗的密切接触者样本医学观察结束后,统计了感染病毒情况,得到下面的列联表:
(1)是否有的把握认为密切接触者感染猴痘病毒与未接种天花疫苗有关;
(2)以样本中结束医学观察的密切接触者感染猴痘病毒的频率估计概率,现从该国所有结束医学观察的密切接触者中随机抽取人进行感染猴痘病毒人数统计,求其中至多有人感染猴痘病毒的概率.
附:,其中.
58.(2023·全国·大化瑶族自治县高级中学模拟预测(文))微信是腾讯公司推出的一种手机通讯软件,一经推出便风靡全国.为了调查每天微信用户使用微信的时间,某调研组在一广场随机采访男性、女性用户各50名,其中每天玩微信超过6小时的用户为“A组”,否则为“B组”,调查共发现A组成员48人,其中男性18人.
(1)根据以上数据,能否有的把握认为“A组”用户与“性别”有关?
(2)现从调查的女性用户中按分层抽样的方法选出5人组成一个小组,抽取的5人中再随机抽取3人赠送礼包,记这3人中有2人在“A组”的概率.
参考公式:,其中为样本容量.
参考数据:
59.(2023·山东·济南市历城第二中学模拟预测)2022年我国将举办第24届冬季奥林匹克运动会(The winter Olympics),为调查某城市居民对冰雪运动的了解情况,随机抽取了该市120名市民进行统计,得到如下列联表:
已知从参与调查的男性中随机选取1名,抽到“了解冰雪运动”的概率为.
(1)直接写出m,n,p,q的值;
(2)能否在犯错误概率不超过0.1的前提下认为该市居民了解冰雪运动与性别有关?请说明理由.
附:,,
经典题型九:误差分析
60.(2023·湖南岳阳·模拟预测)某种产品的广告支出费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:
根据表中的数据可得回归直线方程2.27x,R2≈0.96,则
①第三个样本点对应的残差1
②在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中
③销售量的多少有96%是由广告支出费用引起的
上述结论判断中有一个是错误的,其序号为 _____________
61.(2023·黑龙江·哈九中模拟预测(文))医学中判断男生的体重是否超标有一种简易方法,就是用一个人身高的厘米数减去105所得差值即为该人的标准体重.比如身高175cm的人,其标准体重为公斤,一个人实际体重超过了标准体重,我们就说该人体重超标了.已知某班共有30名男生,从这30名男生中随机选取6名,其身高和体重的数据如表所示:
(1)从编号为1,2,3,4,5的这5人中任选2人,求恰有1人体重超标的概率;
(2)依据上述表格信息,用最小二乘法求出了体重y对身高x的线性回归方程,但在用回归方程预报其他同学的体重时,预报值与实际值吻合不好,需要对上述数据进行残差分析.按经验,对残差在区间之外的同学要重新采集数据.问上述随机抽取的编号为3,4,5,6的四人中,有哪几位同学要重新采集数据?
62.(2023·重庆市涪陵高级中学校模拟预测)为响应党中央“扶贫攻坚”的号召,某单位指导一贫困村通过种植紫甘薯来提高经济收入.紫甘薯对环境温度要求较高,根据以往的经验,随着温度的升高,其死亡株数成增长的趋势.下表给出了2021年种植的一批试验紫甘薯在温度升高时6组死亡的株数.
经计算,,,,,
,,,其中,分别为试验数据中的温度和死亡株数,.
(1)若用一元线性回归模型,求关于的经验回归方程;
(2)若用非线性回归模型求得关于的非线性经验回归方程,且相关指数为.
(ⅰ)试与(1)中的回归模型相比,用说明哪种模型的拟合效果更好;
(ii)用拟合效果好的模型预测温度为35℃时该批紫甘薯的死亡株数(结果取整数).
附:对于一组数据其回归直线的斜率和截距的最小二乘估计分别为:,;相关指数为:.
63.(2023·四川省内江市第六中学模拟预测(文))【阅读材料】
2022年4月16日9时56分,神舟十三号载人飞船返回舱在东风着陆场成功着陆,航天员翟志刚、王亚平、叶光富身体状态良好,神舟十三号载人飞行任务取得圆满成功,标志着空间站关键技术验证阶段任务圆满完成,中国空间站即将进入建造阶段.某公司负责生产的A型材料是神舟十三号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造,根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:
当时,建立了y与x的两个回归模型:
模型①:;模型②:;
当时,确定y与x满足的线性回归直线方程为.
根据以上阅读材料,解答以下问题:
(1)根据下列表格中的数据,比较当时模型①,②的相关指数的大小,并选择拟合效果更好的模型.
附:相关指数的计算公式为:,
(2)当应用改造的投入为20亿元时,以回归直线方程为预测依据,计算公司的收益约为多少.
附:①若最小二乘法求得回归直线方程为,则;
②
③当时,,.
1.(2023·北京·高考真题)在北京冬奥会上,国家速滑馆“冰丝带”使用高效环保的二氧化碳跨临界直冷制冰技术,为实现绿色冬奥作出了贡献.如图描述了一定条件下二氧化碳所处的状态与T和的关系,其中T表示温度,单位是K;P表示压强,单位是.下列结论中正确的是( )
A.当,时,二氧化碳处于液态
B.当,时,二氧化碳处于气态
C.当,时,二氧化碳处于超临界状态
D.当,时,二氧化碳处于超临界状态
2.(2023·全国·高考真题(理))某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则( )
A.讲座前问卷答题的正确率的中位数小于
B.讲座后问卷答题的正确率的平均数大于
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
3.(2023·天津·高考真题)为研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:)的分组区间为,将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,右图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.8B.12C.16D.18
4.(2023·天津·高考真题)从某网络平台推荐的影视作品中抽取部,统计其评分数据,将所得个评分数据分为组:、、、,并整理得到如下的频率分布直方图,则评分在区间内的影视作品数量是( )
A.B.C.D.
5.(2023·全国·高考真题(文))为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
6.(多选题)(2023·全国·高考真题)下列统计量中,能度量样本的离散程度的是( )
A.样本的标准差B.样本的中位数
C.样本的极差D.样本的平均数
7.(多选题)(2023·全国·高考真题)有一组样本数据,,…,,由这组数据得到新样本数据,,…,,其中(为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
8.(2023·北京·高考真题)在校运动会上,只有甲、乙、丙三名同学参加铅球比赛,比赛成绩达到以上(含)的同学将获得优秀奖.为预测获得优秀奖的人数及冠军得主,收集了甲、乙、丙以往的比赛成绩,并整理得到如下数据(单位:m):
甲:9.80,9.70,9.55,9.54,9.48,9.42,9.40,9.35,9.30,9.25;
乙:9.78,9.56,9.51,9.36,9.32,9.23;
丙:9.85,9.65,9.20,9.16.
假设用频率估计概率,且甲、乙、丙的比赛成绩相互独立.
(1)估计甲在校运动会铅球比赛中获得优秀奖的概率;
(2)设X是甲、乙、丙在校运动会铅球比赛中获得优秀奖的总人数,估计X的数学期望E(X);
(3)在校运动会铅球比赛中,甲、乙、丙谁获得冠军的概率估计值最大?(结论不要求证明)
9.(2023·全国·高考真题)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
(2)估计该地区一位这种疾病患者的年龄位于区间的概率;
(3)已知该地区这种疾病的患病率为,该地区年龄位于区间的人口占该地区总人口的.从该地区中任选一人,若此人的年龄位于区间,求此人患这种疾病的概率.(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001).
10.(2023·全国·高考真题(文))甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:,
11.(2023·全国·高考真题(文))某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
12.(2023·全国·高考真题(文))甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
13.(2023·全国·高考真题(理))某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为和.
(1)求,,,;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
经典题型一:随机抽样、分层抽样
1.答案:A
【解析】从第5行第6列开始向又读取数据,
第一个数为253,第二个数是313,第三个数是457,
下一个数是860,不符合要求,下一个数是736,不符合要求,下一个是253,重复,
第四个是007,第五个是328,第六个是623.
故选:A.
2.答案:D
【解析】依题意,总体是36个篮球,样本是4个篮球,样本容量是4,选项A,B,C都正确;
甲箱抽3个,每个球被抽到的概率为,乙箱抽1个,每个球被抽到的概率为,则每个篮球被抽到的可能性相同,D不正确.
故选:D
3.答案:D
【解析】由题意得:样本中女生人数为.
故选:D
4.答案:D
【解析】由分层抽样原则可知:高三年级应抽取人.
故选:D.
5.答案:C
【解析】在延庆冬奥村投放的问卷数量是份.
故选:C.
6.答案:
【解析】第二次抽取时,余下的每个个体被抽取到的概率为,则,
即,则在整个抽样过程中,
每个个体被抽取到的概率为.
故答案为:.
7.答案:20
【解析】由题意得从部门抽检人数为(人),
故答案为:20
经典题型二:频率分布直方图、条形统计图、折线统计图、扇形统计图
8.答案:B
【解析】设样本中女生有人,则男生有人,
设女生身高频率分布直方图中的组距为
由频率分布直方图的性质可得,
所以,
所以女生身高频率分布直方图中层次频率为20%,层次频率为30%,层次频率为25%,层次频率为15%,层次频率为10%
所以样本中层次的女生人数为,男生人数为,由于的取值未知,所以无法比较层次中男,女生人数,A错误;
层次女生在女生样本数中频率为15%,所以在整个样本中频率为,
层次男生在男生样本数中频率为15%,所以在整个样本中频率为,
由于的取值未知,所以无法比较层次的女生和层次的男生在整个样本中频率,C错误;
样本中层次的学生数为,
样本中层次的学生数为,
由于的取值未知,所以无法比较样本中层次的学生数和层次的学生数的大小,D错,
女生中,两个层次的频率之和为50%,所以女生的样本身高中位数为,层次的分界点,而男生,两个层次的频率之和为35%,,,两个层次的频率之和为65%,显然中位数落在C层次内,所以样本中男生身高的中位数比女生身高的中位数大,B正确;
故选:B.
9.答案:B
【解析】从图(1)的柱形图可得2019年1~4月份快递业务量3月份最高,2月份最低,
3月份比2月份高4397-2411=1986,差值接近2000万件,故A正确.
从1~4月份来看,业务量与业务收入有波动,结合图(1)(2)中的柱形图可得业务量与业务收入在2月份和4月份均下降,故B错误.
从两图中柱状图可得业务量与业务收入变化高度一致,但业务量2月份同比增长,而业务收入2月份同比增长,因此增量与增长速度并不完全一致,故C正确.
从图(1)中可得2019年1~4月份快递业务量同比增长率均超过50%,在3月份最高,这的确和春节后网购迎来喷涨有关,故D正确.
故选:B.
10.答案:D
【解析】对A,从图中可以看出2022年1月全国居民消费价格的同比增长率为,
所以2022年1月全国居民消费价格有所上升,故A错误;
对B,由图2022年5月全国居民消费价格环比增长率为,
所以2022年5月全国居民消费价格有所下降,故B错误;
对C,将C选项中的数据由小到大排列得,
,
因为,则同比增长率的40%分位数为第6个数,故C错误;
对D,环比增长率的平均数为
,故D正确.
故选:D
经典题型三:百分位数
11.答案:B
【解析】由题意,这组数从小到大排列顺序为:1,2,3,4,5,且,
可得这组数据的分位数为从小到大排列的第3个数和第4个数的平均数为.
故选:B.
12.答案:C
【解析】从2,3,4,5,6,7,8,9中随机取两个数有种,一个数比大,一个数比小的不同结果有,
于是得,整理得:,解得或,
当时,数据中的分位数是第3个数,则,解得,所有选项都不满足;
当时,数据中的分位数是第6个数,则,解得,选项A,B,D不满足,C满足.
故选:C
13.答案:C
【解析】8名学生的成绩从小到大排列为:63,68,76,77,82,88,92,93,
因为,
所以75%分位数为第6个数和第7个数的平均数,即(分),
故选:C
14.答案:B
【解析】某市月日至日的日均值,从小到大依次为,
又,所以第百分位数为.
故选:B.
15.答案:C
【解析】这10个数按从小到大顺序排列为:28,29,32,41,42,45,48,55,56,59,
,第8个数是55,第9个数是56,
因此第80百分位数为.
故选:C.
经典题型四:样本的数字特征
16.答案:C
【解析】由题意,这组数据中7和9都出现3次,其余数出现次数没超过3次,
故众数为7和9,A正确;
计算平均数为 ,故B正确;
将10次射击成绩从小到大排列为:2,4,7, 7, 7,8,8,9,9,9,
则中位数为 ,故C错误;
方差为,
故D正确,
故选:C
17.答案:D
【解析】去掉最大值与最小值这组数的平均值大小不确定,中位数不变,众数大小不确定,
根据方差的定义,去掉最高分,最低分后,剩余四个数据的波动性小于原来六个数据的波动性,故方差一定会变小.
故选:D
18.答案:C
【解析】0,0,0,0,4,4,4,4,4,10,满足甲地条件,所以不符合标志
0,0,0,0,0,0,0,0,0,10,满足乙地条件,所以不符合标志
丙地,若存在某一天新增加疑似病例超过7,则方差为
,与总体方差为3矛盾,故假设不成立,所以C符合标志
3,3,3,3,3,3,3,3,3,10,满足丁地条件,所以不符合标志
故选:C
19.答案:C
【解析】由频率分布直方图,进行数据分析可得:
.
.
所以满意度评分中位数.
.
所以满意度评分平均数.
故选:C
20.答案:B
【解析】由题意可知,平均数约为;
因为前2组的频率和为,前3组的频率和为,
所以中位数在[85,90)内,设中位数为,则,解得.
所以估计这部分人的测试成绩的平均数和中位数分别是86.75,86.67.
故选:B.
21.答案:D
【解析】
,
故选:D
22.答案:C
【解析】因为一组数据的平均数是3,方差是2,
所以,,
所以,,
所以的平均数为
,
所以的方差为
,
故选:C
23.答案:C
【解析】设这个班有n个同学,分数分别是,,,…,,
第i个同学的成绩没录入,
第一次计算时,总分是,
方差;
第二次计算时,,
方差,
故.
故选:C.
24.【解析】(1)
(2)日用水量小于的概率为;
(3)该家庭未使用节水龙头50天的日用水量的平均值为:
该家庭使用节水龙头50天的日用水量的平均值为:
估计使用节水龙头后,一年可节省水.
25.【解析】(1)由频率分布直方图,可得,
则①
因为居民收入数据的第60百分位数为8.1,
所以,
则②
将①与②联立,解得.
所以平均值为.
(2)根据题意,设事件A,B,C分别为甲、乙、丙在[7.5,8.5)内,则
.
①“抽取3人中有2人在[7.5,8.5)内”,且与与互斥,根据概率的加法公式和事件独立性定义,得
.
②“抽取3人中有3人在[7.5,8.5)内”,由事件独立性定义,得
.
所以抽取的3人中至少有两人去年可支配收入在[7.5,8.5)内的概率:
.
26.【解析】(1)由频率分布直方图,
第四个矩形的高是.
(2)由频率分布直方图可知,众数为125,
设中位数估计值为,前两个矩形的面积之和为,前三个矩形的面积之和为,所以,,
则,解得,故中位数约为126.667(填126.7或126.67都对)
平均分约为
27.【解析】(1)设事件为“该生物理成绩等级为的情况下,化学成绩等级为”,
样本中物理成绩等级为的人数为,在该群体中化学成绩等级为的人数为110,所以频率为,由样本估计总体可得,
故该生物理成绩等级为,估计该生化学成绩等级为的概率为.
(2)从该区高三年级同时选考物理、化学的学生随机选取一名,物理、化学成绩等级均为的概率估计为.
由题意随机变量的取值范围是
则的分布列:
(3)不正确;
举例:,排名前的成绩均为分,方差为,排名后的成绩均为分,方差为,显然,所以,,故同时大于和.
28.【解析】(1)由表格数据可知:乘客花费时间小于的共有人,
所求概率.
(2)设中位数为,
由表格数据知:花费时间小于分钟的频率为,花费时间小于分钟的频率为,;
,解得:,
即估计所有在沙坪坝站上车的乘客花费时间的中位数为.
(3)样本数据中的平均数;
方差.
经典题型五:变量间的相关关系
29.答案:D
【解析】由相关系数的绝对值越大,变量间的线性相关性越强知:各选项中的绝对值最大.
故选:D
30.答案:D
【解析】当地第三季度的医院心脑血管疾病的人数和便利店购买冷饮的人数的相关系数很高,但相关关系是一种非确定性关系,相关关系不等于因果关系,丁的意见最可能成立.
故选:D.
31.答案:C
【解析】由图可知:所对应的图中的散点呈现正相关 ,而且对应的相关性比对应的相关性要强,故,所对应的图中的散点呈现负相关,且根据散点的分布情况可知,因此,
故选:C
32.【解析】(1)由已知得样本平均数 ,
从而该地区这种野生动物数量的估计值为.
(2)由,,,
可得样本 的相关系数为
.
33.答案:C
【解析】依题意:,
所以正相关,负相关,
,所以的线性相关性较强.
故选:C
34.答案:B
【解析】由已知,乙的相关系数的绝对值为,是四人中最大的,因此乙同学有更强的相关性.
故选:B.
35.答案:
【解析】对于①,羊只数量与草地植被指数成负相关关系,不是减函数关系,所以①错误;
对于②,用这五组数据得到的两变量间的相关系数为,因为第一年数据是离群值,去掉后得到的相关系数为,其相关性更强,所以,故②正确;
对于③,利用回归直线方程,不能准确得到当羊只数量为万只时的草地植被指数,得到的只是预测值,故③错误.
综上所述,正确的判断序号是②,共个,
故答案为:.
经典题型六:线性回归
36.答案:D
【解析】由题可知,假设甲输入的为,为,所以,,所以,,改为正确数据时得,,所以样本点的中心为,将其代入回归直线方程,得.
故选:D
37.答案:D
【解析】由于,
∴,.
将(3,10)代入,
∴,解得:.
故选:D.
38.答案:D
【解析】由表格得,,
则,
又时,,则,联立解得,
故选:D
39.答案:D
【解析】,,
回归直线必过样本点中心,
代入回归方程,解得:.
故选:D
40.【解析】(1)由题意得 ,,
则,
所以关于的线性回归方程为.
(2)2013年至2019年这7年该省医疗卫生机构数的估计值与实际值(单位:万个)如下表所示:
则2013年至2020年这8年中“吻合”年有2013年,2015年,2018年,2020年,共4年,
故的所有可能取值为 0,1,2,3,
且 ,,
故的分布列为
所以.
41.【解析】(1)由已知得:,,
,
,
,
因为
说明与的线性相关关系很强,可用线性回归模型拟合与的关系
(2),
,
则关于的线性回归方程为
当时,
预测该专营店在时的营业收入为19万元.
42.【解析】(1)(1)
,则
当,则
所以当投入15千万元,收益大约为35.12亿元.
(2)① 设“某位代表去甲城市参加活动”为事件,则,
所以公司派出的代表去甲城市参加活动的概率为,
② 设“6位代表中去甲城市参加活动的人数少于去乙城市参加活动的人数”为事件,
.
43.【解析】(1)由题意得,,
又,∴
∵,∴,
∴,所以,
故得y关于x的线性回归方程为.
(2)①将代入,
估计该省要发放补贴的总金额为(万元)
②设小浙、小江两人中选择考研的的人数为X,则X的所有可能值为0,1,2;
,
,
,
∴,
∴,解得,
又,∴,∴,
故p的取值范围为.
经典题型七:非线性回归
44.【解析】(1)由散点图可以判断,适宜作为卵数关于温度的回归方程类型.
对两边取自然对数,得,
令,,,则,
由数据得,
,,
所以,,
所以关于的线性回归方程为,
则关于的回归方程为;
(2)由得,
因为,令得,解得;
所以在上单调递增,在上单调递减,
所以有唯一的极大值为,也是最大值;
所以当时,.
45.【解析】(1)由得,令,得,
由表II数据可得:
,.
所以回归方程为:.
(2)在时的残差:.
46.【解析】(1)由散点图可知,更适合作为经济收入y关于月份x的回归方程类型.
(2)的两边取自然对数,得.
因为,,,,
所以,
,所以,
所以经济收入y关于月份x的回归方程为.
(3)当时,.
预测该公司7月份的经济收入约为239.85万元.
47.【解析】(1)根据散点图,更适宜作为幼苗高度y关于时间x的回归方程类型;
(2)令,则构造新的成对数据,如下表所示:
容易计算,,.通过上表计算可得:
因此
∵回归直线过点,∴,
故y关于的回归直线方程为
从而可得:y关于x的回归方程为
令,则,所以预测第196天幼苗的高度大约为29cm.
48.【解析】(1)根据该地区新能源汽车保有量的增长趋势知,应选择的函数模型是
令,则,
因为,,
所以,
.
所以.
(2)设传统能源汽车保有量每年下降的百分比为r,
依题意得,,解得,
设从2021年底起经过x年后的传统能源汽车保有量为y千辆,
则有,
设从2021年底起经过x年后新能源汽车的数量将超过传统能源汽车,则有
.
所以,
解得
故从2021年底起经过7年后,即2028年底新能源汽车的数量将超过传统能源汽车.
49.答案:
【解析】,即,
∴,.
故答案为:
50.答案:
【解析】令,则回归方程必过样本中心点,又,则,解得.
故答案为:.
51.答案:①②③
【解析】①正确,因为越大,说明“和有关系”的把握性就越大;
②正确,因为,那么 ,即 ,解得,解得: 所以正确;
③在回归直线上,所以 ,解得: ,所以正确,
故答案为:①②③.
经典题型八:独立性检验
52.答案:95%
【解析】因为,,所以有95%的把握认为是否选择物理与数学成绩有关.
故答案为:95%
53.答案:9
【解析】由题意知,
则,
解得或.
因为且,,所以.
故答案为:9.
54.答案:
【解析】,故认为两个变量有关系犯错误的概率不超过.
故答案为:.
55.答案:
【解析】因为,结合临界值表可得判断出错的可能性是.
故答案为:.
56.【解析】(1)样本中周平均阅读时间少于小时的人数占样本总数的,
样本中周平均阅读时间少于小时的人数为人,
则其中年龄在岁以上(含岁)的人数为人;
岁以上(含岁)的样本占样本总数的,
岁以上(含岁)的人数为人,
则其中周平均阅读时间不少于小时的人数为人;
岁以下周平均阅读时间不少于小时的人数为人;
则补充列联表如下:
假设:周平均阅读时间长短与年龄无关联,
,
依据小概率值的独立性检验分析判断不成立,即周平均阅读时间长短与年龄有关联.
二者之间的相互影响为:随着年龄的增长,周平均阅读时间也会有所增长.
(2)由题意可知:抽取的人中,周平均阅读时间少于小时的有人,不少于小时的有人;
则所有可能的取值为,
;;;;
的分布列为:
数学期望.
57.【解析】(1)由表格数据得:,
没有的把握认为密切接触者感染猴痘病毒与未接种天花疫苗有关.
(2)由频率估计概率,该地区每名密切接触者感染猴痘病毒的概率,
用表示抽取的人中感染猴痘病毒的人数,
,
即至多有人感染猴痘病毒的概率为.
58.【解析】(1)调查结果列联表如下:
由列联表可得
;
有的把握认为“A组”用户与“性别”有关;
(2)由题意得,所抽取的5位女性中,
“A组”有人,记为1,2,3,
“B组”有人;记为4,5.
则抽取的5人中再随机抽取3人的基本事件空间为:,,,,,,,,,,共10种,
满足3人中有2人在“A组”的事件有:共6种
所以3人中有2人在“A组”的概率为.
59.【解析】(1)因为从参与调查的男性中随机选取1名,抽到“了解冰雪运动”的概率为,
所以,
所以,,.
(2)能;理由如下:
由题意知,,
所以能在犯错误概率不超过0.1的前提下认为该市居民了解冰雪运动与性别有关.
经典题型九:误差分析
60.答案:②
【解析】由表可知,
4,8.
∴样本中心点为(4,8),
将其代入线性回归方程2.27x,有8=2.27×4,解得1.08,
故线性回归方程为2.27x﹣1.08.
当x=4时,2.27×4﹣1.08=8,所以残差y7﹣8=﹣1,即选项正确;
当x=2.2时,3.914,3.8﹣3.914=﹣0.114,
当x=2.6时,4.822,5.4﹣4.822=0.578,
当x=5.3时,10.951,11.6﹣10.951=0.649,
当x=5.9时,12.313,12.2﹣12.313=﹣0.113.
可知在该回归模型对应的残差图中,残差点比较均匀地落在水平的带状区域中,故错误;
∵R2≈0.96,∴销售量的多少有96%是由广告支出费用引起的,故正确;
故答案为:②.
61.【解析】(1)由表可知:
1号同学的标准体重为;
2号同学的标准体重为;
3号同学的标准体重为;
4号同学的标准体重为;
5号同学的标准体重为;
故3号、4号同学体重超标
所有基本事件为(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)共10个
恰有1人体重超标包含基本事件为(1,3),(1,4),(2,3),(2,4),(3,5),(4,5)共6个,
恰有1人体重超标记为A,则;
(2)因为,
,
回归直线方程必过样本中心,得,即,
所以回归直线方程为,
残差分析:
,
,
,
,
故3号,4号和6号同学需要重新采集数据.
62.【解析】(1)由题意可知,
,
∴关于的线性回归方程是;
(2)①用指数回归模型拟合与的关系,相关指数,
线性回归模型拟合与的关系,相关指数,
则,
∴用比拟合效果更好;
②中,令,
则,
故预测温度为时该紫甘薯死亡株数约为192株.
63.【解析】(1)对于模型①,
因为,故对应的,
故对应的相关指数,
对于模型②,同理对应的相关指数,
故模型②拟合效果更好.
(2)当时,
后五组的,
由最小二乘法可得,
所以当时,确定y与x满足的线性回归直线方程为
故当投入20亿元时,预测公司的收益约为:(亿元).
1.答案:D
【解析】当,时,,此时二氧化碳处于固态,故A错误.
当,时,,此时二氧化碳处于液态,故B错误.
当,时,与4非常接近,故此时二氧化碳处于固态,对应的是非超临界状态,故C错误.
当,时,因, 故此时二氧化碳处于超临界状态,故D正确.
故选:D
2.答案:B
【解析】讲座前中位数为,所以错;
讲座后问卷答题的正确率只有一个是个,剩下全部大于等于,所以讲座后问卷答题的正确率的平均数大于,所以B对;
讲座前问卷答题的正确率更加分散,所以讲座前问卷答题的正确率的标准差大于讲座后正确率的标准差,所以C错;
讲座后问卷答题的正确率的极差为,
讲座前问卷答题的正确率的极差为,所以错.
故选:B.
3.答案:B
【解析】志愿者的总人数为=50,
所以第三组人数为50×0.36=18,
有疗效的人数为18-6=12.
故选:B.
4.答案:D
【解析】由频率分布直方图可知,评分在区间内的影视作品数量为.
故选:D.
5.答案:C
【解析】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.
该地农户家庭年收入低于4.5万元的农户的比率估计值为,故A正确;
该地农户家庭年收入不低于10.5万元的农户比率估计值为,故B正确;
该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为,故D正确;
该地农户家庭年收入的平均值的估计值为(万元),超过6.5万元,故C错误.
综上,给出结论中不正确的是C.
故选:C.
6.答案:AC
【解析】由标准差的定义可知,标准差考查的是数据的离散程度;
由中位数的定义可知,中位数考查的是数据的集中趋势;
由极差的定义可知,极差考查的是数据的离散程度;
由平均数的定义可知,平均数考查的是数据的集中趋势;
故选:AC.
7.答案:CD
【解析】A:且,故平均数不相同,错误;
B:若第一组中位数为,则第二组的中位数为,显然不相同,错误;
C:,故方差相同,正确;
D:由极差的定义知:若第一组的极差为,则第二组的极差为,故极差相同,正确;
故选:CD
8.【解析】(1)由频率估计概率可得
甲获得优秀的概率为0.4,乙获得优秀的概率为0.5,丙获得优秀的概率为0.5,
故答案为0.4
(2)设甲获得优秀为事件A1,乙获得优秀为事件A2,丙获得优秀为事件A3
,
,
,
.
∴X的分布列为
∴
(3)丙夺冠概率估计值最大.
因为铅球比赛无论比赛几次就取最高成绩.比赛一次,丙获得9.85的概率为,甲获得9.80的概率为,乙获得9.78的概率为.并且丙的最高成绩是所有成绩中最高的,比赛次数越多,对丙越有利.
9.【解析】(1)平均年龄
(岁).
(2)设{一人患这种疾病的年龄在区间},所以
.
(3)设“任选一人年龄位于区间[40,50)”,“从该地区中任选一人患这种疾病”,
则由已知得:
,
则由条件概率公式可得
从该地区中任选一人,若此人的年龄位于区间,此人患这种疾病的概率为.
10.【解析】(1)根据表中数据,A共有班次260次,准点班次有240次,
设A家公司长途客车准点事件为M,
则;
B共有班次240次,准点班次有210次,
设B家公司长途客车准点事件为N,
则.
A家公司长途客车准点的概率为;
B家公司长途客车准点的概率为.
(2)列联表
=,
根据临界值表可知,有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
11.【解析】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为
(2)
则
(3)设该林区这种树木的总材积量的估计值为,
又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.
则该林区这种树木的总材积量估计为
12.【解析】(1)甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.
(2),
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
13.【解析】(1),
,
,
.
(2)依题意,,,
,所以新设备生产产品的该项指标的均值较旧设备有显著提高.
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
总计
总计
0.5
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
日用水量
频数
1
3
2
4
9
26
5
日用水量
频数
1
5
13
10
16
5
物理成绩等级
化学成绩等级
人数(名)
110
53
2
55
70
15
3
12
10
时间
人数(人)
甲
乙
丙
丁
年份
1
2
3
4
5
羊只数量/万只
1.4
0.9
0.75
0.6
0.3
草地植被指数
1.1
4.3
15.6
31.3
49.7
x
1
2
3
4
5
y
1.7
3.0
4.4
6.0
7.4
月份代码
1
2
3
4
5
碳酸锂价格
0.5
1
1.2
1.5
年份
2013
2014
2015
2016
2017
2018
2019
年份代号
1
2
3
4
5
6
7
医疗卫生机构数
4.2
4.3
4.5
4.7
4.8
4.8
4.9
月份
3
4
5
6
7
营业收入
10
12
11
12
20
投入x(千万元)
5
7
8
10
11
13
收益y(千万元)
11
15
16
22
25
31
大学
A大学
B大学
C大学
D大学
2022年毕业人数x(千人)
7
6
5
4
2022年考研人数y(千人)
0.5
0.4
0.3
0.2
平均温度x/℃
21
23
25
27
29
31
33
平均产卵数y/个
7
11
21
24
66
115
325
1.9
2.4
3.0
3.2
4.2
4.7
5.8
参考数据
5215
17713
717
81.3
3.6
研发投入(亿元)
20
22
25
27
29
31
35
年利润(亿元)
7
11
21
24
65
114
325
189
567
162
78106
3040
月份x
1
2
3
4
5
6
收入y
6
11
23
37
72
124
3.5
45.5
3.34
17.5
393.5
10.63
239.85
第x天
1
4
9
16
25
36
49
高度y/cm
0
4
7
9
11
12
13
140
28
56
283
年份(年)
2014
2015
2016
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
6
7
8
保有量y/千辆
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
选物理
不选物理
数学成绩优异
20
7
数学成绩一般
10
13
合计
a
15
50
合计
20
45
65
0.10
0.05
0.010
2.706
3.841
6.635
周平均阅读时间少于小时
周平均阅读时间不少于小时
合计
岁以下
岁以上(含岁)
合计
感染猴痘病毒
未感染猴痘病毒
未接种天花疫苗
接种天花疫苗
0.50
0.40
0.25
0.05
0.025
0.10
0.455
0.708
1.323
3.841
5.024
6.635
男
女
合计
了解冰雪运动
m
p
70
不了解冰雪运动
n
q
50
合计
60
60
120
0.100
0.050
0.010
k
2.706
3.841
6.635
广告支出费用x
2.2
2.6
4.0
5.3
5.9
销售量y
3.8
5.4
7.0
11.6
12.2
编号
1
2
3
4
5
6
身高(cm)x
165
171
160
173
178
167
体重(kg)y
60
63
62
70
71
58
温度/℃
21
23
24
27
29
30
死亡数/株
6
11
20
27
57
77
序号
1
2
3
4
5
6
7
8
9
10
11
12
x
2
3
4
6
8
10
13
21
22
23
24
25
y
15
22
27
40
48
54
60
68.5
68
67.5
66
65
回归模型
模型①
模型②
回归方程
79.13
20.2
准点班次数
未准点班次数
A
240
20
B
210
30
0.100
0.050
0.010
2.706
3.841
6.635
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
0.050
0.010
0.001
k
3.841
6.635
10.828
旧设备
9.8
10.3
10.0
10.2
9.9
9.8
10.0
10.1
10.2
9.7
新设备
10.1
10.4
10.1
10.0
10.1
10.3
10.6
10.5
10.4
10.5
0
1
2
年份
2013
2014
2015
2016
2017
2018
2019
实际值
4.2
4.3
4.5
4.7
4.8
4.8
4.9
估计值
4.24
4.36
4.48
4.6
4.72
4.84
4.96
0
1
2
3
x
1
4
9
16
25
36
49
1
2
3
4
5
6
7
y
0
4
7
9
11
12
13
周平均阅读时间少于小时
周平均阅读时间不少于小时
合计
岁以下
岁以上(含岁)
合计
A组
B组
合计
男性
18
32
50
女性
30
20
50
合计
48
52
100
X
0
1
2
3
P
准点班次数
未准点班次数
合计
A
240
20
260
B
210
30
240
合计
450
50
500
考向43 统计与统计案例
经典题型一:随机抽样、分层抽样
经典题型二:频率分布直方图、条形统计图、折线统计图、扇形统计图
经典题型三:百分位数
经典题型四:样本的数字特征
经典题型五:变量间的相关关系
经典题型六:线性回归
经典题型七:非线性回归
经典题型八:独立性检验
经典题型九:误差分析
(2023·全国·高考真题(文))某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
【解析】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为
(2)
则
(3)设该林区这种树木的总材积量的估计值为,
又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.
则该林区这种树木的总材积量估计为
(2023·全国·高考真题)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
(2)估计该地区一位这种疾病患者的年龄位于区间的概率;
(3)已知该地区这种疾病的患病率为,该地区年龄位于区间的人口占该地区总人口的.从该地区中任选一人,若此人的年龄位于区间,求此人患这种疾病的概率.(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001).
【解析】(1)平均年龄
(岁).
(2)设{一人患这种疾病的年龄在区间},所以
.
(3)设“任选一人年龄位于区间[40,50)”,“从该地区中任选一人患这种疾病”,
则由已知得:
,
则由条件概率公式可得
从该地区中任选一人,若此人的年龄位于区间,此人患这种疾病的概率为.
知识点一、抽样
1、抽样调查
(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.
(2)个体:构成总体的每一个元素叫做个体.
(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量.
2、简单随机抽样
(1)定义
一般地,设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
(2)两种常用的简单随机抽样方法
①抽签法:一般地,抽签法就是把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到一个容量为的样本.
②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.随机数表由数字,,,…,组成,并且每个数字在表中各个位置出现的机会都是一样的.
注意:为了保证所选数字的随机性,需在查看随机数表前就指出开始数字的横、纵位置.
(3)抽签法与随机数法的适用情况
抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况,但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便.
(4)简单随机抽样的特征
①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平.
只有四个特点都满足的抽样才是简单随机抽样.
3、分层抽样
(1)定义
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
分层抽样适用于已知总体是由差异明显的几部分组成的.
(2)分层抽样问题类型及解题思路
①求某层应抽个体数量:按该层所占总体的比例计算.
②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.
③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比=eq \f(样本容量,总体容量)=eq \f(各层样本数量,各层个体数量)”
注意:分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取()个个体(其中是层数,是抽取的样本容量,是第层中个体的个数,是总体容量).
知识点二、用样本估计总体
1、频率分布直方图
(1)频率、频数、样本容量的计算方法
①eq \f(频率,组距)×组距=频率.
②eq \f(频数,样本容量)=频率,eq \f(频数,频率)=样本容量,样本容量×频率=频数.
③频率分布直方图中各个小方形的面积总和等于 .
2、频率分布直方图中数字特征的计算
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.设中位数为,利用左(右)侧矩形面积之和等于,即可求出.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有,其中为每个小长方形底边的中点,为每个小长方形的面积.
3、百分位数
(1)定义
一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
(3)四分位数
我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
4、样本的数字特征
(1)众数、中位数、平均数
①众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
②中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
③平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:.
5、标准差和方差
(1)定义
①标准差:标准差是样本数据到平均数的一种平均距离,一般用表示.假设样本数据是,表示这组数据的平均数,则标准差.
②方差:方差就是标准差的平方,即.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.
(2)数据特征
标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小.
(3)平均数、方差的性质
如果数据的平均数为,方差为,那么
①一组新数据的平均数为,方差是.
②一组新数据的平均数为,方差是.
③一组新数据的平均数为,方差是.
知识点三、变量间的相关关系
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2、散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3、相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
知识点四、线性回归
1、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
2、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
知识点五、非线性回归
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
1、建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
知识点六、独立性检验
1、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
2、等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.
(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.
3、独立性检验
(1)定义:利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
(2)公式:,其中为样本容量.
(3)独立性检验的具体步骤如下:
①计算随机变量的观测值,查下表确定临界值:
②如果,就推断“与有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”.
(2)两个分类变量和是否有关系的判断标准:
统计学研究表明:
当时,认为与无关;
当时,有的把握说与有关;
当时,有的把握说与有关;
当时,有的把握说与有关.
常见的非线性回归模型
(1)指数函数型(且,)
两边取自然对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(2)对数函数型
令,原方程变为,然后按线性回归模型求出,.
(3)幂函数型
两边取常用对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(4)二次函数型
令,原方程变为,然后按线性回归模型求出,.
(5)反比例函数型型
令,原方程变为,然后按线性回归模型求出,.
经典题型一:随机抽样、分层抽样
1.(2023·全国·高三专题练习)某工厂利用随机数表对生产的700个零件进行抽样测试,先将700个零件进行编号,001,002,……,699,700.从中抽取70个样本,下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是( )
3221183429 7864540732 5242064438 1223435677 3578905642
8442125331 3457860736 2530073286 2345788907 2368960804
3256780843 6789535577 3489948375 2253557832 4577892345
A.623B.328C.253D.007
答案:A
【解析】从第5行第6列开始向又读取数据,
第一个数为253,第二个数是313,第三个数是457,
下一个数是860,不符合要求,下一个数是736,不符合要求,下一个是253,重复,
第四个是007,第五个是328,第六个是623.
故选:A.
2.(2023·全国·高三专题练习)有甲、乙两箱篮球,其中甲箱27个,乙箱9个,现从这两箱篮球中随机抽取4个,甲箱抽3个,乙箱抽1个.下列说法不正确的是( )
A.总体是36个篮球B.样本是4个篮球
C.样本容量是4D.每个篮球被抽到的可能性不同
答案:D
【解析】依题意,总体是36个篮球,样本是4个篮球,样本容量是4,选项A,B,C都正确;
甲箱抽3个,每个球被抽到的概率为,乙箱抽1个,每个球被抽到的概率为,则每个篮球被抽到的可能性相同,D不正确.
故选:D
3.(2023·上海宝山·高三阶段练习)某个年级有男生180人,女生160人,用分层抽样的方法从该年级全体学生中抽取一个容量为68的样本,则此样本中女生人数为( )
A.40B.36C.34D.32
答案:D
【解析】由题意得:样本中女生人数为.
故选:D
4.(2023·江西·赣源中学高三阶段练习(文))年月日,搭载问天实验舱的长征五号遥三运载火箭,在我国文昌航天发射场成功发射,我国的航天事业又上了一个新的台阶.某校现有高一学生人,高二学生人,高三学生人,为了调查该校学生对我国航天事业的了解程度,现从三个年级中采用分层抽样的方式抽取人填写问卷调查,则高三年级有多少人被抽中( )
A.16B.18C.20D.24
答案:D
【解析】由分层抽样原则可知:高三年级应抽取人.
故选:D.
5.(2023·上海静安·二模)2022年2月4日至2月20日春节期间,第24届冬奥会在北京市和张家口市联合举行.共有个冬奥村供运动员和代表队官员入住,其中北京冬奥村的容量约为人,延庆冬奥村的容量约人,张家口冬奥村的容量约人.为了解各冬奥村服务质量,现共准备了份调查问卷,采用分层抽样的方法,则需在延庆冬奥村投放的问卷数量是( )
A.58份B.50份C.32份D.19份
答案:C
【解析】在延庆冬奥村投放的问卷数量是份.
故选:C.
6.(2023·全国·高三专题练习)利用简单随机抽样的方法,从个个体中抽取13个个体,若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的可能性为___________.
答案:
【解析】第二次抽取时,余下的每个个体被抽取到的概率为,则,
即,则在整个抽样过程中,
每个个体被抽取到的概率为.
故答案为:.
7.(2023·重庆南开中学高三阶段练习)某中学为了掌握学校员工身体状况,偶尔会采用抽检的方式来收集各部门员工的健康情况.为了让样本更具有代表性,学校对各部门采用分层抽样的方法进行抽检.已知该校部门、部门、部门分别有40、60、80人,各部门员工不存在交叉任职情况,若共抽检了90人,则部门抽检人数为______.
答案:20
【解析】由题意得从部门抽检人数为(人),
故答案为:20
经典题型二:频率分布直方图、条形统计图、折线统计图、扇形统计图
8.(2023·辽宁朝阳·高三阶段练习)某市教育局为得到高三年级学生身高的数据,对高三年级学生进行抽样调查,随机抽取了名学生,他们的身高都在,,,,五个层次内,分男、女生统计得到以下样本分布统计图,则( )
A.样本中层次的女生比相应层次的男生人数多
B.估计样本中男生身高的中位数比女生身高的中位数大
C.层次的女生和层次的男生在整个样本中频率相等
D.样本中层次的学生数和层次的学生数一样多
答案:B
【解析】设样本中女生有人,则男生有人,
设女生身高频率分布直方图中的组距为
由频率分布直方图的性质可得,
所以,
所以女生身高频率分布直方图中层次频率为20%,层次频率为30%,层次频率为25%,层次频率为15%,层次频率为10%
所以样本中层次的女生人数为,男生人数为,由于的取值未知,所以无法比较层次中男,女生人数,A错误;
层次女生在女生样本数中频率为15%,所以在整个样本中频率为,
层次男生在男生样本数中频率为15%,所以在整个样本中频率为,
由于的取值未知,所以无法比较层次的女生和层次的男生在整个样本中频率,C错误;
样本中层次的学生数为,
样本中层次的学生数为,
由于的取值未知,所以无法比较样本中层次的学生数和层次的学生数的大小,D错,
女生中,两个层次的频率之和为50%,所以女生的样本身高中位数为,层次的分界点,而男生,两个层次的频率之和为35%,,,两个层次的频率之和为65%,显然中位数落在C层次内,所以样本中男生身高的中位数比女生身高的中位数大,B正确;
故选:B.
9.(2023·黑龙江·佳木斯一中三模(理))如图1为某省2019年1~4月份快递业务量统计图,图2为该省2019年1~4月份快递业务收入统计图,对统计图理解不正确的是( )
A.2019年1~4月份快递业务量3月份最高,2月份最低,差值接近2000万件
B.从1~4月份来看,业务量与业务收入有波动,但整体保持高速增长
C.从两图中看,增量与增长速度并不完全一致,但业务量与业务收入变化高度一致
D.2019年1~4月份快递业务量同比增长率均超过50%,在3月份最高,和春节后网购迎来喷涨有关
答案:B
【解析】从图(1)的柱形图可得2019年1~4月份快递业务量3月份最高,2月份最低,
3月份比2月份高4397-2411=1986,差值接近2000万件,故A正确.
从1~4月份来看,业务量与业务收入有波动,结合图(1)(2)中的柱形图可得业务量与业务收入在2月份和4月份均下降,故B错误.
从两图中柱状图可得业务量与业务收入变化高度一致,但业务量2月份同比增长,而业务收入2月份同比增长,因此增量与增长速度并不完全一致,故C正确.
从图(1)中可得2019年1~4月份快递业务量同比增长率均超过50%,在3月份最高,这的确和春节后网购迎来喷涨有关,故D正确.
故选:B.
10.(2023·湖北孝感·高三阶段练习)2021年7月至2022年7月,我国居民消费价格保持平稳,居民消费价格涨跌幅如图所示,则( )
备注:同比增长率=,环比增长率=,
A.2022年1月全国居民消费价格比2021年1月全国居民消费价格有所下降
B.2022年5月全国居民消费价格比2022年4月全国居民消费价格有所上升
C.2021年7月至2022年7月全国居民消费价格同比增长率的40%分位数为1.0%
D.2021年10月至2022年7月全国居民消费价格环比增长率的平均数为0.25%
答案:D
【解析】对A,从图中可以看出2022年1月全国居民消费价格的同比增长率为,
所以2022年1月全国居民消费价格有所上升,故A错误;
对B,由图2022年5月全国居民消费价格环比增长率为,
所以2022年5月全国居民消费价格有所下降,故B错误;
对C,将C选项中的数据由小到大排列得,
,
因为,则同比增长率的40%分位数为第6个数,故C错误;
对D,环比增长率的平均数为
,故D正确.
故选:D
经典题型三:百分位数
11.(2023·福建省福州华侨中学高三阶段练习)某读书会有5名成员,寒假期间他们每个人阅读的节本数分别如下:3,5,4,2,1,则这组数据的分位数为( )
A.3B.3.5C.4D.4.5
答案:B
【解析】由题意,这组数从小到大排列顺序为:1,2,3,4,5,且,
可得这组数据的分位数为从小到大排列的第3个数和第4个数的平均数为.
故选:B.
12.(2023·山东潍坊·高三阶段练习)从2,3,4,5,6,7,8,9中随机取两个数,这两个数一个比大,一个比小的概率为,已知为上述数据中的分位数,则的取值可能为( )
A.50B.60C.70D.80
答案:C
【解析】从2,3,4,5,6,7,8,9中随机取两个数有种,一个数比大,一个数比小的不同结果有,
于是得,整理得:,解得或,
当时,数据中的分位数是第3个数,则,解得,所有选项都不满足;
当时,数据中的分位数是第6个数,则,解得,选项A,B,D不满足,C满足.
故选:C
13.(2023·安徽·高三开学考试)学校组织班级知识竞赛,某班的8名学生的成绩(单位:分)分别是: 68、63、77、76、82、 88、92、93,则这8名学生成绩的75%分位数是( )
A.88 分B.89 分C.90 分D.92 分
答案:C
【解析】8名学生的成绩从小到大排列为:63,68,76,77,82,88,92,93,
因为,
所以75%分位数为第6个数和第7个数的平均数,即(分),
故选:C
14.(2023·全国·高三专题练习)如图一所示,某市月日至日的日均值(单位:)变化的折线图,则该组数据第百分位数为( )
A.B.C.D.
答案:B
【解析】某市月日至日的日均值,从小到大依次为,
又,所以第百分位数为.
故选:B.
15.(2023·湖北武汉·高三开学考试)某校高三数学备课组老师的年龄(单位:岁)分别为:28,29,42,32,41,56,45.48,55,59,则这组数据的第80百分位数为( )
A.54.5B.55C.55.5D.56
答案:C
【解析】这10个数按从小到大顺序排列为:28,29,32,41,42,45,48,55,56,59,
,第8个数是55,第9个数是56,
因此第80百分位数为.
故选:C.
经典题型四:样本的数字特征
16.(2023·河南·郑州四中高三阶段练习(文))运动员甲10次射击成绩(单位:环)如下:7,8,9,7,4,8,9,9,7,2,则下列关于这组数据说法不正确的是( ).
A.众数为7和9B.平均数为7
C.中位数为7D.方差为
答案:C
【解析】由题意,这组数据中7和9都出现3次,其余数出现次数没超过3次,
故众数为7和9,A正确;
计算平均数为 ,故B正确;
将10次射击成绩从小到大排列为:2,4,7, 7, 7,8,8,9,9,9,
则中位数为 ,故C错误;
方差为,
故D正确,
故选:C
17.(2023·全国·高三专题练习)在2022北京冬奥会单板滑雪U型场地技巧比赛中,6名评委给选手打出了6个各不相同的原始分,经过“去掉其中一个最高分和一个最低分”处理后,得到4个有效分.则经处理后的4个有效分与6个原始分相比,一定会变小的数字特征是( )
A.平均数B.中位数C.众数D.方差
答案:D
【解析】去掉最大值与最小值这组数的平均值大小不确定,中位数不变,众数大小不确定,
根据方差的定义,去掉最高分,最低分后,剩余四个数据的波动性小于原来六个数据的波动性,故方差一定会变小.
故选:D
18.(2023·江苏·南京市天印高级中学模拟预测)在发生某公共卫生事件期间,我国有关机构规定:该事件在一段时间没有发生规模群体感染的标志为“连续天每天新增加疑似病例不超过人”.根据过去天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )
A.甲地总体均值为,中位数为
B.乙地总体平均数为,总体方差大于;
C.丙地总体均值为,总体方差为
D.丁地中位数为,众数为
答案:C
【解析】0,0,0,0,4,4,4,4,4,10,满足甲地条件,所以不符合标志
0,0,0,0,0,0,0,0,0,10,满足乙地条件,所以不符合标志
丙地,若存在某一天新增加疑似病例超过7,则方差为
,与总体方差为3矛盾,故假设不成立,所以C符合标志
3,3,3,3,3,3,3,3,3,10,满足丁地条件,所以不符合标志
故选:C
19.(2023·浙江·高三开学考试)某学校食堂为了解学生对食堂的满意度,从高一、高二两个年级分别随机调查了100名学生,根据学生对食堂的满意度评分,分别得到高一和高二学生满意度评分的频率分布直方图.
若高一和高二学生的满意度评分中位数分别为,平均数分别为,则( )
A.B.
C.D.
答案:C
【解析】由频率分布直方图,进行数据分析可得:
.
.
所以满意度评分中位数.
.
所以满意度评分平均数.
故选:C
20.(2023·全国·高三专题练习)为了进一步推动全市学习型党组织、学习型社会建设,某市组织开展“学习强国”知识测试,从全体测试人员中随机抽取了一部分人的测试成绩,得到频率分布直方图如图所示.假设同组中的每个数据都用该组区间的中点值代替,则估计这部分人的测试成绩的平均数和中位数分别是( )
A.85,87.5B.86.75,86.67C.86.75,85D.85,85
答案:B
【解析】由题意可知,平均数约为;
因为前2组的频率和为,前3组的频率和为,
所以中位数在[85,90)内,设中位数为,则,解得.
所以估计这部分人的测试成绩的平均数和中位数分别是86.75,86.67.
故选:B.
21.(2023·全国·高三阶段练习(理))某组样本数据的平方和,平均数,则该组数据的方差( )
A.1B.C.2D.
答案:D
【解析】
,
故选:D
22.(2023·广东佛山·高三阶段练习)已知一组数据的平均数是3,方差是2,则由这5个数据组成的新的一组数据的方差是( )
A.4B.6C.D.
答案:C
【解析】因为一组数据的平均数是3,方差是2,
所以,,
所以,,
所以的平均数为
,
所以的方差为
,
故选:C
23.(2023·四川省成都市第八中学校高三阶段练习(理))某班统计一次数学测验成绩的平均分与方差,计算完毕才发现有个同学的分数还未录入,只好重算一次.已知原平均分和原方差分别为,,新平均分和新方差分别为,,若此同学的得分恰好为,则( )
A.,B.,
C.,D.,
答案:C
【解析】设这个班有n个同学,分数分别是,,,…,,
第i个同学的成绩没录入,
第一次计算时,总分是,
方差;
第二次计算时,,
方差,
故.
故选:C.
24.(2023·全国·高三专题练习(文))某家庭记录了未使用节水龙头50天的日用水量数据(单位:)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
使用了节水龙头50天的日用水量频数分布表
(1)在图中作出使用了节水龙头50天的日用水量数据的频率分布直方图:
(2)估计该家庭使用节水龙头后,日用水量小于的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表.)
【解析】(1)
(2)日用水量小于的概率为;
(3)该家庭未使用节水龙头50天的日用水量的平均值为:
该家庭使用节水龙头50天的日用水量的平均值为:
估计使用节水龙头后,一年可节省水.
25.(2023·重庆十八中两江实验中学高三阶段练习)年月日,第十三届全国人民代表大会第五次会议在北京人民大会堂开幕,会议报告指出,年,国内生产总值和居民人均可支配收入明显增长.某地为了解居民可支配收入情况,随机抽取人,经统计,这人去年可支配收入(单位:万元)均在区间内,按,,,,,分成组,频率分布直方图如图所示,若上述居民可支配收入数据的第百分位数为.
(1)求的值,并估计这位居民可支配收入的平均值(同一组中的数据用该组区间的中点值作代表);
(2)用样本的频率估计概率,从该地居民中抽取甲、乙、丙人,若每次抽取的结果互不影响,求抽取的人中至少有两人去年可支配收入在内的概率.
【解析】(1)由频率分布直方图,可得,
则①
因为居民收入数据的第60百分位数为8.1,
所以,
则②
将①与②联立,解得.
所以平均值为.
(2)根据题意,设事件A,B,C分别为甲、乙、丙在[7.5,8.5)内,则
.
①“抽取3人中有2人在[7.5,8.5)内”,且与与互斥,根据概率的加法公式和事件独立性定义,得
.
②“抽取3人中有3人在[7.5,8.5)内”,由事件独立性定义,得
.
所以抽取的3人中至少有两人去年可支配收入在[7.5,8.5)内的概率:
.
26.(2023·全国·高三专题练习)某中学高三年级有400名学生参加月考,用简单随机抽样的方法抽取了一个容量为50的样本,得到数学成绩的频率分布直方图如图所示.
(1)求第四个小矩形的高;
(2)估算样本的众数、中位数和平均数.
【解析】(1)由频率分布直方图,
第四个矩形的高是.
(2)由频率分布直方图可知,众数为125,
设中位数估计值为,前两个矩形的面积之和为,前三个矩形的面积之和为,所以,,
则,解得,故中位数约为126.667(填126.7或126.67都对)
平均分约为
27.(2023·北京市第一零九中学高三阶段练习)北京市某区针对高三年级的一次测试做调研分析,随机抽取同时选考物理、化学的学生330名,下表是物理、化学成绩等级和人数的数据分布情况:
(1)从该区高三年级同时选考物理、化学的学生中随机抽取1人,已知该生的物理成绩等级为,估计该生的化学成绩等级为的概率;
(2)从该区高三年级同时选考物理、化学的学生中随机抽取2人,以表示这2人中物理、化学成绩等级均为的人数,求的分布列和数学期望(以上表中物理、化学成绩等级均为的频率作为每名学生物理、化学成绩等级均为的概率);
(3)记抽取的330名学生在这次考试中数学成绩(满分150分)的方差为,排名前的成绩方差为,排名后的成绩方差为,则不可能同时大于和,这种判断是否正确,并说明理由.
【解析】(1)设事件为“该生物理成绩等级为的情况下,化学成绩等级为”,
样本中物理成绩等级为的人数为,在该群体中化学成绩等级为的人数为110,所以频率为,由样本估计总体可得,
故该生物理成绩等级为,估计该生化学成绩等级为的概率为.
(2)从该区高三年级同时选考物理、化学的学生随机选取一名,物理、化学成绩等级均为的概率估计为.
由题意随机变量的取值范围是
则的分布列:
(3)不正确;
举例:,排名前的成绩均为分,方差为,排名后的成绩均为分,方差为,显然,所以,,故同时大于和.
28.(2023·重庆·高三阶段练习)重庆轨道交通号线一期己于今年月日开通运营,全长公里,从高滩岩站至兴科大道站一路经过座车站.沙坪坝站是目前客流量最大的站点,某数学兴趣小组在沙坪坝站作乘客流量来源地相关调查,从上车人群中随机选取了名乘客,记录了他们从来源地到沙坪坝站所花费时间t,得到下表:
(1)从在沙坪坝站上车的乘客中任选一人,估计该乘客花费时间小于的概率;
(2)估计所有在沙坪坝站上车的乘客花费时间的中位数;
(3)已知的人,其平均数和方差分别为,;的人,其平均数和方差分别为,,计算样本数据中的平均数和方差.
【解析】(1)由表格数据可知:乘客花费时间小于的共有人,
所求概率.
(2)设中位数为,
由表格数据知:花费时间小于分钟的频率为,花费时间小于分钟的频率为,;
,解得:,
即估计所有在沙坪坝站上车的乘客花费时间的中位数为.
(3)样本数据中的平均数;
方差.
经典题型五:变量间的相关关系
29.(2023·四川省仁寿县文宫中学高三阶段练习(理))对于,两变量,有四组样本数据,分别算出它们的线性相关系数(如下),则线性相关性最强的是( )
A.-0.82B.0.78C.-0.69D.0.87
答案:D
【解析】由相关系数的绝对值越大,变量间的线性相关性越强知:各选项中的绝对值最大.
故选:D
30.(2023·上海嘉定·高三阶段练习)通过抽样调研发现,当地第三季度的医院心脑血管疾病的人数和便利店购买冷饮的人数的相关系数很高,甲认为这是巧合,两者其实没有关系:乙认为冷饮的某种摄入成分导致了疾病;丙认为病人对冷饮会有特别需求:丁认为两者的相关关系是存在的,但不能视为因果,请判断哪位成员的意见最可能成立( )
A.甲B.乙C.丙D.丁
答案:D
【解析】当地第三季度的医院心脑血管疾病的人数和便利店购买冷饮的人数的相关系数很高,但相关关系是一种非确定性关系,相关关系不等于因果关系,丁的意见最可能成立.
故选:D.
31.(2023·四川·成都七中高三阶段练习(理))某统计部门对四组数据进行统计分析后,获得如图所示的散点图.
下面关于相关系数的比较,正确的是( )
A.B.C.D.
答案:C
【解析】由图可知:所对应的图中的散点呈现正相关 ,而且对应的相关性比对应的相关性要强,故,所对应的图中的散点呈现负相关,且根据散点的分布情况可知,因此,
故选:C
32.(2023·上海交大附中高三阶段练习)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:头),并计算得,,,,.
(1)估计该地区这种野生动物的数量;
(2)求样本的相关系数.(精确到0.01)
【解析】(1)由已知得样本平均数 ,
从而该地区这种野生动物数量的估计值为.
(2)由,,,
可得样本 的相关系数为
.
33.(2023·陕西·宝鸡市陈仓高级中学高三开学考试(理))对两个变量x,y进行线性相关检验,得线性相关系数r1=0.8995,对两个变量u,v进行线性相关检验,得线性相关系数r2=﹣0.9568,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
答案:C
【解析】依题意:,
所以正相关,负相关,
,所以的线性相关性较强.
故选:C
34.(2023·全国·高三专题练习)甲、乙、丙、丁四位同学各自对两变量的线性相关性做试验,分别求得样本相关系数,如下表:
则试验结果中两变量有更强线性相关性的是( )
A.甲B.乙C.丙D.丁
答案:B
【解析】由已知,乙的相关系数的绝对值为,是四人中最大的,因此乙同学有更强的相关性.
故选:B.
35.(2023·全国·高三专题练习)近五年来某草场羊只数量与草地植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示:
根据表及图得到以下判断:①羊只数量与草地植被指数成减函数关系;②若利用这五组数据得到的两变量间的相关系数为,去掉第一年数据后得到的相关系数为,则;③可以利用回归直线方程,准确地得到当羊只数量为万只时的草地植被指数.以上判断中正确的个数是________.
答案:
【解析】对于①,羊只数量与草地植被指数成负相关关系,不是减函数关系,所以①错误;
对于②,用这五组数据得到的两变量间的相关系数为,因为第一年数据是离群值,去掉后得到的相关系数为,其相关性更强,所以,故②正确;
对于③,利用回归直线方程,不能准确得到当羊只数量为万只时的草地植被指数,得到的只是预测值,故③错误.
综上所述,正确的判断序号是②,共个,
故答案为:.
经典题型六:线性回归
36.(2023·河南安阳·高三阶段练习(文))某学习小组用计算机软件对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,数据误输成,将这两个数据修正后得到回归直线方程,则实数( )
A.B.C.D.
答案:D
【解析】由题可知,假设甲输入的为,为,所以,,所以,,改为正确数据时得,,所以样本点的中心为,将其代入回归直线方程,得.
故选:D
37.(2023·河南·商丘市第一高级中学高三开学考试(文))已知具有线性相关关系的变量x,y,设其样本点为,回归直线方程为,若,,则( )
A.40B.-17C.-170D.4
答案:D
【解析】由于,
∴,.
将(3,10)代入,
∴,解得:.
故选:D.
38.(2023·江西·高三开学考试(文))新能源汽车的核心部件是动力电池,电池成本占了新能源整车成本很大的比例,从2022年年初开始,生产电池的某种有色金属的价格一路水涨船高.下表是2022年前5个月我国某电池企业采购的该有色金属价格y(单位:千元/kg)与月份x的统计数据.
已知y与x之间满足线性相关关系,且,由此方程预测到时,,则( )
A.1.38B.1.40C.1.42D.1.44
答案:D
【解析】由表格得,,
则,
又时,,则,联立解得,
故选:D
39.(2023·江苏镇江·高三开学考试)新能源汽车的核心部件是动力电池,碳酸锂是动力电池的主要成分,从2021年底开始,碳酸锂的价格一直升高,下表是2022年我国某企业前5个月购买碳酸锂价格与月份的统计数据.由下表可知其线性回归方程为,
则表中的值为( )
A.0.5B.0.6C.0.7D.0.8
答案:D
【解析】,,
回归直线必过样本点中心,
代入回归方程,解得:.
故选:D
40.(2023·全国·模拟预测(文))2020年,国庆“遇上”中秋,中国人把这个“超长黄金周”过出了年味.假期期间,全国各大旅游景点、车站、机场人头攒动的景象也吸引了世界的目光.外国媒体、专家和网友“实名羡慕”,这一派热闹景象证明了抗疫的成功,也展示了中国经济复苏的劲头.抗疫的成功离不开国家强大的医疗卫生体系,下表是某省2013年至2019年医疗卫生机构数(单位:万个):
(1)求关于的线性回归方程(,保留两位小数);
(2)规定若某年的实际医疗卫生机构数与估计值的差的绝对值不超过500个,则称该年是“吻合”年.利用(1)的结果,假设2020年该省医疗卫生机构数的估计值为实际值,现从2013年至2020年这8年中任选3年,其中“吻合”年的个数为,求的分布列与数学期望.
参考数据:,.
参考公式:线性回归方程中斜率和截距的最小二乘估计公式分别为:,.
【解析】(1)由题意得 ,,
则,
所以关于的线性回归方程为.
(2)2013年至2019年这7年该省医疗卫生机构数的估计值与实际值(单位:万个)如下表所示:
则2013年至2020年这8年中“吻合”年有2013年,2015年,2018年,2020年,共4年,
故的所有可能取值为 0,1,2,3,
且 ,,
故的分布列为
所以.
41.(2023·贵州·高三阶段练习(理))某电商平台统计了其牌下一家专营店在2022年3月至7月的营业收入(单位:万),得到以下数据:
(1)依据表中给出的数据,是否可用线性回归模型拟合与的关系?请计算相关系数并加以说明(计算结果精确到0.01);(若,则线性相关程度很高,可用线性回归模型拟合)
(2)试用最小二乘法求出营业收入与月份的回归方程,并预测当时该专营店的营业收入.
参考公式:相关系数,参考数据:,线性回归方程;,其中,
【解析】(1)由已知得:,,
,
,
,
因为
说明与的线性相关关系很强,可用线性回归模型拟合与的关系
(2),
,
则关于的线性回归方程为
当时,
预测该专营店在时的营业收入为19万元.
42.(2023·江苏南京·高三阶段练习)第五代移动通信技术(简称5G)是具有高速率、低时延和大连接特点的新一代宽带移动通信技术,它具有更高的速率、更宽的带宽、更高的可靠性、更低的时延等特征,能够满足未来虚拟现实、超高清视频、智能制造、自动驾驶等用户和行业的应用需求.某机构统计了共6家公司在5G通信技术上的投入(千万元)与收益(千万元)的数据,如下表:
(1)若与之间线性相关,求关于的线性回归方程.并估计若投入千万元,收益大约为多少千万元?(精确到)
(2)现家公司各派出一名代表参加某项宣传活动,该活动在甲,乙两个城市同时进行,6名代表通过抛掷一枚质地均匀的骰子决定自己去哪个城市参加活动,规定:每人只抛掷一次,掷出正面向上的点数为的去甲城市,掷出正面向上的点数为的去乙城市.求:
①公司派出的代表去甲城市参加活动的概率;
②求6位代表中去甲城市的人数少于去乙城市的人数的概率.(用最简分数作答)
参考数据及公式:,
【解析】(1)(1)
,则
当,则
所以当投入15千万元,收益大约为35.12亿元.
(2)① 设“某位代表去甲城市参加活动”为事件,则,
所以公司派出的代表去甲城市参加活动的概率为,
② 设“6位代表中去甲城市参加活动的人数少于去乙城市参加活动的人数”为事件,
.
43.(2023·全国·高三专题练习)随着时代的不断发展,社会对高素质人才的需求不断扩大,我国本科毕业生中考研人数也不断攀升,2020年的考研人数是341万人,2021年考研人数是377万人.某省统计了该省其中四所大学2022年的毕业生人数及考研人数(单位:千人),得到如下表格:
(1)已知y与x具有较强的线性相关关系,求:y关于x的线性回归方程;
(2)假设该省对选择考研的大学生每人发放0.5万元的补贴.
①若该省大学2022年毕业生人数为8千人,估计该省要发放补贴的总全额:
②若大学的毕业生中小浙、小江选择考研的概率分别为,,该省对小浙、小江两人的考研补贴总金额的期望不超过0.75万元,求的取值范围.
参考公式:,.
【解析】(1)由题意得,,
又,∴
∵,∴,
∴,所以,
故得y关于x的线性回归方程为.
(2)①将代入,
估计该省要发放补贴的总金额为(万元)
②设小浙、小江两人中选择考研的的人数为X,则X的所有可能值为0,1,2;
,
,
,
∴,
∴,解得,
又,∴,∴,
故p的取值范围为.
经典题型七:非线性回归
44.(2023·广东·广州大学附属中学高三阶段练习)红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害,每只红铃虫的平均产卵数y和平均温度x有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,与(其中为自然对数的底数)哪一个更适宜作为平均产卵数y关于平均温度x的回归方程类型?(给出判断即可,不必说明理由)并由判断结果及表中数据,求出y关于x的回归方程,(计算结果精确到0.01)
(2)根据以往统计,该地每年平均温度达到28℃以上时红铃虫会造成严重伤害,需要人工防治,其他情况均不需要人工防治,假设该地每年平均温度达到28℃以上的概率为p.若当时,该地今后5年中恰好有3年需要人工防治的概率最大,求的值.
附:回归方程,,.
【解析】(1)由散点图可以判断,适宜作为卵数关于温度的回归方程类型.
对两边取自然对数,得,
令,,,则,
由数据得,
,,
所以,,
所以关于的线性回归方程为,
则关于的回归方程为;
(2)由得,
因为,令得,解得;
所以在上单调递增,在上单调递减,
所以有唯一的极大值为,也是最大值;
所以当时,.
45.(2023·福建省福州格致中学高三阶段练习)近年来,美国方面滥用国家力量,不择手段打压中国高科技企业,随着贸易战的不断升级,中国某科技公司为了不让外国“卡脖子”,决定在企业预算中减少宣传广告预算,增加对技术研究和人才培养的投入,下表是的连续7年研发投入x和公司年利润y的观测数据,根据绘制的散点图决定用回归模型:来进行拟合.
表I
表II(注:表中)
(1)请借助表II中的数据,求出回归模型的方程;(精确到0.01)
(2)试求研发投入为20亿元时年利润的残差.
参考数据:,附:回归方程中和,残差
【解析】(1)由得,令,得,
由表II数据可得:
,.
所以回归方程为:.
(2)在时的残差:.
46.(2023·全国·高三专题练习)5G网络是指第五代移动网络通讯技术,它的主要特点是传输速度快,峰值传输速度可达每秒钟数十GB.作为新一代移动通讯技术,它将要支持的设备远不止智能手机,而是会扩展到未来的智能家居,智能穿戴等设备.某科技创新公司基于领先技术的支持,经济收入在短期内逐月攀升,该公司1月份至6月份的经济收入y(单位:万元)关于月份x的数据如下表所示,并根据数据绘制了如图所示的散点图.
(1)根据散点图判断,与(a,b,c,d均为常数)哪一个更适合作为经济收入y关于月份x的回归方程类型(给出判断即可,不必说明理由)?
(2)根据(1)的结果及表中数据,求出y关于x的回归方程(结果保留两位小数);
(3)根据(2)所求得的回归方程,预测该公司7月份的经济收入(结果保留两位小数).
参考公式及参考数据:回归方程中斜率和截距的最小二乘估计公式为:,;
其中,().
【解析】(1)由散点图可知,更适合作为经济收入y关于月份x的回归方程类型.
(2)的两边取自然对数,得.
因为,,,,
所以,
,所以,
所以经济收入y关于月份x的回归方程为.
(3)当时,.
预测该公司7月份的经济收入约为239.85万元.
47.(2023·全国·高三专题练习)某城市选用某种植物进行绿化,设其中一株幼苗从观察之日起,第x天的高度为y cm,测得一些数据如下表所示:
作出这组数的散点图如下
(1)请根据散点图判断,与中哪一个更适宜作为幼苗高度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测第196天这株幼苗的高度(结果保留整数).
附:, 参考数据:
【解析】(1)根据散点图,更适宜作为幼苗高度y关于时间x的回归方程类型;
(2)令,则构造新的成对数据,如下表所示:
容易计算,,.通过上表计算可得:
因此
∵回归直线过点,∴,
故y关于的回归直线方程为
从而可得:y关于x的回归方程为
令,则,所以预测第196天幼苗的高度大约为29cm.
48.(2023·全国·高三专题练习)在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高速增长.已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:
(1)根据统计表中的数据判断,与哪一个更适合作为关于的经验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立关于的经验回归方程;
(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.
参考数据:
,,,其中,,,.
参考公式:
对于一组数据(,),(,),…,(,),其经验回归直线的斜率和截距的
最小二乘估计公式分别为;
【解析】(1)根据该地区新能源汽车保有量的增长趋势知,应选择的函数模型是
令,则,
因为,,
所以,
.
所以.
(2)设传统能源汽车保有量每年下降的百分比为r,
依题意得,,解得,
设从2021年底起经过x年后的传统能源汽车保有量为y千辆,
则有,
设从2021年底起经过x年后新能源汽车的数量将超过传统能源汽车,则有
.
所以,
解得
故从2021年底起经过7年后,即2028年底新能源汽车的数量将超过传统能源汽车.
49.(2023·全国·高三专题练习)以模型去拟合一组数据时,为了求出回归方程,设,其变换后得到线性回归方程,则______.
答案:
【解析】,即,
∴,.
故答案为:
50.(2023·全国·高三专题练习)由样本数据,,,得到的回归方程为,已知如下数据:, ,,则实数的值为______.
答案:
【解析】令,则回归方程必过样本中心点,又,则,解得.
故答案为:.
51.(2023·全国·高三专题练习)已知下列说法:
①分类变量A与B的随机变量越大,说明“A与B有关系”的可信度越大;
②以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则的值分别是和;
③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为,若,,,则.
其中说法正确的为_____________.(填序号)
答案:①②③
【解析】①正确,因为越大,说明“和有关系”的把握性就越大;
②正确,因为,那么 ,即 ,解得,解得: 所以正确;
③在回归直线上,所以 ,解得: ,所以正确,
故答案为:①②③.
经典题型八:独立性检验
52.(2023·全国·高三专题练习)为了解高中生选科时是否选择物理与数学成绩之间的关系,学校抽取了50名高中生,通过问卷调查,得到以下数据:
由以上数据,计算得到,则有______的把握认为是否选择物理与数学成绩有关系.
答案:95%
【解析】因为,,所以有95%的把握认为是否选择物理与数学成绩有关.
故答案为:95%
53.(2023·全国·高三专题练习)有两个分类变量X和Y,其中一组观测值为如下的2×2列联表:
其中a,均为大于5的整数,则a=______时,有的把握认为“X和Y之间有关系”.
答案:9
【解析】由题意知,
则,
解得或.
因为且,,所以.
故答案为:9.
54.(2023·全国·高三专题练习)在一个列联表中,由其数据计算得,认为两个变量有关系犯错误的概率不超过________.
附:常用的小概率值和临界值表
答案:
【解析】,故认为两个变量有关系犯错误的概率不超过.
故答案为:.
55.(2023·四川省仁寿县文宫中学高三阶段练习(理))在一个2×2列联表中,由计算得,则判断“这两个变量有关系”时,判断出错的可能性是________.
参考临界值表:
答案:
【解析】因为,结合临界值表可得判断出错的可能性是.
故答案为:.
56.(2023·吉林·东北师大附中模拟预测)某兴趣小组为了解某城市不同年龄段的市民每周的阅读时长情况,在市民中随机抽取了人进行调查,并按市民的年龄是否低于岁及周平均阅读时间是否少于小时将调查结果整理成列联表,现统计得出样本中周平均阅读时间少于小时的人数占样本总数的.岁以上(含岁)的样本占样本总数的,岁以下且周平均阅读时间少于小时的样本有人.
(1)请根据已知条件将上述列联表补充完整,并依据小概率值的独立性检验,分析周平均阅读时间长短与年龄是否有关联.如果有关联,解释它们之间如何相互影响.
(2)现从岁以上(含岁)的样本中按周平均阅读时间是否少于小时用分层抽样法抽取人做进一步访谈,然后从这人中随机抽取人填写调查问卷,记抽取的人中周平均阅读时间不少于小时的人数为,求的分布列及数学期望.
参考公式及数据:,.
【解析】(1)样本中周平均阅读时间少于小时的人数占样本总数的,
样本中周平均阅读时间少于小时的人数为人,
则其中年龄在岁以上(含岁)的人数为人;
岁以上(含岁)的样本占样本总数的,
岁以上(含岁)的人数为人,
则其中周平均阅读时间不少于小时的人数为人;
岁以下周平均阅读时间不少于小时的人数为人;
则补充列联表如下:
假设:周平均阅读时间长短与年龄无关联,
,
依据小概率值的独立性检验分析判断不成立,即周平均阅读时间长短与年龄有关联.
二者之间的相互影响为:随着年龄的增长,周平均阅读时间也会有所增长.
(2)由题意可知:抽取的人中,周平均阅读时间少于小时的有人,不少于小时的有人;
则所有可能的取值为,
;;;;
的分布列为:
数学期望.
57.(2023·陕西·武功县普集高级中学模拟预测(理))今年月以来,世界多个国家报告了猴痘病例,我国作为为人民健康负责任的国家,对猴痘病毒防控提前做出部署.同时国家卫生健康委员会同国家中医药管理局制定了《猴痘诊疗指南(年版)》.此《指南》中指出:①猴痘病人潜伏期天;②既往接种过天花疫苗者对猴痘病毒存在一定程度的交叉保护力.据此,援非中国医疗队针对援助的某非洲国家制定的猴痘病毒防控措施之一是要求与猴痘病毒确诊患者的密切接触者集中医学观察天,在医学观察期结束后发现密切接触者中未接种过天花疫苗者感染病毒的比例较大.对该国家个接种与未接种天花疫苗的密切接触者样本医学观察结束后,统计了感染病毒情况,得到下面的列联表:
(1)是否有的把握认为密切接触者感染猴痘病毒与未接种天花疫苗有关;
(2)以样本中结束医学观察的密切接触者感染猴痘病毒的频率估计概率,现从该国所有结束医学观察的密切接触者中随机抽取人进行感染猴痘病毒人数统计,求其中至多有人感染猴痘病毒的概率.
附:,其中.
【解析】(1)由表格数据得:,
没有的把握认为密切接触者感染猴痘病毒与未接种天花疫苗有关.
(2)由频率估计概率,该地区每名密切接触者感染猴痘病毒的概率,
用表示抽取的人中感染猴痘病毒的人数,
,
即至多有人感染猴痘病毒的概率为.
58.(2023·全国·大化瑶族自治县高级中学模拟预测(文))微信是腾讯公司推出的一种手机通讯软件,一经推出便风靡全国.为了调查每天微信用户使用微信的时间,某调研组在一广场随机采访男性、女性用户各50名,其中每天玩微信超过6小时的用户为“A组”,否则为“B组”,调查共发现A组成员48人,其中男性18人.
(1)根据以上数据,能否有的把握认为“A组”用户与“性别”有关?
(2)现从调查的女性用户中按分层抽样的方法选出5人组成一个小组,抽取的5人中再随机抽取3人赠送礼包,记这3人中有2人在“A组”的概率.
参考公式:,其中为样本容量.
参考数据:
【解析】(1)调查结果列联表如下:
由列联表可得
;
有的把握认为“A组”用户与“性别”有关;
(2)由题意得,所抽取的5位女性中,
“A组”有人,记为1,2,3,
“B组”有人;记为4,5.
则抽取的5人中再随机抽取3人的基本事件空间为:,,,,,,,,,,共10种,
满足3人中有2人在“A组”的事件有:共6种
所以3人中有2人在“A组”的概率为.
59.(2023·山东·济南市历城第二中学模拟预测)2022年我国将举办第24届冬季奥林匹克运动会(The winter Olympics),为调查某城市居民对冰雪运动的了解情况,随机抽取了该市120名市民进行统计,得到如下列联表:
已知从参与调查的男性中随机选取1名,抽到“了解冰雪运动”的概率为.
(1)直接写出m,n,p,q的值;
(2)能否在犯错误概率不超过0.1的前提下认为该市居民了解冰雪运动与性别有关?请说明理由.
附:,,
【解析】(1)因为从参与调查的男性中随机选取1名,抽到“了解冰雪运动”的概率为,
所以,
所以,,.
(2)能;理由如下:
由题意知,,
所以能在犯错误概率不超过0.1的前提下认为该市居民了解冰雪运动与性别有关.
经典题型九:误差分析
60.(2023·湖南岳阳·模拟预测)某种产品的广告支出费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:
根据表中的数据可得回归直线方程2.27x,R2≈0.96,则
①第三个样本点对应的残差1
②在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中
③销售量的多少有96%是由广告支出费用引起的
上述结论判断中有一个是错误的,其序号为 _____________
答案:②
【解析】由表可知,
4,8.
∴样本中心点为(4,8),
将其代入线性回归方程2.27x,有8=2.27×4,解得1.08,
故线性回归方程为2.27x﹣1.08.
当x=4时,2.27×4﹣1.08=8,所以残差y7﹣8=﹣1,即选项正确;
当x=2.2时,3.914,3.8﹣3.914=﹣0.114,
当x=2.6时,4.822,5.4﹣4.822=0.578,
当x=5.3时,10.951,11.6﹣10.951=0.649,
当x=5.9时,12.313,12.2﹣12.313=﹣0.113.
可知在该回归模型对应的残差图中,残差点比较均匀地落在水平的带状区域中,故错误;
∵R2≈0.96,∴销售量的多少有96%是由广告支出费用引起的,故正确;
故答案为:②.
61.(2023·黑龙江·哈九中模拟预测(文))医学中判断男生的体重是否超标有一种简易方法,就是用一个人身高的厘米数减去105所得差值即为该人的标准体重.比如身高175cm的人,其标准体重为公斤,一个人实际体重超过了标准体重,我们就说该人体重超标了.已知某班共有30名男生,从这30名男生中随机选取6名,其身高和体重的数据如表所示:
(1)从编号为1,2,3,4,5的这5人中任选2人,求恰有1人体重超标的概率;
(2)依据上述表格信息,用最小二乘法求出了体重y对身高x的线性回归方程,但在用回归方程预报其他同学的体重时,预报值与实际值吻合不好,需要对上述数据进行残差分析.按经验,对残差在区间之外的同学要重新采集数据.问上述随机抽取的编号为3,4,5,6的四人中,有哪几位同学要重新采集数据?
【解析】(1)由表可知:
1号同学的标准体重为;
2号同学的标准体重为;
3号同学的标准体重为;
4号同学的标准体重为;
5号同学的标准体重为;
故3号、4号同学体重超标
所有基本事件为(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)共10个
恰有1人体重超标包含基本事件为(1,3),(1,4),(2,3),(2,4),(3,5),(4,5)共6个,
恰有1人体重超标记为A,则;
(2)因为,
,
回归直线方程必过样本中心,得,即,
所以回归直线方程为,
残差分析:
,
,
,
,
故3号,4号和6号同学需要重新采集数据.
62.(2023·重庆市涪陵高级中学校模拟预测)为响应党中央“扶贫攻坚”的号召,某单位指导一贫困村通过种植紫甘薯来提高经济收入.紫甘薯对环境温度要求较高,根据以往的经验,随着温度的升高,其死亡株数成增长的趋势.下表给出了2021年种植的一批试验紫甘薯在温度升高时6组死亡的株数.
经计算,,,,,
,,,其中,分别为试验数据中的温度和死亡株数,.
(1)若用一元线性回归模型,求关于的经验回归方程;
(2)若用非线性回归模型求得关于的非线性经验回归方程,且相关指数为.
(ⅰ)试与(1)中的回归模型相比,用说明哪种模型的拟合效果更好;
(ii)用拟合效果好的模型预测温度为35℃时该批紫甘薯的死亡株数(结果取整数).
附:对于一组数据其回归直线的斜率和截距的最小二乘估计分别为:,;相关指数为:.
【解析】(1)由题意可知,
,
∴关于的线性回归方程是;
(2)①用指数回归模型拟合与的关系,相关指数,
线性回归模型拟合与的关系,相关指数,
则,
∴用比拟合效果更好;
②中,令,
则,
故预测温度为时该紫甘薯死亡株数约为192株.
63.(2023·四川省内江市第六中学模拟预测(文))【阅读材料】
2022年4月16日9时56分,神舟十三号载人飞船返回舱在东风着陆场成功着陆,航天员翟志刚、王亚平、叶光富身体状态良好,神舟十三号载人飞行任务取得圆满成功,标志着空间站关键技术验证阶段任务圆满完成,中国空间站即将进入建造阶段.某公司负责生产的A型材料是神舟十三号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造,根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:
当时,建立了y与x的两个回归模型:
模型①:;模型②:;
当时,确定y与x满足的线性回归直线方程为.
根据以上阅读材料,解答以下问题:
(1)根据下列表格中的数据,比较当时模型①,②的相关指数的大小,并选择拟合效果更好的模型.
附:相关指数的计算公式为:,
(2)当应用改造的投入为20亿元时,以回归直线方程为预测依据,计算公司的收益约为多少.
附:①若最小二乘法求得回归直线方程为,则;
②
③当时,,.
【解析】(1)对于模型①,
因为,故对应的,
故对应的相关指数,
对于模型②,同理对应的相关指数,
故模型②拟合效果更好.
(2)当时,
后五组的,
由最小二乘法可得,
所以当时,确定y与x满足的线性回归直线方程为
故当投入20亿元时,预测公司的收益约为:(亿元).
1.(2023·北京·高考真题)在北京冬奥会上,国家速滑馆“冰丝带”使用高效环保的二氧化碳跨临界直冷制冰技术,为实现绿色冬奥作出了贡献.如图描述了一定条件下二氧化碳所处的状态与T和的关系,其中T表示温度,单位是K;P表示压强,单位是.下列结论中正确的是( )
A.当,时,二氧化碳处于液态
B.当,时,二氧化碳处于气态
C.当,时,二氧化碳处于超临界状态
D.当,时,二氧化碳处于超临界状态
答案:D
【解析】当,时,,此时二氧化碳处于固态,故A错误.
当,时,,此时二氧化碳处于液态,故B错误.
当,时,与4非常接近,故此时二氧化碳处于固态,对应的是非超临界状态,故C错误.
当,时,因, 故此时二氧化碳处于超临界状态,故D正确.
故选:D
2.(2023·全国·高考真题(理))某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则( )
A.讲座前问卷答题的正确率的中位数小于
B.讲座后问卷答题的正确率的平均数大于
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
答案:B
【解析】讲座前中位数为,所以错;
讲座后问卷答题的正确率只有一个是个,剩下全部大于等于,所以讲座后问卷答题的正确率的平均数大于,所以B对;
讲座前问卷答题的正确率更加分散,所以讲座前问卷答题的正确率的标准差大于讲座后正确率的标准差,所以C错;
讲座后问卷答题的正确率的极差为,
讲座前问卷答题的正确率的极差为,所以错.
故选:B.
3.(2023·天津·高考真题)为研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:)的分组区间为,将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,右图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.8B.12C.16D.18
答案:B
【解析】志愿者的总人数为=50,
所以第三组人数为50×0.36=18,
有疗效的人数为18-6=12.
故选:B.
4.(2023·天津·高考真题)从某网络平台推荐的影视作品中抽取部,统计其评分数据,将所得个评分数据分为组:、、、,并整理得到如下的频率分布直方图,则评分在区间内的影视作品数量是( )
A.B.C.D.
答案:D
【解析】由频率分布直方图可知,评分在区间内的影视作品数量为.
故选:D.
5.(2023·全国·高考真题(文))为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
答案:C
【解析】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.
该地农户家庭年收入低于4.5万元的农户的比率估计值为,故A正确;
该地农户家庭年收入不低于10.5万元的农户比率估计值为,故B正确;
该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为,故D正确;
该地农户家庭年收入的平均值的估计值为(万元),超过6.5万元,故C错误.
综上,给出结论中不正确的是C.
故选:C.
6.(多选题)(2023·全国·高考真题)下列统计量中,能度量样本的离散程度的是( )
A.样本的标准差B.样本的中位数
C.样本的极差D.样本的平均数
答案:AC
【解析】由标准差的定义可知,标准差考查的是数据的离散程度;
由中位数的定义可知,中位数考查的是数据的集中趋势;
由极差的定义可知,极差考查的是数据的离散程度;
由平均数的定义可知,平均数考查的是数据的集中趋势;
故选:AC.
7.(多选题)(2023·全国·高考真题)有一组样本数据,,…,,由这组数据得到新样本数据,,…,,其中(为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
答案:CD
【解析】A:且,故平均数不相同,错误;
B:若第一组中位数为,则第二组的中位数为,显然不相同,错误;
C:,故方差相同,正确;
D:由极差的定义知:若第一组的极差为,则第二组的极差为,故极差相同,正确;
故选:CD
8.(2023·北京·高考真题)在校运动会上,只有甲、乙、丙三名同学参加铅球比赛,比赛成绩达到以上(含)的同学将获得优秀奖.为预测获得优秀奖的人数及冠军得主,收集了甲、乙、丙以往的比赛成绩,并整理得到如下数据(单位:m):
甲:9.80,9.70,9.55,9.54,9.48,9.42,9.40,9.35,9.30,9.25;
乙:9.78,9.56,9.51,9.36,9.32,9.23;
丙:9.85,9.65,9.20,9.16.
假设用频率估计概率,且甲、乙、丙的比赛成绩相互独立.
(1)估计甲在校运动会铅球比赛中获得优秀奖的概率;
(2)设X是甲、乙、丙在校运动会铅球比赛中获得优秀奖的总人数,估计X的数学期望E(X);
(3)在校运动会铅球比赛中,甲、乙、丙谁获得冠军的概率估计值最大?(结论不要求证明)
【解析】(1)由频率估计概率可得
甲获得优秀的概率为0.4,乙获得优秀的概率为0.5,丙获得优秀的概率为0.5,
故答案为0.4
(2)设甲获得优秀为事件A1,乙获得优秀为事件A2,丙获得优秀为事件A3
,
,
,
.
∴X的分布列为
∴
(3)丙夺冠概率估计值最大.
因为铅球比赛无论比赛几次就取最高成绩.比赛一次,丙获得9.85的概率为,甲获得9.80的概率为,乙获得9.78的概率为.并且丙的最高成绩是所有成绩中最高的,比赛次数越多,对丙越有利.
9.(2023·全国·高考真题)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
(2)估计该地区一位这种疾病患者的年龄位于区间的概率;
(3)已知该地区这种疾病的患病率为,该地区年龄位于区间的人口占该地区总人口的.从该地区中任选一人,若此人的年龄位于区间,求此人患这种疾病的概率.(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001).
【解析】(1)平均年龄
(岁).
(2)设{一人患这种疾病的年龄在区间},所以
.
(3)设“任选一人年龄位于区间[40,50)”,“从该地区中任选一人患这种疾病”,
则由已知得:
,
则由条件概率公式可得
从该地区中任选一人,若此人的年龄位于区间,此人患这种疾病的概率为.
10.(2023·全国·高考真题(文))甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:,
【解析】(1)根据表中数据,A共有班次260次,准点班次有240次,
设A家公司长途客车准点事件为M,
则;
B共有班次240次,准点班次有210次,
设B家公司长途客车准点事件为N,
则.
A家公司长途客车准点的概率为;
B家公司长途客车准点的概率为.
(2)列联表
=,
根据临界值表可知,有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
11.(2023·全国·高考真题(文))某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
【解析】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为
(2)
则
(3)设该林区这种树木的总材积量的估计值为,
又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.
则该林区这种树木的总材积量估计为
12.(2023·全国·高考真题(文))甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
【解析】(1)甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.
(2),
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
13.(2023·全国·高考真题(理))某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为和.
(1)求,,,;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
【解析】(1),
,
,
.
(2)依题意,,,
,所以新设备生产产品的该项指标的均值较旧设备有显著提高.
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
总计
总计
0.5
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
日用水量
频数
1
3
2
4
9
26
5
日用水量
频数
1
5
13
10
16
5
物理成绩等级
化学成绩等级
人数(名)
110
53
2
55
70
15
3
12
10
0
1
2
时间
人数(人)
甲
乙
丙
丁
年份
1
2
3
4
5
羊只数量/万只
1.4
0.9
0.75
0.6
0.3
草地植被指数
1.1
4.3
15.6
31.3
49.7
x
1
2
3
4
5
y
1.7
3.0
4.4
6.0
7.4
月份代码
1
2
3
4
5
碳酸锂价格
0.5
1
1.2
1.5
年份
2013
2014
2015
2016
2017
2018
2019
年份代号
1
2
3
4
5
6
7
医疗卫生机构数
4.2
4.3
4.5
4.7
4.8
4.8
4.9
年份
2013
2014
2015
2016
2017
2018
2019
实际值
4.2
4.3
4.5
4.7
4.8
4.8
4.9
估计值
4.24
4.36
4.48
4.6
4.72
4.84
4.96
0
1
2
3
月份
3
4
5
6
7
营业收入
10
12
11
12
20
投入x(千万元)
5
7
8
10
11
13
收益y(千万元)
11
15
16
22
25
31
大学
A大学
B大学
C大学
D大学
2022年毕业人数x(千人)
7
6
5
4
2022年考研人数y(千人)
0.5
0.4
0.3
0.2
平均温度x/℃
21
23
25
27
29
31
33
平均产卵数y/个
7
11
21
24
66
115
325
1.9
2.4
3.0
3.2
4.2
4.7
5.8
参考数据
5215
17713
717
81.3
3.6
研发投入(亿元)
20
22
25
27
29
31
35
年利润(亿元)
7
11
21
24
65
114
325
189
567
162
78106
3040
月份x
1
2
3
4
5
6
收入y
6
11
23
37
72
124
3.5
45.5
3.34
17.5
393.5
10.63
239.85
第x天
1
4
9
16
25
36
49
高度y/cm
0
4
7
9
11
12
13
140
28
56
283
x
1
4
9
16
25
36
49
1
2
3
4
5
6
7
y
0
4
7
9
11
12
13
年份(年)
2014
2015
2016
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
6
7
8
保有量y/千辆
1.95
2.92
4.38
6.58
9.87
15.00
22.50
33.70
选物理
不选物理
数学成绩优异
20
7
数学成绩一般
10
13
合计
a
15
50
合计
20
45
65
0.10
0.05
0.010
2.706
3.841
6.635
周平均阅读时间少于小时
周平均阅读时间不少于小时
合计
岁以下
岁以上(含岁)
合计
周平均阅读时间少于小时
周平均阅读时间不少于小时
合计
岁以下
岁以上(含岁)
合计
感染猴痘病毒
未感染猴痘病毒
未接种天花疫苗
接种天花疫苗
0.50
0.40
0.25
0.05
0.025
0.10
0.455
0.708
1.323
3.841
5.024
6.635
A组
B组
合计
男性
18
32
50
女性
30
20
50
合计
48
52
100
男
女
合计
了解冰雪运动
m
p
70
不了解冰雪运动
n
q
50
合计
60
60
120
0.100
0.050
0.010
k
2.706
3.841
6.635
广告支出费用x
2.2
2.6
4.0
5.3
5.9
销售量y
3.8
5.4
7.0
11.6
12.2
编号
1
2
3
4
5
6
身高(cm)x
165
171
160
173
178
167
体重(kg)y
60
63
62
70
71
58
温度/℃
21
23
24
27
29
30
死亡数/株
6
11
20
27
57
77
序号
1
2
3
4
5
6
7
8
9
10
11
12
x
2
3
4
6
8
10
13
21
22
23
24
25
y
15
22
27
40
48
54
60
68.5
68
67.5
66
65
回归模型
模型①
模型②
回归方程
79.13
20.2
X
0
1
2
3
P
准点班次数
未准点班次数
A
240
20
B
210
30
0.100
0.050
0.010
2.706
3.841
6.635
准点班次数
未准点班次数
合计
A
240
20
260
B
210
30
240
合计
450
50
500
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
0.050
0.010
0.001
k
3.841
6.635
10.828
旧设备
9.8
10.3
10.0
10.2
9.9
9.8
10.0
10.1
10.2
9.7
新设备
10.1
10.4
10.1
10.0
10.1
10.3
10.6
10.5
10.4
10.5
高考数学一轮复习考点微专题(新高考地区专用)考向35离心率的多种妙解方式(十四大经典题型)(原卷版+解析): 这是一份高考数学一轮复习考点微专题(新高考地区专用)考向35离心率的多种妙解方式(十四大经典题型)(原卷版+解析),共103页。
高考数学一轮复习考点微专题(新高考地区专用)考向34轻松搞定轨迹方程问题(十大经典题型)(原卷版+解析): 这是一份高考数学一轮复习考点微专题(新高考地区专用)考向34轻松搞定轨迹方程问题(十大经典题型)(原卷版+解析),共71页。
高考数学一轮复习考点微专题(新高考地区专用)考向32立体几何压轴小题(八大经典题型)(原卷版+解析): 这是一份高考数学一轮复习考点微专题(新高考地区专用)考向32立体几何压轴小题(八大经典题型)(原卷版+解析),共173页。