2025高考数学专项讲义第09讲统计与统计案例(学生版+解析)

展开

这是一份2025高考数学专项讲义第09讲统计与统计案例(学生版+解析)，共144页。学案主要包含了命题规律，备考策略，命题预测，试题解析，方法点拨等内容，欢迎下载使用。

1. 5年真题考点分布
2. 命题规律及备考策略
【命题规律】本节内容是新高考卷的常考内容，设题不定，难度中等或偏难，分值为5-15分
【备考策略】1.理解、掌握简单随机抽样、分层抽样定义及计算
2.理解、掌握总体样本估计的定义及计算
3.理解、掌握线性回归的定义及计算
4.理解、掌握独立性检验的定义及计算
【命题预测】本节内容是新高考卷的常考内容，一般给在大题中结合前面的的概率及分布列一起考查，需重点强化复习
知识讲解
1．简单随机抽样
(1)定义：一般地，设一个总体含有N个个体，从中逐个不放回地抽取n个个体作为样本(n≤N)，如果每次抽取时总体内的各个个体被抽到的机会都相等，就把这种抽样方法叫做简单随机抽样．这样抽取的样本，叫做简单随机样本．
(2)常用方法：抽签法和随机数法．
2．分层抽样
(1)在抽样时，将总体分成互不交叉的层，然后按照一定的比例，从各层独立地抽取一定数量的个体，将各层取出的个体合在一起作为样本，这种抽样方法是一种分层抽样．
(2)分层抽样的应用范围
当总体是由差异明显的几个部分组成时，往往选用分层抽样．
3．频率分布直方图
(1)纵轴表示eq \f(频率,组距)，即小长方形的高＝eq \f(频率,组距)；
(2)小长方形的面积＝组距×eq \f(频率,组距)＝频率；
(3)各个小方形的面积总和等于1.
频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标．
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和．
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的．
4．频率分布表的画法
第一步：求极差，决定组数和组距，组距＝eq \f(极差,组数)；
第二步：分组，通常对组内数值所在区间取左闭右开区间，最后一组取闭区间；
第三步：登记频数，计算频率，列出频率分布表．
5．条形图、折线图及扇形图
(1)条形图：建立直角坐标系，用横轴(横轴上的数字)表示样本数据类型，用纵轴上的单位长度表示一定的数量，根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形，然后把这些矩形按照一定的顺序排列起来，这样一种表达和分析数据的统计图称为条形图．
(2)折线图：建立直角坐标系，用横轴上的数字表示样本值，用纵轴上的单位长度表示一定的数量，根据样本值和数量的多少描出相应各点，然后把各点用线段顺次连接，得到一条折线，用这种折线表示出样本数据的情况，这样的一种表示和分析数据的统计图称为折线图．
(3)扇形图：用一个圆表示总体，圆中各扇形分别代表总体中的不同部分，每个扇形的大小反映所表示的那部分占总体的百分比的大小，这样的一种表示和分析数据的统计图称为扇形图．
6．百分位数、众数、平均数的定义
(1)如果将一组数据从小到大排序，并计算相应的累计百分位，则某一百分位所对应数据的值就称为这一百分位的百分位数．
一般地，一组数据的第p百分位数是这样一个值，
它使得这组数据中至少有p%的数据小于或等于这个值，且至少有(100－p)%的数据大于或等于这个值．
(2)第25百分位数又称第一四分位数或下四分位数；
第75百分位数又称第三四分位数或上四分位数．
(3)众数
一组数据中出现次数最多的数据叫做这组数据的众数．
(4)平均数
一组数据的算术平均数即为这组数据的平均数，n个数据x1，x2，…，xn的平均数eq \x\t(x)＝eq \f(1,n)(x1＋x2＋…＋xn)．
7．样本的数字特征之方差
如果有n个数据x1，x2，…，xn，那么这n个数的
(1)标准差s＝ eq \r(\f(1,n)[x1－\x\t(x)2＋x2－\x\t(x)2＋…＋xn－\x\t(x)2]).
(2)方差s2＝eq \f(1,n)[(x1－eq \x\t(x))2＋(x2－eq \x\t(x))2＋…＋(xn－eq \x\t(x))2]．
8. 平均数、方差的公式推广
(1)若数据x1，x2，…，xn的平均数为eq \x\t(x)，则mx1＋a，mx2＋a，mx3＋a，…，mxn＋a的平均数是meq \x\t(x)＋a.
(2)若数据x1，x2，…，xn的方差为s2，则数据ax1＋b，ax2＋b，…，axn＋b的方差为a2s2.
两个变量的线性相关
(1)正相关
在散点图中，点散布在从左下角到右上角的区域，对于两个变量的这种相关关系，我们将它称为正相关．
(2)负相关
在散点图中，点散布在从左上角到右下角的区域，两个变量的这种相关关系称为负相关．
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近，就称这两个变量之间具有线性相关关系，这条直线叫做回归直线．
回归方程
(1)最小二乘法
求回归直线，使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法．
(2)回归方程
方程eq \(y,\s\up6(^))＝eq \(b,\s\up6(^))x＋eq \(a,\s\up6(^))是两个具有线性相关关系的变量的一组数据(x1，y1)，(x2，y2)，…，(xn，yn)的回归方程，其中eq \(a,\s\up6(^))，eq \(b,\s\up6(^))是待定参数．
eq \b\lc\{\rc\ (\a\vs4\al\c1(\(b,\s\up6(^))＝\f(\(∑,\s\up6(n),\s\d4(i＝1)) xi－\x\t(x)yi－\x\t(y),\(∑,\s\up6(n),\s\d4(i＝1)) xi－\x\t(x)2)＝\f(\(∑,\s\up6(n),\s\d4(i＝1))xiyi－n\x\t(x) \x\t(y),\(∑,\s\up6(n),\s\d4(i＝1))x\\al(2,i)－n\x\t(x)2)，,\(a,\s\up6(^))＝\x\t(y)－\(b,\s\up6(^))\x\t(x).))
回归分析
(1)定义：对具有相关关系的两个变量进行统计分析的一种常用方法．
(2)样本点的中心
对于一组具有线性相关关系的数据(x1，y1)，(x2，y2)，…，(xn，yn)，其中(eq \x\t(x)，eq \x\t(y))称为样本点的中心．
(3)相关系数
当r>0时，表明两个变量正相关；
当r2.706时，有90%的把握判定变量A，B有关联；
当χ>3.841时，有95%的把握判定变量A，B有关联；
当χ>6.635时，有99%的把握判定变量A，B有关联．
考点一、简单随机抽样
1．（2024·福建泉州·模拟预测）从一个含有个个体的总体中抽取一容量为的样本，当选取抽签法、随机数法和分层随机抽样三种不同方法时，总体中每个个体被抽中的概率分别为，三者关系可能是（）
A．B．C．D．
2．（2024高一下·全国·专题练习）某中学高一年级有400人，高二年级有320人，高三年级有280人，若用随机数法在该中学抽取容量为n的样本，每人被抽到的可能性都为0.2，则n等于（）
A．80B．160C．200D．280
3．（2024·陕西西安·一模）某高校对中文系新生进行体测，利用随机数表对650名学生进行抽样，先将650名学生进行编号，001，002，…，649，650.从中抽取50个样本，下图提供随机数表的第4行到第6行，若从表中第5行第6列开始向右读取数据，则得到的第6个样本编号是（）
32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 42
84 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 04
32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45
A．623B．328C．072D．457
1．（2024·四川成都·模拟预测）用简单随机抽样的方法从含有10个个体的总体中抽取一个容量为3的样本，其中某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是（）
A．，B．，
C．，D．，
2．（2024·云南贵州·二模）本次月考分答题卡的任务由高三16班完成，现从全班55位学生中利用下面的随机数表抽取10位同学参加，将这55位学生按01、02、、55进行编号，假设从随机数表第1行第2个数字开始由左向右依次选取两个数字，重复的跳过，读到行末则从下一行行首继续，则选出来的第6个号码所对应的学生编号为（）
0627 4313 2432 5327 0941 2512 6317 6323 2616 8045 6011
1410 9577 7424 6762 4281 1457 2042 5332 3732 2707 3607
0140 0523 2617 3726 3890 5124 5179 3014 2310 2118 2191
A．51B．25C．32D．12
考点二、分层随机抽样
1．（2024·江西南昌·模拟预测）已知三种不同型号的产品数量之比依次为，现用分层抽样的方法抽取容量为的样本，若样本中型号产品有件，则为（）
A．60B．70C．80D．90
2．（2023·全国·高考真题）某学校为了解学生参加体育运动的情况，用比例分配的分层随机抽样方法作抽样调查，拟从初中部和高中部两层共抽取60名学生，已知该校初中部和高中部分别有400名和200名学生，则不同的抽样结果共有（）．
A．种B．种
C．种D．种
3．（2024·上海·高考真题）水果分为一级果和二级果，共136箱，其中一级果102箱，二级果34箱．
(1)随机挑选两箱水果，求恰好一级果和二级果各一箱的概率；
(2)进行分层抽样，共抽8箱水果，求一级果和二级果各几箱；
(3)抽取若干箱水果，其中一级果共120个，单果质量平均数为303.45克，方差为603.46；二级果48个，单果质量平均数为240.41克，方差为648.21；求168个水果的方差和平均数，并预估果园中单果的质量．
1．（2024·河南·三模）国内某优秀新能源电池制造企业在锂电池单位能量密度技术上取得了重大突破，该制造企业内的某车间有两条生产线，分别生产高能量密度锂电池和低能量密度锂电池，总产量为400个锂电池．质检人员采用分层随机抽样的方法随机抽取了一个容量为80的样本进行质量检测，已知样本中高能量密度锂电池有35个，则估计低能量密度锂电池的总产量为（）．
A．325个B．300个C．225个D．175个
2．（2024·黑龙江双鸭山·模拟预测）为了解某校初中学生的近视情况，按年级用分层抽样的方法随机抽取100名学生进行视力检测，已知初一、初二、初三年级分别有800名，600名，600名学生，则不同的抽样结果共有（）
A．B．C．D．
考点三、条形统计图
1．（2024·江西·二模）下图是我国年纯电动汽车销量统计情况，则下列说法错误的是（）

A．我国纯电动汽车销量呈现逐年增长趋势
B．这六年销量的第60百分位数为536.5万辆
C．2020年销量高于这六年销量的平均值
D．这六年增长率最大的为2019年至2020年
2．（2024·全国·模拟预测）如图为某中型综合超市年的年总营业额（单位：万元）的统计图，则下列说法错误的是（）

A．年的年总营业额的极差为2200万元
B．年的年总营业额波动性比年的年总营业额波动性小
C．年的年总营业额逐年上升，2021年跌落低谷，之后每年又呈上升趋势
D．年的年总营业额的中位数是2019年和2020年的年总营业额的平均数
1．（2024·四川达州·二模）下图是某地区2016-2023年旅游收入(单位:亿元)的条形图，则下列说法错误的是（）

A．该地区2016-2019年旅游收入逐年递增
B．该地区2016-2023年旅游收入的中位数是4.30
C．经历了疫情之后，该地区2023年旅游收入恢复到接近2018年水平
D．该地区2016-2023年旅游收入的极差是3.69
2．（2024·陕西西安·模拟预测）国家统计局发布的2018年至2022年我国居民消费水平情况如图所示，则下列说法正确的是（居民消费水平）（）

A．2018年至2022年我国居民消费水平逐年提高
B．2018年至2022年我国城镇居民消费水平逐年提高
C．2018年至2022年我国居民消费水平数据的极差为6463元
D．2022年我国城镇人口数比农村人口数的1.5倍还要多
考点四、折线统计图
1．（2024·辽宁抚顺·三模）（多选）年月日国家统计局发布了制造业采购经理指数（）,如下图所示:
下列说法正确的是（）
A．从年月到年月,这个月的制造业采购经理指数（）的第百分位数为
B．从年月到年月,这个月的制造业采购经理指数（）的极差为
C．从年月到年月制造业采购经理指数（）呈下降趋势
D．大于表示经济处于扩张活跃的状态;小于表示经济处于低迷萎缩的状态,则年月到年月,经济处于扩张活跃的状态
2．（2024·全国·二模）（多选）人均可支配收入和人均消费支出是两个非常重要的经济和民生指标，常被用于衡量一个地区经济发展水平和群众生活水平．下图为2018～2023年前三季度全国城镇居民人均可支配收入及人均消费支出统计图，据此进行分析，则（）
A．2018～2023年前三季度全国城镇居民人均消费支出逐年递增
B．2018～2023年前三季度全国城镇居民人均可支配收入逐年递增
C．2018～2023年前三季度全国城镇居民人均可支配收入的极差比人均消费支出的极差小
D．2018～2023年前三季度全国城镇居民人均消费支出的中位数为21180元
1．（2024·黑龙江·三模）（多选）在某市初三年级举行的一次体育考试中(满分100分)，所有考生成绩均在[50,100]内，按照[50,60)，[60,70)，[70,80)，[80,90)，[90,100]分成五组，甲、乙两班考生的成绩占比如图所示，则下列说法错误的是（）

A．成绩在[70,80)的考生中，甲班人数多于乙班人数
B．甲班成绩在[80,90)内人数最多
C．乙班成绩在[70,80)内人数最多
D．甲班成绩的极差比乙班成绩的极差小
2．（23-24高三下·山东·开学考试）（多选）进入冬季哈尔滨旅游火爆全网，下图是2024年1月1．日到1月7日哈尔滨冰雪大世界和中央大街日旅游人数的折线图，则（）
A．中央大街日旅游人数的极差是1.2B．冰雪大世界日旅游人数的中位数是2.3
C．冰雪大世界日旅游人数的平均数比中央大街大D．冰雪大世界日旅游人数的方差比中央大街大
考点五、扇形统计图
1．（2024·山东菏泽·模拟预测）南丁格尔玫瑰图是由近代护理学和护士教育创始人南丁格尔设计的，图中每个扇形圆心角都是相等的，半径长短表示数量大小．某机构统计了近几年某国知识付费用户数量(单位:亿人次)，并绘制成南丁格尔玫瑰图(如图所示)，根据此图，以下说法错误的是（）
A．2016年至2023年，知识付费用户数量逐年增加
B．2016年至2023年，知识付费用户数量逐年增加量2019年最多
C．2016年至2023年，知识付费用户数量的逐年增加量逐年递增
D．2023年知识付费用户数量超过2016年知识付费用户数量的10倍
2．（2024·湖南邵阳·模拟预测）（多选）有关数据显示，年轻一代的父母更加重视亲子陪伴，以往“以孩子为中心”的观念正逐步向与孩子玩在一起、学在一起的方向转变．如图为2023年中国父母参与过的各类亲子活动人数在参与调查总人数中的占比，根据该图，下列说法正确的是（）
A．在参与调查的总人数中父母参与过的亲子活动最多的是亲子阅读
B．在参与调查的总人数中同时参与过亲子阅读与亲子运动会的父母不少于
C．图中各类亲子活动占比的中位数为
D．图中10类亲子活动占比的极差为
1．（2024·辽宁·模拟预测）某高中2023年的高考考生人数是2022年高考考生人数的1.5倍.为了更好地对比该校考生的升学情况，统计了该校2022年和2023年高考分数达线情况，得到如图所示扇形统计图：

下列结论正确的是（）
A．该校2023年与2022年的本科达线人数比为6:5
B．该校2023年与2022年的专科达线人数比为6:7
C．2023年该校本科达线人数比2022年该校本科达线人数增加了80%
D．2023年该校不上线的人数有所减少
2．（2024·辽宁·二模）（多选）下图为某市2023年第一季度全市居民人均消费支出构成图．已知城镇居民人均消费支出7924元，与上一年同比增长4.4％；农村居民人均消费支出4388元，与上一年同比增长7.8％，则关于2023年第一季度该市居民人均消费支出，下列说法正确的是（）
A．2023年第一季度该市居民人均消费支出6393元
B．居住及食品烟酒两项的人均消费支出总和超过了总人均消费支出的50％
C．城乡居民人均消费支出的差额与上一年同比在缩小
D．医疗保健与教育文化娱乐两项人均消费支出总和约占总人均消费支出的20.6％
考点六、频率分布表
1．现有一个容量为50的样本，其数据的频数分布表如下表所示：
则第4组的频数和频率分别是（）
A．12，0.06B．12，0.24C．18，0.09D．18，0.36
1．某单位招聘员工，有名应聘者参加笔试，随机抽查了其中名应聘者笔试试卷，统计他们的成绩如下表：
若按笔试成绩择优录取名参加面试，由此可预测参加面试的分数线为
A．分B．分C．分D．分
考点七、频率分布直方图
1．（2022·天津·高考真题）将1916到2015年的全球年平均气温（单位：），共100个数据，分成6组：，并整理得到如下的频率分布直方图，则全球年平均气温在区间内的有（）
A．22年B．23年C．25年D．35年
2．（2021·天津·高考真题）从某网络平台推荐的影视作品中抽取部，统计其评分数据，将所得个评分数据分为组：、、、，并整理得到如下的频率分布直方图，则评分在区间内的影视作品数量是（）
A．B．C．D．
3．（2021·全国·高考真题）为了解某地农村经济情况，对该地农户家庭年收入进行抽样调查，将农户家庭年收入的调查数据整理得到如下频率分布直方图：
根据此频率分布直方图，下面结论中不正确的是（）
A．该地农户家庭年收入低于4.5万元的农户比率估计为6%
B．该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C．估计该地农户家庭年收入的平均值不超过6.5万元
D．估计该地有一半以上的农户，其家庭年收入介于4.5万元至8.5万元之间
4．（2022·全国·高考真题）在某地区进行流行病学调查，随机调查了100位某种疾病患者的年龄，得到如下的样本数据的频率分布直方图：

(1)估计该地区这种疾病患者的平均年龄（同一组中的数据用该组区间的中点值为代表）；
(2)估计该地区一位这种疾病患者的年龄位于区间的概率；
(3)已知该地区这种疾病的患病率为，该地区年龄位于区间的人口占该地区总人口的.从该地区中任选一人，若此人的年龄位于区间，求此人患这种疾病的概率．（以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率，精确到0.0001）.
1．（2024·湖北黄冈·模拟预测）为了解高中学生每天的体育活动时间,某市教育部门随机抽取高中学生进行调查,把每天进行体育活动的时间按照时长（单位：分钟）分成组:,40,50,50,60,60,70,,.然后对统计数据整理得到如图所示的频率分布直方图,则可估计这名学生每天体育活动时间的第百分位数为（）
A．B．C．D．
2．（2024·广西桂林·模拟预测）（多选）某次数学考试后，为分析学生的学习情况，某校从某年级中随机抽取了100名学生的成绩，整理得到如图所示的频率分布直方图．为进一步分析高分学生的成绩分布情况，计算得到这100名学生中，成绩位于80,90内的学生成绩方差为12，成绩位于内的同学成绩方差为10．则（）
A．
B．估计该年级学生成绩的中位数约为77.14
C．估计该年级成绩在80分及以上的学生成绩的平均数为87.50
D．估计该年级成绩在80分及以上的学生成绩的方差为32
3．（2024·福建泉州·模拟预测）（多选）某校在开展“弘扬中华传统文化，深植文化自信之根”主题教育的系列活动中，举办了“诵读国学经典，传承中华文明”知识竞赛．赛前为了解学生的备赛情况，组织对高一年和高二年学生的抽样测试，测试成绩数据处理后，得到如下频率分布直方图，则下面说法正确的是（）
A．高一年抽测成绩的众数为75
B．高二年抽测成绩低于60分的比率为
C．估计高一年学生成绩的平均分低于高二年学生成绩的平均分
D．估计高一年学生成绩的中位数低于高二年学生成绩的中位数
4．（2024·江苏南京·二模）（多选）2023年10月31日，神舟十六号载人飞船返回舱在东风着陆场成功着陆，激发了学生对航天的热爱.某校组织高中学生参加航天知识竞赛，现从中随机抽取100名学生成绩分为四组，分别为，得到频率分布直方图如图所示，则（）

A．
B．这组样本数据的分位数为88
C．若从这100名学生成绩不低于80分的学生中，随机抽取3人，则此3人的分数都不低于90分的概率为
D．若用样本的频率估计总体，从该校高中学生中随机抽199人，记“抽取199人中成绩不低于90的人数为”的事件为，则最大时，.
考点八、总体百分位数的估计
1．（2024·江西·一模）从1984年第23届洛杉矶夏季奥运会到2024年第33届巴黎夏季奥运会，我国获得的夏季奥运会金牌数依次为15、5、16、16、28、32、51、38、26、38、40，这11个数据的分位数是（）
A．16B．30C．32D．51
2．（2024·安徽·模拟预测）一组数据按从小到大的顺序排列为2，4，m，12，16，17，若该组数据的中位数是极差的，则该组数据的第40百分位数是 .
3．（2024·广东广州·模拟预测）（多选）已知，，，，，为依次增大的一组数据，则去掉和后，这组数据的（）一定减小.
A．极差B．下四分位数C．上四分位数D．中位数
1．（2024·安徽六安·模拟预测）样本数据16，20，24，21，22，18，14，28的分位数为（）
A．16B．17C．23D．24
2．（2024·河南周口·模拟预测）已知一组从小到大排列的数据：a，2，2，4，4，5，6，b，8，8，若其第70百分位数等于其极差，则 .
考点九、总体集中趋势的估计
1．（2023·全国·高考真题）（多选）有一组样本数据，其中是最小值，是最大值，则（）
A．的平均数等于的平均数
B．的中位数等于的中位数
C．的标准差不小于的标准差
D．的极差不大于的极差
2．（2024·黑龙江哈尔滨·三模）如图所示，下列频率分布直方图显示了三种不同的形态.图（1）形成对称形态，图（2）形成“右拖尾”形态，图（3）形成“左拖尾”形态，根据所给图作出以下判断，正确的是（）
A．图（1）的平均数＝中位数＞众数B．图（2）的众数＜中位数＜平均数
C．图（2）的平均数＜众数＜中位数D．图（3）的中位数＜平均数＜众数
3．（2024·重庆九龙坡·三模）（多选）已知样本数据的平均数为2，方差为1，则下列说法正确的是（）
A．数据，的平均数为6
B．数据，的方差为9
C．数据的方差为1
D．数据的平均数为5
1．（23-24高三下·北京·开学考试）设一组数据，则数据的平均值为，30%分位数为 .
2．（2024·广东广州·模拟预测）已知数据，且满足，若去掉，后组成一组新数据，则新数据与原数据相比，有可能变大的是（）
A．平均数B．中位数C．极差D．方差
3．（2024·浙江·三模）（多选）已知a，，有一组样本数据为，3，，，8，10，，12，13，若在这组数据中再插入一个数8，则（）
A．平均数不变B．中位数不变C．方差不变D．极差不变
考点十、总体离散程度的估计
1．（2024·陕西商洛·模拟预测）设一组样本数据的平均值是1，且的平均值是3，则数据的方差是（）
A．1B．2C．3D．4
2．（2024·黑龙江哈尔滨·模拟预测）已知有4个数据的平均值为5，方差为4，现加入数据6和10，则这6个数据的新方差为（）
A．B．C．6D．10
3．（2021·全国·高考真题）（多选）下列统计量中，能度量样本的离散程度的是（）
A．样本的标准差B．样本的中位数
C．样本的极差D．样本的平均数
4．（2021·全国·高考真题）（多选）有一组样本数据，，…，，由这组数据得到新样本数据，，…，，其中(为非零常数，则（）
A．两组样本数据的样本平均数相同
B．两组样本数据的样本中位数相同
C．两组样本数据的样本标准差相同
D．两组样本数据的样本极差相同
5．（2023·全国·高考真题）某厂为比较甲乙两种工艺对橡胶产品伸缩率的处理效应，进行10次配对试验，每次配对试验选用材质相同的两个橡胶产品，随机地选其中一个用甲工艺处理，另一个用乙工艺处理，测量处理后的橡胶产品的伸缩率．甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为，．试验结果如下：
记，记的样本平均数为，样本方差为．
(1)求，；
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高（如果，则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高，否则不认为有显著提高）
6．（2021·全国·高考真题）某厂研制了一种生产高精产品的设备，为检验新设备生产产品的某项指标有无提高，用一台旧设备和一台新设备各生产了10件产品，得到各件产品该项指标数据如下：
旧设备和新设备生产产品的该项指标的样本平均数分别记为和，样本方差分别记为和．
（1）求，，，；
（2）判断新设备生产产品的该项指标的均值较旧设备是否有显著提高（如果，则认为新设备生产产品的该项指标的均值较旧设备有显著提高，否则不认为有显著提高）．
1．（2024·新疆·二模）若数据的平均数为，方差为，则数据的方差为（）
A．B．C．D．
2．（2024·江苏泰州·模拟预测）（多选）已知，有一组数据为，3，，，8，10，，12，13，若在这组数据中去除第5个数8，则（）
A．平均数不变B．中位数不变C．方差不变D．极差不变
3．（2024·云南·模拟预测）某学校高三年级男生共有个，女生共有个，为调查该年级学生的年龄情况，通过分层抽样，得到男生和女生样本数据的平均数和方差分别为和，已知，则该校高三年级全体学生年龄的方差为（）
A．B．
C．D．
14．（2024·辽宁·模拟预测）某工厂为了提高精度，采购了一批新型机器，现对这批机器的生产效能进行测试，对其生产的第一批零件的内径进行测量，统计绘制了如下图所示的频率分布直方图.

(1)求a的值以及这批零件内径的平均值和方差（同一组中的数据用该组区间的中点值作代表）；
(2)以频率估计概率，若在这批零件中随机抽取4个，记内径在区间内的零件个数为，求的分布列以及数学期望；
(3)已知这批零件的内径（单位：mm）服从正态分布，现以频率分布直方图中的平均数作为的估计值，频率分布直方图中的标准差作为的估计值，则在这批零件中随机抽取200个，记内径在区间上的零件个数为，求的方差.
参考数据：，若，则，，.
5．（2024·湖北武汉·模拟预测）四月的武汉被百万株蔷薇花覆盖，形成了全城的花海景观。蔷薇花一般扦插繁殖，园林局为了更好的了解扦插枝条的长度对繁殖状况的影响，选择甲乙两区按比例分层抽样来抽取样本．已知甲区的样本容量，样本平均数，样本方差；乙区的样本容量，样本平均数，样本方差．
(1)求由两区样本组成的总样本的平均数及其方差；（结果保留一位小数）
(2)为了营造“花在风中笑，人在画中游”的美景，甲乙两区决定在各自最大的蔷薇花海公园进行一次书画比赛，两区各派一支代表队参加，经抽签确定第一场在甲区举行．比赛规则如下：每场比赛分出胜负，没有平局，胜方得1分，负方得0分，下一场在负方举行，先得2分的代表队获胜，比赛结束．当比赛在甲区举行时，甲区代表队获胜的概率为，当比赛在乙区举行时，甲区代表队获胜的概率为．假设每场比赛结果相互独立.甲区代表队的最终得分记为X，求X的分布列及的值．
参考数据：．
考点十一、成对数据的统计相关性
1．（2024·上海·高考真题）已知气候温度和海水表层温度相关，且相关系数为正数，对此描述正确的是（）
A．气候温度高，海水表层温度就高
B．气候温度高，海水表层温度就低
C．随着气候温度由低到高，海水表层温度呈上升趋势
D．随着气候温度由低到高，海水表层温度呈下降趋势
2．（2023·天津·高考真题）鸢是鹰科的一种鸟，《诗经·大雅·旱麓》曰：“鸢飞戾天，鱼跃余渊”. 鸢尾花因花瓣形如鸢尾而得名，寓意鹏程万里、前途无量.通过随机抽样，收集了若干朵某品种鸢尾花的花萼长度和花瓣长度（单位：cm），绘制散点图如图所示，计算得样本相关系数为，利用最小二乘法求得相应的经验回归方程为，根据以上信息，如下判断正确的为（）
A．花瓣长度和花萼长度不存在相关关系
B．花瓣长度和花萼长度负相关
C．花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为
D．若从样本中抽取一部分，则这部分的相关系数一定是
3．（2022·全国·高考真题）某地经过多年的环境治理，已将荒山改造成了绿水青山．为估计一林区某种树木的总材积量，随机选取了10棵这种树木，测量每棵树的根部横截面积（单位：）和材积量（单位：），得到如下数据：
并计算得．
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量；
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数（精确到0.01）；
(3)现测量了该林区所有这种树木的根部横截面积，并得到所有这种树木的根部横截面积总和为．已知树木的材积量与其根部横截面积近似成正比．利用以上数据给出该林区这种树木的总材积量的估计值．
附：相关系数．
4．（2020·全国·高考真题）某沙漠地区经过治理，生态系统得到很大改善，野生动物数量有所增加.为调查该地区某种野生动物的数量，将其分成面积相近的200个地块，从这些地块中用简单随机抽样的方法抽取20个作为样区，调查得到样本数据(xi，yi)(i=1，2，…，20)，其中xi和yi分别表示第i个样区的植物覆盖面积(单位：公顷)和这种野生动物的数量，并计算得，，，，.
（1）求该地区这种野生动物数量的估计值（这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数）；
（2）求样本(xi，yi)(i=1，2，…，20)的相关系数（精确到0.01）；
（3）根据现有统计资料，各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计，请给出一种你认为更合理的抽样方法，并说明理由.
附：相关系数r=，≈1.414.
1．（23-24高三下·云南昆明·阶段练习）两个变量y与x的回归模型中，分别选择了4个不同模型，它们的决定系数如下，其中拟合效果最好的模型是（）
A．模型1（决定系数为0.97）B．模型2（决定系数为0.85）
C．模型3（决定系数为0.40）D．模型4（决定系数为0.25）
2．（2024·贵州贵阳·模拟预测）（多选）某厂近几年陆续购买了几台 A 型机床，该型机床已投入生产的时间x（单位：年）与当年所需要支出的维修费用y（单位：万元）有如下统计资料：
根据表中的数据可得到经验回归方程为. ，则（）
A．y与x的样本相关系数
B．
C．表中维修费用的第60百分位数为6
D．该型机床已投入生产的时间为 10年时，当年所需要支出的维修费用一定是12.38万元
3．（2024·江苏宿迁·三模）（多选）为了研究y关于x的线性相关关系，收集了5对样本数据（见表格），若已求得一元线性回归方程为，则下列选项中正确的是（）
A．
B．当时的残差为
C．样本数据y的40百分位数为1
D．去掉样本点后，y与x的相关系数不会改变
4．（2024·河南新乡·模拟预测）氮氧化物是一种常见的大气污染物，下图为我国2015年至2023年氮氧化物排放量（单位：万吨）的折线图，其中年份代码1~9分别对应年份2015~2023．
已知，，，．
(1)可否用线性回归模型拟合与的关系？请分别根据折线图和相关系数加以说明．
(2)若根据所给数据建立回归模型，可否用此模型来预测2024年和2034年我国的氮氧化物排放量？请说明理由．
附：相关系数．
考点十二、一元线性回归模型及其应用
1．（2024·上海·三模）设一组成对数据的相关系数为r，线性回归方程为，则下列说法正确的为（）.
A．越大，则r越大B．越大，则r越小
C．若r大于零，则一定大于零D．若r大于零，则一定小于零
2．（2024·天津·二模）有人通过调查统计发现，儿子成年时的身高与父亲的身高呈线性相关，且儿子成年时的身高（单位：）与父亲的身高（单位：）的经验回归方程为，根据以上信息，下列判断正确的为（）．
A．儿子成年时的身高与父亲的身高的样本相关系数
B．父亲的身高为，儿子成年时的身高一定在到之间
C．父亲的身高每增加，儿子成年时的身高平均增加
D．儿子在成年时的身高一般会比父亲高
3．（2024·山东枣庄·模拟预测）（多选）已知两个变量y与x对应关系如下表：
若y与x满足一元线性回归模型，且经验回归方程为，则（）
A．y与x正相关B．
C．样本数据y的第60百分位数为8D．各组数据的残差和为0
4．（2024·陕西西安·二模）近年来我国新能源汽车行业蓬勃发展，新能源汽车不仅对环境保护具有重大的意义，而且还能够减少对不可再生资源的开发，是全球汽车发展的重要方向．“保护环境，人人有责”，在政府和有关企业的努力下，某地区近几年新能源汽车的购买情况如下表所示：
(1)计算与的相关系数（保留三位小数）；
(2)求关于的线性回归方程，并预测该地区2025年新能源汽车购买数量．
参考公式，，．
参考数值：，．
5．（2024·河北沧州·模拟预测）“南澳牡蛎”是我国地理标志产品，产量高、肉质肥、营养好，素有“海洋牛奶精品”的美誉.2024年该基地考虑增加人工投入，现有以往的人工投入增量x（人）与年收益增量y（万元）的数据如下：
该基地为了预测人工投入增量为16人时的年收益增量，建立了y与x的两个回归模型：
模型①：由最小二乘公式可求得y与x的线性回归方程：；
模型②：由散点图的样本点分布，可以认为样本点集中在曲线：的附近，对人工投入增量x做变换，令，则，且有，，，.
(1)（i）根据所给的统计量，求模型②中y关于x的回归方程（精确到0.1）；
（ii）根据下列表格中的数据，比较两种模型的决定系数，并选择拟合精度更高、更可靠的模型，预测人工投入增量为16人时的年收益增量.
(2)根据养殖规模与以往的养殖经验，产自某南澳牡蛎养殖基地的单个“南澳牡蛎”质量（克）在正常环境下服从正态分布.购买10只该基地的“南澳牡蛎”，会买到质量小于20g的牡蛎的可能性有多大?
附：若随机变量，则，；
样本的最小二乘估计公式为：，，.
1．（2024·上海徐汇·二模）为了研究y关于x的线性相关关系，收集了5组样本数据（见下表）：
若已求得一元线性回归方程为，则下列选项中正确的是（）
A．
B．当时，y的预测值为2.2
C．样本数据y的第40百分位数为1
D．去掉样本点后，x与y的样本相关系数r不会改变
2．（2024·河北·一模）某校为了解本校高一男生身高和体重的相关关系，在该校高一年级随机抽取了7名男生，测量了他们的身高和体重得下表：
由表格制作成如图所示的散点图：

由最小二乘法计算得到经验回归直线的方程为，其相关系数为；经过残差分析，点对应残差过大，把它去掉后，再用剩下的6组数据计算得到经验回归直线的方程为，相关系数为.则下列选项正确的是（）
A．
B．
C．
D．
3．（2024·甘肃陇南·一模）（多选）某厂近几年陆续购买了几台 A 型机床，该型机床已投入生产的时间x(单位：年)与当年所需要支出的维修费用y(单位：万元)有如下统计资料：
根据表中的数据可得到经验回归方程为. 则（）
A．
B．y与x的样本相关系数
C．表中维修费用的第60百分位数为6
D．该型机床已投入生产的时间为 10年时，当年所需要支出的维修费用一定是12.38万元
4．（2024·全国·模拟预测）脑机接口，即指在人或动物大脑与外部设备之间创建的直接连接，实现脑与设备的信息交换.近日埃隆.马斯克宣布，脑机接口公司Neuralink正在接收第二位植入者申请，该试验可以实现意念控制手机和电脑.未来10到20年，我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求，同时兼顾企业盈利的预期，某科技公司决定增加一定数量的研发人员，经过调研，得到年收益增量（单位：亿元）与研发人员增量（人）的10组数据.现用模型①，②分别进行拟合，由此得到相应的经验回归方程，并进行残差分析，得到如图所示的残差图.
根据收集到的数据，计算得到下表数据，其中.
(1)根据残差图，判断应选择哪个模型；（无需说明理由）
(2)根据（1）中所选模型，求出关于的经验回归方程；并用该模型预测，要使年收益增量超过8亿元，研发人员增量至少多少人？（精确到1）
附：对于一组具有线性相关关系的数据，其经验回归直线的斜率和截距的最小二乘估计分别为
5．（2024·江西九江·三模）车胎凹槽深度是影响汽车刹车的因素，汽车行驶会导致轮胎胎面磨损.某实验室通过实验测得轿车行驶里程与某品牌轮胎凹槽深度的数据，如下表所示：
(1)求该品牌轮胎凹槽深度与行驶里程的相关系数，并判断二者之间是否具有很强的线性相关性；（结果保留两位有效数字）
(2)根据我国国家标准规定：轿车轮胎凹槽安全深度为（当凹槽深度低于时刹车距离增大，驾驶风险增加，必须更换新轮胎）.某人在保养汽车时将小轿车的轮胎全部更换成了该品牌的新轮胎，请问在正常行驶情况下，更换新轮胎后继续行驶约多少公里需对轮胎再次更换？
附：变量与的样本相关系数；对于一组数据，，其线性回归方程的斜率和截距的最小二乘估计分别为：.
考点十三、列联表与独立性检验
1．（2024·江苏盐城·模拟预测）根据分类变量Ⅰ与Ⅱ的统计数据，计算得到，则（）
A．变量Ⅰ与Ⅱ相关
B．变量Ⅰ与Ⅱ相关，这个结论犯错误的概率不超过0.1
C．变量Ⅰ与Ⅱ不相关
D．变量Ⅰ与Ⅱ不相关，这个结论犯错误的概率不超过0.1
2．（2024·广东江门·模拟预测）（多选）某中学为更好的开展素质教育，现对外出研学课程是否和性别有关做了一项调查，其中被调查的男生和女生人数相同，且男生中选修外出研学课程的人数占男生总人数的，女生中选修外出研学课程的人数占女生总人数的．若依据的独立性检验，可以认为“选修外出研学课程与性别有关”．则调查人数中男生可能有（）
附：
，其中
A．150人B．225人C．300人D．375人
3．（2024·湖南益阳·一模）某公园为了提升公园形象，提高游客旅游的体验感，他们更新了部分设施，调整了部分旅游线路.为了解游客对新措施是否满意，随机抽取了100名游客进行调查，男游客与女游客的人数之比为2:3，其中男游客有35名满意，女游客有15名不满意.
(1)完成列联表，依据表中数据，以及小概率值的独立性检验，能否认为游客对公园新措施满意与否与性别有关?
(2)从被调查的游客中按男、女分层抽样抽取5名游客.再随机从这5名游客中抽取3名游客征求他们对公园进一步提高服务质量的建议，其中抽取男游客的人数为.求出的分布列及数学期望.
参考公式：，其中.
参考数据：
1．（2024·四川成都·三模）有甲、乙两个班级进行数学考试，按照大于等于85分为优秀，85分以下为非优秀统计成绩，得到如下所示的列联表：
附：（），
已知在全部105人中随机抽取1人，成绩优秀的概率为，则下列说法正确的是（）
A．甲班人数少于乙班人数
B．甲班的优秀率高于乙班的优秀率
C．表中的值为15，的值为50
D．根据表中的数据，若按的可靠性要求，能认为“成绩与班级有关系”
2．（2024·福建南平·模拟预测）（多选）2023年10月全国多地医院出现较多的支原体肺炎感染患者，患者多以儿童为主．某研究所在某小学随机抽取了46名儿童，得到他们是否接种流感疫苗和是否感染支原体肺炎的情况的相关数据，如下表所示，则（）
附：．
A．
B．
C．认为是否接种流感疫苗与是否感染支原体肺炎有关联，此推断犯错的概率不大于0.1
D．没有充分的证据推断是否接种流感疫苗与是否感染支原体肺炎有关联
3．（2024·广东佛山·模拟预测）某区中考体育科目有必选项目和选考项目，其中篮球为一个选考项目．该区体育老师为了了解初中学生的性别和喜欢篮球是否有关，随机调查了该区1000名初中学生，得到成对样本数据的分类统计结果，如下表所示：
(1)依据的独立性检验，能否认为该区初中学生的性别与喜欢篮球有关联；
(2)用按性别比例分配的分层随机抽样的方法从参与调查的喜欢篮球的600名初中学生中抽取8名学生做进一步调查，将这8名学生作为一个样本，从中随机抽取3人，用X表示随机抽取的3人中女生的人数，求X的分布列和数学期望．
附：参考数据
，其中．
一、单选题
1．（2024·四川南充·一模）甲同学近10次数学考试成绩情况如下：103，106，113，119，123，118，134，118，125，121，则甲同学数学考试成绩的第75百分位数是（）
A．118B．121C．122D．123
2．（2024·广东珠海·模拟预测）下列说法正确的是（）
A．一组数据的标准差为0，则这组数据中的数均相等
B．两组数据的标准差相等，则这两组数据的平均数相等
C．若两个变量的相关系数越接近于0，则这两个变量的相关性越强
D．已知变量，由它们的样本数据计算得到的观测值的部分临界值如下表：
则在犯错误的概率不超过0.025的前提下认为变量没有关系
3．（2024·江苏苏州·模拟预测）设研究某两个属性变量时，作出零假设并得到2×2列联表，计算得，则下列说法正确的是（）
A．有99.5%的把握认为不成立B．有5%的把握认为的反面正确
C．有95%的把握判断正确D．有95%的把握能反驳
4．（2024·安徽芜湖·模拟预测）下列说法正确的是（）
A．若随机变量，则当较小时，对应的正态曲线“矮胖”，随机变量X的分布比较分散
B．在做回归分析时，可以用决定系数刻画模型回归效果，越小，说明模型拟合的效果越好
C．一元线性回归模型中，如果相关系数，表明两个变量的相关程度很强
D．在列联表中，若所有数据均变成原来的2倍，则不变（，其中）
二、多选题
5．（2024·海南海口·模拟预测）某校为了解学生的身体状况，随机抽取了50名学生测量体重，经统计，这些学生的体重数据（单位：千克）全部介于45至70之间，将数据整理得到如图所示的频率分布直方图，则（）
A．频率分布直方图中的值为0.04
B．这50名学生体重的众数约为52.5
C．该校学生体重的上四分位数约为61.25
D．这50名学生中体重不低于65千克的人数约为10
6．（2024·湖北武汉·模拟预测）某科技公司统计了一款App最近5个月的下载量如表所示，若与线性相关，且线性回归方程为，则（）
A．与负相关B．
C．预测第6个月的下载量是2.1万次D．残差绝对值的最大值为0.2
7．（2024·江西新余·模拟预测）已知对个数据做如下变换：当为奇数时，对应的变为；当为偶数时，对应的变为，则对于该组数据的变化，下列情况中可能发生的是：（）.
A．平均数增大B．方差不变
C．分位数减小D．众数减小
三、填空题
8．（2024·四川成都·模拟预测）已知关于x的一组数据：
根据表中数据得到的线性回归直线方程为，则的值．
四、解答题
9．（2024·浙江嘉兴·二模）为了有效预防流感，很多民众注射了流感疫苗.市防疫部门随机抽取了1000人进行调查，发现其中注射疫苗的800人中有220人感染流感，另外没注射疫苗的200人中有80人感染流感.医学研究表明，流感的检测结果有检错的可能，已知患流感的人其检测结果有呈阳性（流感），而没有患流感的人其检测结果有呈阴性（未感染）
(1)估计该市流感感染率是多少？
(2)根据所给的数据，判断是否有99％的把握认为注射流感疫苗与预防流感有关；
(3)已知某人的流感检查结果呈阳性，求此人真的患有流感的概率.（精确到0.001）
附：．
10．（2024·陕西安康·模拟预测）某乒乓球训练机构以训练青少年为主，其中有一项打定点训练，就是把乒乓球打到对方球台的指定位置（称为“准点球”），在每周末，记录每个接受训练的学员在训练时打的所有球中“准点球”的百分比（），A学员已经训练了1年，下表记录了学员最近七周“准点球”的百分比：
若.
(1)根据上表数据，计算与的相关系数，并说明与的线性相关性的强弱；
（若，则认为与线性相关性很强；若，则认为与线性相关性一般；若，则认为与线性相关性较弱）（精确到）
(2)求关于的回归方程，并预测第周“准点球”的百分比.（精确到）
参考公式和数据：
，，
.
一、单选题
1．（2024·江苏镇江·三模）命题P：的平均数与中位数相等；命题Q：是等差数列，则P是Q的（）
A．充分不必要条件B．必要不充分条件
C．充要条件D．既不充分也不必要条件
2．（2024·江西新余·模拟预测）已知一组数据大致呈线性分布，其回归直线方程为，则的最小值为（）.
A．B．C．D．无法确定
3．（2024·吉林·模拟预测）设样本数据，，…，的平均数为，标准差为，若样本数据，，…，的平均数比标准差少3，则的最大值为（）
A．1B．C．4D．
二、多选题
4．（2024·湖南邵阳·三模）为了解一片经济林的生长情况，随机抽取了其中60株树木，测量底部周长（单位：cm），所得数据均在区间内，其频率分布直方图如图所示，则（）
A．图中的值为0.025
B．样本中底部周长不小于110cm的树木有12株
C．估计该片经济林中树木的底部周长的分位数为115
D．估计该片经济林中树木的底部周长的平均数为104（每组数据用该组所在区间的中点值作代表）
5．（2024·辽宁·模拟预测）已知由样本数据组成的一个样本，得到回归直线方程为，且，去除两个歧义点和后，得到新的回归直线的回归系数为2.5，则下列说法正确的是（）
A．相关变量具有正相关关系
B．去除两个歧义点后，随值增加相关变量值增加速度变小
C．去除两个歧义点后，重新求得回归方程对应的直线一定过点
D．去除两个歧义点后，重新求得的回归直线方程为
6．（2024·吉林长春·模拟预测）已知变量x和变量y的一组成对样本数据（）的散点落在一条直线附近，，，相关系数为，线性回归方程为，则（）
A．当越大时，成对样本数据的线性相关程度越强
B．当时，
C．，时，成对样本数据（）的相关系数满足
D．时，成对样本数据（）的线性回归方程满足
参考公式：
7．（2024·福建·模拟预测）已知一组数据的平均数、中位数、众数依次成等差数列，现在丢失了其中一个数据，另外六个数据分别是7，9，10，7，15，7．将丢失数据的所有可能值从小到大排列成数列an，记，则（）
A．B．
C．an是等差数列D．an是等比数列
8．（2024·湖北·模拟预测）已知互不相同的20个样本数据，若去掉其中最大和最小的数据，设剩下的18个样本数据的方差为，平均数；去掉的两个数据的方差为，平均数；原样本数据的方差为，平均数，若，则（）
A．
B．
C．剩下18个数据的中位数大于原样本数据的中位数
D．剩下18个数据的分位数不等于原样本数据的分位数
三、解答题
9．（2024·海南海口·模拟预测）制定适合自己的学习计划并在学习过程中根据自己的实际情况有效地安排和调整学习方法是一种有效的学习策略．某教师为研究学生制定学习计划并坚持实施和数学成绩之间的关系，得到如下数据：
(1)依据小概率值的独立性检验，能否认为“制定学习计划并坚持实施”和“数学成绩高于分”有关联？
(2)若该校高三年级每月进行一次月考，该校学生小明在高三开学初认真制定了学习计划，其中一项要求自己每天要把错题至少重做一遍，做对为止．以下为小明坚持实施计划的月份和他在学校数学月考成绩的校内名次数据：
参考数据：，．
（ⅰ）求月考校内名次与时间代码的线性回归方程；
（ⅱ）该校老师给出了上一年该校学生高考（月初考试）数学成绩在校内的名次和在全省名次的部分数据：
利用数据分析软件，根据以上数据得出了两个回归模型和决定系数：
在以上两个模型中选择“较好”模型（说明理由），并结合问题（ⅰ）的回归方程，依据“较好”模型预测小明如果能坚持实施学习计划，他在次年高考中数学成绩的全省名次（名次均保留整数）．（参考数据：，，）
附：（ii），其中．
（i）对于一组数据，其回归直线的斜率和截距的最小二乘估计分别为：，．
10．（2024·江苏无锡·模拟预测）由于人们对工业高度发达的负面影响预料不够，预防不利，导致了全球性的三大危机：资源短缺、环境污染、生态破坏环境污染指自然的或人为的破坏，向环境中添加某种物质而超过环境的自净能力而产生危害的行为或由于人为的因素，环境受到有害物质的污染，使生物的生长繁殖和人类的正常生活受到有害影响由于人为因素使环境的构成或状态发生变化，环境质量下降，从而扰乱和破坏了生态系统和人类的正常生产和生活条件的现象据研究，某种污染物具有极强的污染力，现在对这种污染物的污染力进行调查研究，通过实验调查，可以得到某地区该污染物到来后的污染时间小时与该污染物的污染面积平方米的一些数据如下：
通过分析可知，数据与之间存在很强的线性回归关系．
(1)求出与之间的关系式；
(2)根据中的关系式，该污染物到来后的污染时间是多少时，该污染物的污染面积的平均增长最慢？
参考公式：对于一组数据，其回归直线的斜率和截距的最小二乘估计分别，．．
1．（2024·天津·高考真题）下列图中，线性相关性系数最大的是（）
A．B．
C．D．
2．（2024·全国·高考真题）某工厂进行生产线智能化升级改造，升级改造后，从该工厂甲、乙两个车间的产品中随机抽取150件进行检验，数据如下：
(1)填写如下列联表：
能否有的把握认为甲、乙两车间产品的优级品率存在差异？能否有的把握认为甲，乙两车间产品的优级品率存在差异？
(2)已知升级改造前该工厂产品的优级品率，设为升级改造后抽取的n件产品的优级品率.如果，则认为该工厂产品的优级品率提高了，根据抽取的150件产品的数据，能否认为生产线智能化升级改造后，该工厂产品的优级品率提高了？（）
附：
3．（2024·上海·高考真题）为了解某地初中学生体育锻炼时长与学业成绩的关系，从该地区29000名学生中抽取580人，得到日均体育锻炼时长与学业成绩的数据如下表所示：
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少？
(2)估计该地区初中学生日均体育锻炼的时长（精确到0.1）
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关？
（附：其中，．）
4．（2023·全国·高考真题）一项试验旨在研究臭氧效应，试验方案如下：选40只小白鼠，随机地将其中20只分配到试验组，另外20只分配到对照组，试验组的小白鼠饲养在高浓度臭氧环境，对照组的小白鼠饲养在正常环境，一段时间后统计每只小白鼠体重的增加量（单位：g）．试验结果如下：
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数；
(2)（ⅰ）求40只小白鼠体重的增加量的中位数m，再分别统计两样本中小于m与不小于m的数据的个数，完成如下列联表
（ⅱ）根据（i）中的列联表，能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异？
附：，
5．（2023·全国·高考真题）一项试验旨在研究臭氧效应.实验方案如下：选40只小白鼠，随机地将其中20只分配到实验组，另外20只分配到对照组，实验组的小白鼠饲养在高浓度臭氧环境，对照组的小白鼠饲养在正常环境，一段时间后统计每只小白鼠体重的增加量（单位：g）.
(1)设表示指定的两只小白鼠中分配到对照组的只数，求的分布列和数学期望；
(2)实验结果如下：
对照组的小白鼠体重的增加量从小到大排序为：
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
实验组的小白鼠体重的增加量从小到大排序为：
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
（i）求40只小鼠体重的增加量的中位数m，再分别统计两样本中小于m与不小于的数据的个数，完成如下列联表：
（ii）根据（i）中的列联表，能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异．
附：
6．（2023·全国·高考真题）某厂为比较甲乙两种工艺对橡胶产品伸缩率的处理效应，进行10次配对试验，每次配对试验选用材质相同的两个橡胶产品，随机地选其中一个用甲工艺处理，另一个用乙工艺处理，测量处理后的橡胶产品的伸缩率．甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为，．试验结果如下：
记，记的样本平均数为，样本方差为．
(1)求，；
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高（如果，则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高，否则不认为有显著提高）
7．（2022·北京·高考真题）在北京冬奥会上，国家速滑馆“冰丝带”使用高效环保的二氧化碳跨临界直冷制冰技术，为实现绿色冬奥作出了贡献．如图描述了一定条件下二氧化碳所处的状态与T和的关系，其中T表示温度，单位是K；P表示压强，单位是．下列结论中正确的是（）
A．当，时，二氧化碳处于液态
B．当，时，二氧化碳处于气态
C．当，时，二氧化碳处于超临界状态
D．当，时，二氧化碳处于超临界状态
8．（2022·全国·高考真题）某社区通过公益讲座以普及社区居民的垃圾分类知识．为了解讲座效果，随机抽取10位社区居民，让他们在讲座前和讲座后各回答一份垃圾分类知识问卷，这10位社区居民在讲座前和讲座后问卷答题的正确率如下图：
则（）
A．讲座前问卷答题的正确率的中位数小于
B．讲座后问卷答题的正确率的平均数大于
C．讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D．讲座后问卷答题的正确率的极差大于讲座前正确率的极差
9．（2022·全国·高考真题）甲、乙两城之间的长途客车均由A和B两家公司运营，为了解这两家公司长途客车的运行情况，随机调查了甲、乙两城之间的500个班次，得到下面列联表：
(1)根据上表，分别估计这两家公司甲、乙两城之间的长途客车准点的概率；
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关？
附：，
10．（2022·全国·高考真题）一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯（卫生习惯分为良好和不够良好两类）的关系，在已患该疾病的病例中随机调查了100例（称为病例组），同时在未患该疾病的人群中随机调查了100人（称为对照组），得到如下数据：
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异？
(2)从该地的人群中任选一人，A表示事件“选到的人卫生习惯不够良好”，B表示事件“选到的人患有该疾病”．与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标，记该指标为R．
（ⅰ）证明：；
（ⅱ）利用该调查数据，给出的估计值，并利用（ⅰ）的结果给出R的估计值．
附，
11．（2021·全国·高考真题）甲、乙两台机床生产同种产品，产品按质量分为一级品和二级品，为了比较两台机床产品的质量，分别用两台机床各生产了200件产品，产品的质量情况统计如下表：
（1）甲机床、乙机床生产的产品中一级品的频率分别是多少?
（2）能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附：
12．（2020·江苏·高考真题）已知一组数据的平均数为4，则的值是 .
13．（2020·全国·高考真题）在一组样本数据中，1，2，3，4出现的频率分别为，且，则下面四种情形中，对应样本的标准差最大的一组是（）
A．B．
C．D．
14．（2020·全国·高考真题）设一组样本数据x1，x2，…，xn的方差为0.01，则数据10x1，10x2，…，10xn的方差为（）
A．0.01B．0.1C．1D．10
15．（2020·全国·高考真题）某校一个课外学习小组为研究某作物种子的发芽率y和温度x（单位：°C）的关系，在20个不同的温度条件下进行种子发芽实验，由实验数据得到下面的散点图：
由此散点图，在10°C至40°C之间，下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是（）
A．B．
C．D．
16．（2020·海南·高考真题）我国新冠肺炎疫情进入常态化，各地有序推进复工复产，下面是某地连续11天复工复产指数折线图，下列说法正确的是
A．这11天复工指数和复产指数均逐日增加;
B．这11天期间，复产指数增量大于复工指数的增量;
C．第3天至第11天复工复产指数均超过80%;
D．第9天至第11天复产指数增量大于复工指数的增量;
17．（2020·天津·高考真题）从一批零件中抽取80个，测量其直径（单位：），将所得数据分为9组：，并整理得到如下频率分布直方图，则在被抽取的零件中，直径落在区间内的个数为（）
A．10B．18C．20D．36
18．（2020·全国·高考真题）某厂接受了一项加工业务，加工出来的产品(单位：件)按标准分为A，B，C，D四个等级.加工业务约定：对于A级品、B级品、C级品，厂家每件分别收取加工费90元，50元，20元；对于D级品，厂家每件要赔偿原料损失费50元.该厂有甲、乙两个分厂可承接加工业务.甲分厂加工成本费为25元/件，乙分厂加工成本费为20元/件.厂家为决定由哪个分厂承接加工业务，在两个分厂各试加工了100件这种产品，并统计了这些产品的等级，整理如下：
甲分厂产品等级的频数分布表
乙分厂产品等级的频数分布表
（1）分别估计甲、乙两分厂加工出来的一件产品为A级品的概率；
（2）分别求甲、乙两分厂加工出来的100件产品的平均利润，以平均利润为依据，厂家应选哪个分厂承接加工业务?
19．（2017·全国·高考真题）为了监控某种零件的一条生产线的生产过程，检验员每隔从该生产线上随机抽取一个零件，并测量其尺寸（单位：）．下面是检验员在一天内依次抽取的16个零件的尺寸：
经计算得，，
，其中为抽取的第个零件的尺寸，．
（1）求的相关系数，并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小（若，则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小）．
（2）一天内抽检零件中，如果出现了尺寸在之外的零件，就认为这条生产线在这一天的生产过程可能出现了异常情况，需对当天的生产过程进行检查．
（ⅰ）从这一天抽检的结果看，是否需对当天的生产过程进行检查？
（ⅱ）在之外的数据称为离群值，试剔除离群值，估计这条生产线当天生产的零件尺寸的均值与标准差．（精确到）附：样本的相关系数
，．
20．（2016·全国·高考真题）下图是我国2008年至2014年生活垃圾无害化处理量（单位：亿吨）的折线图.

（Ⅰ）由折线图看出，可用线性回归模型拟合y与t的关系，请用相关系数加以说明；
（Ⅱ）建立y关于t的回归方程（系数精确到0.01），预测2016年我国生活垃圾无害化处理量.
附注：
参考数据：，，
，≈2.646.
参考公式：相关系数
回归方程中斜率和截距的最小二乘估计公式分别为：
5年考情
考题示例
考点分析
关联考点
2024年新Ⅱ卷，第4题,5分
计算几个数的中位数
计算几个数的平均数
计算几个数据的极差
/
2023年新I卷，第9题,5分
计算几个数的中位数
计算几个数的平均数
计算几个数据的极差、方差
标准差
/
2023年新Ⅱ卷，第19题,12分
频率分布直方图的实际应用
总体百分位数的估计
/
2023年全国甲卷（理），
第19题,12分
独立性检验解决实际问题
计算几个数的中位数
超几何分布的均值
超几何分布的分布列
2023年全国乙卷（理），
第17题,12分
计算几个数的平均数
计算几个数据的极差、方差、标准差
统计新定义
2022年新I卷，第20题,12分
独立性检验解决实际问题
计算条件概率
2022年新Ⅱ卷，第19题,12分
频率分布直方图的实际应用
由频率分布直方图估计平均数
利用对立事件的概率公式求概率
计算条件概率
2022年全国甲卷（理），
第2题,5分
众数、平均数、中位数的比较
计算几个数据的极差、方差、标准差
/
2022年全国乙卷（理），
第19题,12分
相关系数的计算
根据样本中心点求参数
计算几个数的平均数
2021年新I卷，第9题,5分
众数、平均数、中位数的比较
计算几个数据的极差、方差、标准差
/
2021年新Ⅱ卷，第9题,5分
计算几个数的众数
计算几个数的中位数
计算几个数的平均数
计算几个数据的极差、方差、标准差
/
2021年全国乙卷（理），
第17题,10分
独立性检验解决实际问题
/
2021年全国甲卷（理），
第2题,5分
由频率分布直方图计算频率、频数、样本容量、总体容量
由频率分布直方图估计平均数
/
2021年全国甲卷（理），
第17题,10分
计算几个数的平均数
计算几个数据的极差、方差、标准差
/
2020年新I卷，第19题,12分
完善列联表
独立性检验
/
2020年新Ⅱ卷，第19题,12分
完善列联表
独立性检验
/
2020年全国甲卷（理），
第5题,5分
由散点图画求近似回归直线
/
2020年全国乙卷（理），
第18题,12分
相关系数的计算
/
2020年全国丙卷（理），
第18题,12分
独立性检验解决实际问题
/
2020年新Ⅱ卷，第9题,5分
根据折线统计图解决实际问题
/
y1
y2
总计
x1
a
b
a＋b
x2
c
d
c＋d
总计
a＋c
b＋d
a＋b＋c＋d
组号
1
2
3
4
5
频数
8
11
10
9
分数段
人数
1
3
6
6
2
1
1
试验序号
1
2
3
4
5
6
7
8
9
10
伸缩率
545
533
551
522
575
544
541
568
596
548
伸缩率
536
527
543
530
560
533
522
550
576
536
旧设备
9.8
10.3
10.0
10.2
9.9
9.8
10.0
10.1
10.2
9.7
新设备
10.1
10.4
10.1
10.0
10.1
10.3
10.6
10.5
10.4
10.5
样本号ｉ
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7
1
2
3
4
5
1
x
1
2
3
4
5
y
5
m
8
9
10.5
年份x
2019
2020
2021
2022
2023
新能源汽车购买数量>（万辆）
0.40
0.70
1.10
1.50
1.80
人工投入增量x（人）
2
3
4
6
8
10
13
年收益增量y（万元）
13
22
31
42
50
56
58
回归模型
模型①
模型②
回归方程
182.4
79.2
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
身高（单位：
167
173
175
177
178
180
181
体重（单位：
90
54
59
64
67
72
76
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7
7.5
2.25
82.50
4.50
12.14
2.88
行驶里程万
0.0
0.4
1.0
1.6
2.4
2.8
3.4
4.4
轮胎凹槽深度
8.0
7.8
7.2
6.2
5.6
4.8
4.4
4.0
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
男生
女生
合计
选修外出研学课程
未选修外出研学课程
合计
满意
不满意
总计
男游客
35
女游客
15
合计
100
0.10
0.05
0.010
0.005
2.706
3.841
6.635
7.879
优秀
非优秀
甲班
10
乙班
30
0.05
0.025
0.010
0.005
3.841
5.024
6.635
7.879
感染情况接种情况
感染支原体肺炎
未感染支原体肺炎
合计
接种流感疫苗
未接种流感疫苗
合计
46
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
性别
是否喜欢篮球
合计
喜欢
不喜欢
男生
450
150
600
女生
150
250
400
合计
600
400
1000
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
0.1
0.05
0.025
0.01
2.706
3.841
5.024
6.635
月份编号
1
2
3
4
5
下载量（万次）
5
4.5
4
3.5
2.5
x
1
m
3
4
5
y
0.5
0.6
n
1.3
1.4
0.050
0.010
0.001
k
3.841
6.635
10.828
周次（x）
1
2
3
4
5
6
7
52
52.8
53.5
54
54.5
54.9
55.3
成绩分
成绩分
合计
制定学习计划并坚持实施
没有制定学习计划
合计
50
月考时间
月初
月初
次年月初
次年月初
次年月初
时间代码
月考校内名次
校内名次
全省名次
模型①
模型②
优级品
合格品
不合格品
总计
甲车间
26
24
0
50
乙车间
70
28
2
100
总计
96
52
2
150
优级品
非优级品
甲车间
乙车间
0.050
0.010
0.001
k
3.841
6.635
10.828
时间范围学业成绩
优秀
5
44
42
3
1
不优秀
134
147
137
40
27
对照组
试验组
0.100
0.050
0.010
2.706
3.841
6.635
对照组
实验组
0.100
0.050
0.010
2.706
3.841
6.635
试验序号
1
2
3
4
5
6
7
8
9
10
伸缩率
545
533
551
522
575
544
541
568
596
548
伸缩率
536
527
543
530
560
533
522
550
576
536
准点班次数
未准点班次数
A
240
20
B
210
30
0.100
0.050
0.010
2.706
3.841
6.635
不够良好
良好
病例组
40
60
对照组
10
90
0.050
0.010
0.001
k
3.841
6.635
10.828
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
0.050
0.010
0.001
k
3.841
6.635
10.828
等级
A
B
C
D
频数
40
20
20
20
等级
A
B
C
D
频数
28
17
34
21
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9．95
10．12
9．96
9．96
10．01
9．92
9．98
10．04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10．26
9．91
10．13
10．02
9．22
10．04
10．05
9．95
第09讲统计与统计案例
（13类核心考点精讲精练）
1. 5年真题考点分布
2. 命题规律及备考策略
【命题规律】本节内容是新高考卷的常考内容，设题不定，难度中等或偏难，分值为5-15分
【备考策略】1.理解、掌握简单随机抽样、分层抽样定义及计算
2.理解、掌握总体样本估计的定义及计算
3.理解、掌握线性回归的定义及计算
4.理解、掌握独立性检验的定义及计算
【命题预测】本节内容是新高考卷的常考内容，一般给在大题中结合前面的的概率及分布列一起考查，需重点强化复习
知识讲解
1．简单随机抽样
(1)定义：一般地，设一个总体含有N个个体，从中逐个不放回地抽取n个个体作为样本(n≤N)，如果每次抽取时总体内的各个个体被抽到的机会都相等，就把这种抽样方法叫做简单随机抽样．这样抽取的样本，叫做简单随机样本．
(2)常用方法：抽签法和随机数法．
2．分层抽样
(1)在抽样时，将总体分成互不交叉的层，然后按照一定的比例，从各层独立地抽取一定数量的个体，将各层取出的个体合在一起作为样本，这种抽样方法是一种分层抽样．
(2)分层抽样的应用范围
当总体是由差异明显的几个部分组成时，往往选用分层抽样．
3．频率分布直方图
(1)纵轴表示eq \f(频率,组距)，即小长方形的高＝eq \f(频率,组距)；
(2)小长方形的面积＝组距×eq \f(频率,组距)＝频率；
(3)各个小方形的面积总和等于1.
频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标．
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和．
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的．
4．频率分布表的画法
第一步：求极差，决定组数和组距，组距＝eq \f(极差,组数)；
第二步：分组，通常对组内数值所在区间取左闭右开区间，最后一组取闭区间；
第三步：登记频数，计算频率，列出频率分布表．
5．条形图、折线图及扇形图
(1)条形图：建立直角坐标系，用横轴(横轴上的数字)表示样本数据类型，用纵轴上的单位长度表示一定的数量，根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形，然后把这些矩形按照一定的顺序排列起来，这样一种表达和分析数据的统计图称为条形图．
(2)折线图：建立直角坐标系，用横轴上的数字表示样本值，用纵轴上的单位长度表示一定的数量，根据样本值和数量的多少描出相应各点，然后把各点用线段顺次连接，得到一条折线，用这种折线表示出样本数据的情况，这样的一种表示和分析数据的统计图称为折线图．
(3)扇形图：用一个圆表示总体，圆中各扇形分别代表总体中的不同部分，每个扇形的大小反映所表示的那部分占总体的百分比的大小，这样的一种表示和分析数据的统计图称为扇形图．
6．百分位数、众数、平均数的定义
(1)如果将一组数据从小到大排序，并计算相应的累计百分位，则某一百分位所对应数据的值就称为这一百分位的百分位数．
一般地，一组数据的第p百分位数是这样一个值，
它使得这组数据中至少有p%的数据小于或等于这个值，且至少有(100－p)%的数据大于或等于这个值．
(2)第25百分位数又称第一四分位数或下四分位数；
第75百分位数又称第三四分位数或上四分位数．
(3)众数
一组数据中出现次数最多的数据叫做这组数据的众数．
(4)平均数
一组数据的算术平均数即为这组数据的平均数，n个数据x1，x2，…，xn的平均数eq \x\t(x)＝eq \f(1,n)(x1＋x2＋…＋xn)．
7．样本的数字特征之方差
如果有n个数据x1，x2，…，xn，那么这n个数的
(1)标准差s＝ eq \r(\f(1,n)[x1－\x\t(x)2＋x2－\x\t(x)2＋…＋xn－\x\t(x)2]).
(2)方差s2＝eq \f(1,n)[(x1－eq \x\t(x))2＋(x2－eq \x\t(x))2＋…＋(xn－eq \x\t(x))2]．
8. 平均数、方差的公式推广
(1)若数据x1，x2，…，xn的平均数为eq \x\t(x)，则mx1＋a，mx2＋a，mx3＋a，…，mxn＋a的平均数是meq \x\t(x)＋a.
(2)若数据x1，x2，…，xn的方差为s2，则数据ax1＋b，ax2＋b，…，axn＋b的方差为a2s2.
两个变量的线性相关
(1)正相关
在散点图中，点散布在从左下角到右上角的区域，对于两个变量的这种相关关系，我们将它称为正相关．
(2)负相关
在散点图中，点散布在从左上角到右下角的区域，两个变量的这种相关关系称为负相关．
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近，就称这两个变量之间具有线性相关关系，这条直线叫做回归直线．
回归方程
(1)最小二乘法
求回归直线，使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法．
(2)回归方程
方程eq \(y,\s\up6(^))＝eq \(b,\s\up6(^))x＋eq \(a,\s\up6(^))是两个具有线性相关关系的变量的一组数据(x1，y1)，(x2，y2)，…，(xn，yn)的回归方程，其中eq \(a,\s\up6(^))，eq \(b,\s\up6(^))是待定参数．
eq \b\lc\{\rc\ (\a\vs4\al\c1(\(b,\s\up6(^))＝\f(\(∑,\s\up6(n),\s\d4(i＝1)) xi－\x\t(x)yi－\x\t(y),\(∑,\s\up6(n),\s\d4(i＝1)) xi－\x\t(x)2)＝\f(\(∑,\s\up6(n),\s\d4(i＝1))xiyi－n\x\t(x) \x\t(y),\(∑,\s\up6(n),\s\d4(i＝1))x\\al(2,i)－n\x\t(x)2)，,\(a,\s\up6(^))＝\x\t(y)－\(b,\s\up6(^))\x\t(x).))
回归分析
(1)定义：对具有相关关系的两个变量进行统计分析的一种常用方法．
(2)样本点的中心
对于一组具有线性相关关系的数据(x1，y1)，(x2，y2)，…，(xn，yn)，其中(eq \x\t(x)，eq \x\t(y))称为样本点的中心．
(3)相关系数
当r>0时，表明两个变量正相关；
当r2.706时，有90%的把握判定变量A，B有关联；
当χ>3.841时，有95%的把握判定变量A，B有关联；
当χ>6.635时，有99%的把握判定变量A，B有关联．
考点一、简单随机抽样
1．（2024·福建泉州·模拟预测）从一个含有个个体的总体中抽取一容量为的样本，当选取抽签法、随机数法和分层随机抽样三种不同方法时，总体中每个个体被抽中的概率分别为，三者关系可能是（）
A．B．C．D．
【答案】B
【分析】根据抽样的概念，每个个体被抽中的概率是均等的，进而即可选择答案.
【详解】因为在抽签法抽样、随机数法抽样和分层随机抽样中，每个个体被抽中的概率均为，
所以.
故选：B.
2．（2024高一下·全国·专题练习）某中学高一年级有400人，高二年级有320人，高三年级有280人，若用随机数法在该中学抽取容量为n的样本，每人被抽到的可能性都为0.2，则n等于（）
A．80B．160C．200D．280
【答案】C
【分析】根据简单随机抽样概率的求解方法，列出方程计算即可.
【详解】由题意可知，，解得.
故选：C
3．（2024·陕西西安·一模）某高校对中文系新生进行体测，利用随机数表对650名学生进行抽样，先将650名学生进行编号，001，002，…，649，650.从中抽取50个样本，下图提供随机数表的第4行到第6行，若从表中第5行第6列开始向右读取数据，则得到的第6个样本编号是（）
32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 42
84 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 04
32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45
A．623B．328C．072D．457
【答案】A
【分析】按照随机数表提供的数据，三位一组的读数，并取001到650内的数，重复的只取一次即可
【详解】从第5行第6列开始向右读取数据，
第一个数为253，第二个数是313，
第三个数是457，下一个数是860，不符合要求，
下一个数是736，不符合要求，下一个是253，重复，
第四个是007，第五个是328，第六个数是623，，故A正确.
故选：A.
1．（2024·四川成都·模拟预测）用简单随机抽样的方法从含有10个个体的总体中抽取一个容量为3的样本，其中某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是（）
A．，B．，
C．，D．，
【答案】A
【分析】根据简单随机抽样的等可能性，即可判断和选择.
【详解】总体有10个个体，从中抽取第一个，若为，则其可能性为，若不为，则其可能性为；
抽取第二个，若其为，则第一次一定不是，再从9个个体中抽取1个，且为，则其可能性为.
综上所述，某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是.
故选：A.
2．（2024·云南贵州·二模）本次月考分答题卡的任务由高三16班完成，现从全班55位学生中利用下面的随机数表抽取10位同学参加，将这55位学生按01、02、、55进行编号，假设从随机数表第1行第2个数字开始由左向右依次选取两个数字，重复的跳过，读到行末则从下一行行首继续，则选出来的第6个号码所对应的学生编号为（）
0627 4313 2432 5327 0941 2512 6317 6323 2616 8045 6011
1410 9577 7424 6762 4281 1457 2042 5332 3732 2707 3607
0140 0523 2617 3726 3890 5124 5179 3014 2310 2118 2191
A．51B．25C．32D．12
【答案】A
【分析】根据随机数表按照规则读数即可得解.
【详解】根据随机数表读取，分别抽到的编号为31，32，43，25，12，51，26，04，01，11，
所以选出来的第6个号码所对应的学生编号为51，
故选：A
考点二、分层随机抽样
1．（2024·江西南昌·模拟预测）已知三种不同型号的产品数量之比依次为，现用分层抽样的方法抽取容量为的样本，若样本中型号产品有件，则为（）
A．60B．70C．80D．90
【答案】B
【分析】由条件确定型号产品的抽样比，再根据频数，频率，样本容量的关系求.
【详解】因为三种不同型号的产品数量之比依次为，
且用分层抽样的方法抽取一个容量为的样本，
所以型号产品被抽的抽样比为：，
因为型号产品有件，所以，解得.
故选：B.
2．（2023·全国·高考真题）某学校为了解学生参加体育运动的情况，用比例分配的分层随机抽样方法作抽样调查，拟从初中部和高中部两层共抽取60名学生，已知该校初中部和高中部分别有400名和200名学生，则不同的抽样结果共有（）．
A．种B．种
C．种D．种
【答案】D
【分析】利用分层抽样的原理和组合公式即可得到答案.
【详解】根据分层抽样的定义知初中部共抽取人，高中部共抽取，
根据组合公式和分步计数原理则不同的抽样结果共有种.
故选：D.
3．（2024·上海·高考真题）水果分为一级果和二级果，共136箱，其中一级果102箱，二级果34箱．
(1)随机挑选两箱水果，求恰好一级果和二级果各一箱的概率；
(2)进行分层抽样，共抽8箱水果，求一级果和二级果各几箱；
(3)抽取若干箱水果，其中一级果共120个，单果质量平均数为303.45克，方差为603.46；二级果48个，单果质量平均数为240.41克，方差为648.21；求168个水果的方差和平均数，并预估果园中单果的质量．
【答案】(1)
(2)一级果抽取6箱，二级果抽取2箱
(3)方差克，平均数克，预估平均质量为克
【分析】（1）利用组合知识和超几何分布求概率公式求出答案；
（2）利用分层抽样的定义进行求解；
（3）根据公式计算出总体样本平均质量和方差，并预估平均质量.
【详解】（1）设A事件为恰好选到一级果和二级果各一箱，
样本空间的样本点的个数，
A事件的样本点的公式，
所以；
（2）因为一级果箱数：二级果箱数，
所以8箱水果中有一级果抽取箱，二级果抽取箱；
（3）设一级果平均质量为，方差为，二级果质量为，方差为，
总体样本平均质量为，方差为，
因为，，，，
所以克，
克．
预估平均质量为克．
1．（2024·河南·三模）国内某优秀新能源电池制造企业在锂电池单位能量密度技术上取得了重大突破，该制造企业内的某车间有两条生产线，分别生产高能量密度锂电池和低能量密度锂电池，总产量为400个锂电池．质检人员采用分层随机抽样的方法随机抽取了一个容量为80的样本进行质量检测，已知样本中高能量密度锂电池有35个，则估计低能量密度锂电池的总产量为（）．
A．325个B．300个C．225个D．175个
【答案】C
【分析】根据分层抽样计算规则计算可得.
【详解】根据分层随机抽样可知低能量密度锂电池的产量为（个）．
故选：C
2．（2024·黑龙江双鸭山·模拟预测）为了解某校初中学生的近视情况，按年级用分层抽样的方法随机抽取100名学生进行视力检测，已知初一、初二、初三年级分别有800名，600名，600名学生，则不同的抽样结果共有（）
A．B．C．D．
【答案】A
【分析】根据分层抽样可知抽取初一学生40名，初二、初三学生各30名，由分步乘法计数原理即可求解.
【详解】由初一、初二、初三年级分别有800名，600名，600名学生可知，
抽样比为，
按年级用分层抽样的方法随机抽取初一学生40名，初二、初三学生各30名，
根据分步乘法计数原理可知，
不同的抽样结果共有.
故选：.
考点三、条形统计图
1．（2024·江西·二模）下图是我国年纯电动汽车销量统计情况，则下列说法错误的是（）

A．我国纯电动汽车销量呈现逐年增长趋势
B．这六年销量的第60百分位数为536.5万辆
C．2020年销量高于这六年销量的平均值
D．这六年增长率最大的为2019年至2020年
【答案】C
【分析】根据条形图数据一一分析即可.
【详解】对于A，从条形图中看出，纯电动汽车销量逐年递增，故A正确；
对于B，因为，将所有汽车销量数据从小到大排序，
所以销量的第60百分位数为第4个数据，即536.5，故B正确；
对于C，这六年销量的平均数为，故C错误；
对于D，因为2019年至2020年的增长率为，超过其他年份的增长率，故D正确.
故选：C．
2．（2024·全国·模拟预测）如图为某中型综合超市年的年总营业额（单位：万元）的统计图，则下列说法错误的是（）

A．年的年总营业额的极差为2200万元
B．年的年总营业额波动性比年的年总营业额波动性小
C．年的年总营业额逐年上升，2021年跌落低谷，之后每年又呈上升趋势
D．年的年总营业额的中位数是2019年和2020年的年总营业额的平均数
【答案】D
【分析】根据统计图表数据一一分析即可.
【详解】对于A：年的年总营业额的最大值为3400万元，最小值为1200万元，
所以极差为（万元），故A正确；
对于B：年的年总营业额波动性比年的年总营业额波动性小，故B正确；
对于C：年的年总营业额逐年上升，2021年跌落低谷，之后每年又呈上升趋势，故C正确；
对于D：年的年总营业额按从小到大的顺序排列为：
1200万元、2000万元、2100万元、2200万元、2400万元、2800万元、3200万元、3400万元，
所以年年总营业额的中位数是2200万元和2400万元的平均数，
即2017年和2018年的年总营业额的平均数，故D错误．
故选：D
1．（2024·四川达州·二模）下图是某地区2016-2023年旅游收入(单位:亿元)的条形图，则下列说法错误的是（）

A．该地区2016-2019年旅游收入逐年递增
B．该地区2016-2023年旅游收入的中位数是4.30
C．经历了疫情之后，该地区2023年旅游收入恢复到接近2018年水平
D．该地区2016-2023年旅游收入的极差是3.69
【答案】B
【分析】根据中位数、极差的定义即可判断BD；结合图形，分析数据即可判断AC.
【详解】A：由图可知该地区2016-2019年旅游收入逐年递增，故A正确；
B：由图可知，2016-2023年旅游收入的中位数为亿元，故B错误；
C：从图表可知2023年旅游收入为4.91亿元，接近2018年的5.13亿元，故C正确；
D：2016-2023年旅游收入的极差是亿元，故D正确.
故选：B.
2．（2024·陕西西安·模拟预测）国家统计局发布的2018年至2022年我国居民消费水平情况如图所示，则下列说法正确的是（居民消费水平）（）

A．2018年至2022年我国居民消费水平逐年提高
B．2018年至2022年我国城镇居民消费水平逐年提高
C．2018年至2022年我国居民消费水平数据的极差为6463元
D．2022年我国城镇人口数比农村人口数的1.5倍还要多
【答案】D
【分析】对于AB选项，由统计图可得答案；对于C选项，结合题目数据可得答案；对于D选项，由统计图数据结合居民消费水平计算公式可得答案.
【详解】对于A，2019年的居民消费水平比2020年的居民消费水平高，故A错误；
对于B， 2018年至2022年我国城镇居民消费水平不是逐年提高，故B错误；
对于C，2018年至2022年我国居民消费水平数据的极差为6473元，故C错误；
对于D，设我国农村人口数为，城镇人口数为，
则，化简得，
所以2022年我国城镇人口数比农村人口数的1.5倍还要多，故D正确．
故选：D
考点四、折线统计图
1．（2024·辽宁抚顺·三模）（多选）年月日国家统计局发布了制造业采购经理指数（）,如下图所示:
下列说法正确的是（）
A．从年月到年月,这个月的制造业采购经理指数（）的第百分位数为
B．从年月到年月,这个月的制造业采购经理指数（）的极差为
C．从年月到年月制造业采购经理指数（）呈下降趋势
D．大于表示经济处于扩张活跃的状态;小于表示经济处于低迷萎缩的状态,则年月到年月,经济处于扩张活跃的状态
【答案】ABD
【分析】根据折线图中的数据,结合极差、平均数、百分位数定义与计算方法逐一判断即可.
【详解】由图知,从年月到年月,这个月的制造业采购经理指数（）从小到大的顺序为,因为,所以第百分位数为第个数,即为,故A正确;
从年月到年月,这个月的制造业采购经理指数（）的最大值为,最小值为,所以极差为,故B正确;
由图易知制造业采购经理指数（）有升有降,故C错误;
由图知年月到年月PMI均大于,所以经济处于扩张活跃的状态,故D正确.
故选:ABD.
2．（2024·全国·二模）（多选）人均可支配收入和人均消费支出是两个非常重要的经济和民生指标，常被用于衡量一个地区经济发展水平和群众生活水平．下图为2018～2023年前三季度全国城镇居民人均可支配收入及人均消费支出统计图，据此进行分析，则（）
A．2018～2023年前三季度全国城镇居民人均消费支出逐年递增
B．2018～2023年前三季度全国城镇居民人均可支配收入逐年递增
C．2018～2023年前三季度全国城镇居民人均可支配收入的极差比人均消费支出的极差小
D．2018～2023年前三季度全国城镇居民人均消费支出的中位数为21180元
【答案】BD
【分析】根据给定的折线图，结合统计知识逐项分析判断得解.
【详解】对于A，由题中折线图知，20182023年前三季度全国城镇居民人均消费支出先增后减再增，A错误；
对于B，由题中折线图知人均可支配收入逐年递增，B正确；
对于C，20182023年前三季度全国城镇居民人均可支配收入的极差为元，
人均消费支出的极差为元，C错误；
对于D，20182023年前三季度全国城镇居民人均消费支出的中位数为元，D正确.
故选：BD
1．（2024·黑龙江·三模）（多选）在某市初三年级举行的一次体育考试中(满分100分)，所有考生成绩均在[50,100]内，按照[50,60)，[60,70)，[70,80)，[80,90)，[90,100]分成五组，甲、乙两班考生的成绩占比如图所示，则下列说法错误的是（）

A．成绩在[70,80)的考生中，甲班人数多于乙班人数
B．甲班成绩在[80,90)内人数最多
C．乙班成绩在[70,80)内人数最多
D．甲班成绩的极差比乙班成绩的极差小
【答案】ACD
【分析】根据折线统计图逐个分析判断即可.
【详解】对于A，由图知，每一组中的成绩占比都是以各自班级的总人数为基数的，
所以每一组中的甲班、乙班人数不能从所占的百分比来判断，故A错误；
对于BC，由图可知甲班成绩主要集中在[80,90)，乙班成绩主要集中在[60,70)，B正确，C错误；
对于D，由图可知甲班成绩的极差和乙班成绩的极差的大小无法确定，故D错误.
故选：ACD
2．（23-24高三下·山东·开学考试）（多选）进入冬季哈尔滨旅游火爆全网，下图是2024年1月1．日到1月7日哈尔滨冰雪大世界和中央大街日旅游人数的折线图，则（）
A．中央大街日旅游人数的极差是1.2B．冰雪大世界日旅游人数的中位数是2.3
C．冰雪大世界日旅游人数的平均数比中央大街大D．冰雪大世界日旅游人数的方差比中央大街大
【答案】BC
【分析】根据折线图可求中央大街日旅游人数的极差、冰雪大世界日旅游人数的中位数，故可判断AB的正误.同样根据折线图可求两者的均值和方差，故可判断CD的正误.
【详解】对于A，中央大街日旅游人数的最大值为万，最小值为万，
极差为万，故A错误.
对于B，冰雪大世界日旅游人数由小到大依次为：，
其中位数为，故B正确.
对于C，冰雪大世界日旅游人数的平均值为，
中央大街日旅游人数的平均值为，
因，故C正确.
对于D，冰雪大世界日旅游人数的方差为：
，
中央大街日旅游人数的方差为：
，
故冰雪大世界日旅游人数的方差比中央大街小，故D错误，
故选：BC.
考点五、扇形统计图
1．（2024·山东菏泽·模拟预测）南丁格尔玫瑰图是由近代护理学和护士教育创始人南丁格尔设计的，图中每个扇形圆心角都是相等的，半径长短表示数量大小．某机构统计了近几年某国知识付费用户数量(单位:亿人次)，并绘制成南丁格尔玫瑰图(如图所示)，根据此图，以下说法错误的是（）
A．2016年至2023年，知识付费用户数量逐年增加
B．2016年至2023年，知识付费用户数量逐年增加量2019年最多
C．2016年至2023年，知识付费用户数量的逐年增加量逐年递增
D．2023年知识付费用户数量超过2016年知识付费用户数量的10倍
【答案】C
【分析】利用题中所给的南丁格尔玫瑰图逐一考查所给选项，即可得解.
【详解】对于A：由图可知，2016年至2023年，知识付费用户数量逐年增加，故A正确；
对于B和C：知识付费用户数量的逐年增加量分别为：2017年，；
2018年，；2019年，；
2020年，；2021年，；
2022年，；2023年，；
则知识付费用户数量逐年增加量2019年最多，知识付费用户数量的逐年增加量不是逐年递增，故B正确，C错误；
对于D：由，则2023年知识付费用户数量超过2016年知识付费用户数量的倍，故D正确；
综上，说法错误的选项为C.
故选：C
2．（2024·湖南邵阳·模拟预测）（多选）有关数据显示，年轻一代的父母更加重视亲子陪伴，以往“以孩子为中心”的观念正逐步向与孩子玩在一起、学在一起的方向转变．如图为2023年中国父母参与过的各类亲子活动人数在参与调查总人数中的占比，根据该图，下列说法正确的是（）
A．在参与调查的总人数中父母参与过的亲子活动最多的是亲子阅读
B．在参与调查的总人数中同时参与过亲子阅读与亲子运动会的父母不少于
C．图中各类亲子活动占比的中位数为
D．图中10类亲子活动占比的极差为
【答案】AB
【分析】根据给定的扇形图，结合中位数、极差的意义逐项分析判断即得.
【详解】对于A，亲子阅读阅读占比，为最大，A正确；
对于B，由于，B正确；
对于C，图中各类亲子活动占比的中位数为，C错误；
对于D，图中10类亲子活动占比的极差为，D错误.
故选：AB
1．（2024·辽宁·模拟预测）某高中2023年的高考考生人数是2022年高考考生人数的1.5倍.为了更好地对比该校考生的升学情况，统计了该校2022年和2023年高考分数达线情况，得到如图所示扇形统计图：

下列结论正确的是（）
A．该校2023年与2022年的本科达线人数比为6:5
B．该校2023年与2022年的专科达线人数比为6:7
C．2023年该校本科达线人数比2022年该校本科达线人数增加了80%
D．2023年该校不上线的人数有所减少
【答案】C
【分析】设2022年的高考人数为100，则2023年的高考人数为150，再根据扇形统计图中各个种类的人数所占的比例，逐个选项判断即可．
【详解】不妨设2022年的高考人数为100，则2023年的高考人数为150，
2022年本科达线人数为50，2023年本科达线人数为90，
2023年与2022年的本科达线人数比为9:5，
本科达线人数增加了，故A错误，C正确；
2022年专科达线人数为35，2023年专科达线人数为45，
2023年与2022年的专科达线人数比为9:7，故B错误；
2022年不上线人数为15，2023年不上线人数也是15，不上线的人数无变化，故D错误．
故选：C.
2．（2024·辽宁·二模）（多选）下图为某市2023年第一季度全市居民人均消费支出构成图．已知城镇居民人均消费支出7924元，与上一年同比增长4.4％；农村居民人均消费支出4388元，与上一年同比增长7.8％，则关于2023年第一季度该市居民人均消费支出，下列说法正确的是（）
A．2023年第一季度该市居民人均消费支出6393元
B．居住及食品烟酒两项的人均消费支出总和超过了总人均消费支出的50％
C．城乡居民人均消费支出的差额与上一年同比在缩小
D．医疗保健与教育文化娱乐两项人均消费支出总和约占总人均消费支出的20.6％
【答案】ABD
【分析】根据消费支出构成图及已知条件分析数据一一判定选项即可.
【详解】2023年第一季度全市居民人均消费支出为（元），故A正确；
易知居住及食品烟酒两项的人均消费支出总和为（元），
占总人均消费支出的，故B正确：
依题意可得2022年第一季度城乡居民人均消费支出的差额为（元），
2023年第一季度城乡居民人均消费支出的差额为（元），
由于，故C错误；
医疗保健与教育文化娱乐两项人均消费支出总和占总人均消费支出的，故D正确．
故选：ABD．
考点六、频率分布表
1．现有一个容量为50的样本，其数据的频数分布表如下表所示：
则第4组的频数和频率分别是（）
A．12，0.06B．12，0.24C．18，0.09D．18，0.36
【答案】B
【分析】根据表格中数据，先计算出频数，再计算频率.
【详解】第4组的频数，频率为.
故选：B
1．某单位招聘员工，有名应聘者参加笔试，随机抽查了其中名应聘者笔试试卷，统计他们的成绩如下表：
若按笔试成绩择优录取名参加面试，由此可预测参加面试的分数线为
A．分B．分C．分D．分
【答案】C
【详解】分析：根据从名应聘者，按笔试成绩择优录取40名参加面试，可以求出录取的比例为．进而求出随机抽查的名应聘者能录取的人数为．再由名应聘者的成绩表可知，能录取的4人都在80分之上．可预测参加面试的分数线为80分．
详解：因为有名应聘者参加笔试，按笔试成绩择优录取40名参加面试，
所以录取的比例为．
随机抽查的名应聘者能录取的人数为．
由名应聘者的成绩表可知，能录取的4人都在80分之上．
故可预测参加面试的分数线为80分．
故选C．
点睛：分层抽样应先确定抽样的比例，再根据须抽取的个体数和抽样比例可得各段抽取的个体数．本题考查分层抽样及学生的转化能力．
考点七、频率分布直方图
1．（2022·天津·高考真题）将1916到2015年的全球年平均气温（单位：），共100个数据，分成6组：，并整理得到如下的频率分布直方图，则全球年平均气温在区间内的有（）
A．22年B．23年C．25年D．35年
【答案】B
【分析】由频率分布直方图可得所求区间的频率，进而可以求得结果.
【详解】全球年平均气温在区间内的频率为，
则全球年平均气温在区间内的有年.
故选：B.
2．（2021·天津·高考真题）从某网络平台推荐的影视作品中抽取部，统计其评分数据，将所得个评分数据分为组：、、、，并整理得到如下的频率分布直方图，则评分在区间内的影视作品数量是（）
A．B．C．D．
【答案】D
【分析】利用频率分布直方图可计算出评分在区间内的影视作品数量.
【详解】由频率分布直方图可知，评分在区间内的影视作品数量为.
故选：D.
3．（2021·全国·高考真题）为了解某地农村经济情况，对该地农户家庭年收入进行抽样调查，将农户家庭年收入的调查数据整理得到如下频率分布直方图：
根据此频率分布直方图，下面结论中不正确的是（）
A．该地农户家庭年收入低于4.5万元的农户比率估计为6%
B．该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C．估计该地农户家庭年收入的平均值不超过6.5万元
D．估计该地有一半以上的农户，其家庭年收入介于4.5万元至8.5万元之间
【答案】C
【分析】根据直方图的意义直接计算相应范围内的频率，即可判定ABD,以各组的中间值作为代表乘以相应的频率，然后求和即得到样本的平均数的估计值，也就是总体平均值的估计值，计算后即可判定C.
【详解】因为频率直方图中的组距为1，所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.
该地农户家庭年收入低于4.5万元的农户的比率估计值为,故A正确；
该地农户家庭年收入不低于10.5万元的农户比率估计值为,故B正确；
该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为,故D正确；
该地农户家庭年收入的平均值的估计值为(万元)，超过6.5万元，故C错误.
综上，给出结论中不正确的是C.
故选：C.
【点睛】本题考查利用样本频率直方图估计总体频率和平均值，属基础题，样本的频率可作为总体的频率的估计值，样本的平均值的估计值是各组的中间值乘以其相应频率然后求和所得值，可以作为总体的平均值的估计值.注意各组的频率等于.
4．（2022·全国·高考真题）在某地区进行流行病学调查，随机调查了100位某种疾病患者的年龄，得到如下的样本数据的频率分布直方图：

(1)估计该地区这种疾病患者的平均年龄（同一组中的数据用该组区间的中点值为代表）；
(2)估计该地区一位这种疾病患者的年龄位于区间的概率；
(3)已知该地区这种疾病的患病率为，该地区年龄位于区间的人口占该地区总人口的.从该地区中任选一人，若此人的年龄位于区间，求此人患这种疾病的概率．（以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率，精确到0.0001）.
【答案】(1)岁；
(2)；
(3)．
【分析】（1）根据平均值等于各矩形的面积乘以对应区间的中点值的和即可求出；
（2）设{一人患这种疾病的年龄在区间}，根据对立事件的概率公式即可解出；
（3）根据条件概率公式即可求出．
【详解】（1）平均年龄
（岁）．
（2）设{一人患这种疾病的年龄在区间}，所以
．
（3）设“任选一人年龄位于区间[40,50)”，“从该地区中任选一人患这种疾病”，
则由已知得：
,
则由条件概率公式可得
从该地区中任选一人，若此人的年龄位于区间，此人患这种疾病的概率为．
1．（2024·湖北黄冈·模拟预测）为了解高中学生每天的体育活动时间,某市教育部门随机抽取高中学生进行调查,把每天进行体育活动的时间按照时长（单位：分钟）分成组:,40,50,50,60,60,70,,.然后对统计数据整理得到如图所示的频率分布直方图,则可估计这名学生每天体育活动时间的第百分位数为（）
A．B．C．D．
【答案】A
【分析】根据第百分位数的概念，知道它在第二组40,50里.运用概率之和为，构造方程，解出即可.
【详解】第百分位数设为，而，则所求百分位数在第二组，
则可列方程解得.
故选:A.
2．（2024·广西桂林·模拟预测）（多选）某次数学考试后，为分析学生的学习情况，某校从某年级中随机抽取了100名学生的成绩，整理得到如图所示的频率分布直方图．为进一步分析高分学生的成绩分布情况，计算得到这100名学生中，成绩位于80,90内的学生成绩方差为12，成绩位于内的同学成绩方差为10．则（）
A．
B．估计该年级学生成绩的中位数约为77.14
C．估计该年级成绩在80分及以上的学生成绩的平均数为87.50
D．估计该年级成绩在80分及以上的学生成绩的方差为32
【答案】BC
【分析】利用小长方形面积和为1得项错误；面积等于0.5的值即为中位数，可知正确；利用直方图中平均数和方差公式可得正确，错误.
【详解】项，，，项错误；
项，，内频率为：，
，内频率为：，
则中位数在，内，设中位数为，则，
则，正确；
成绩在80分及以上的同学的成绩的平均数为分，
方差为，正确，错误．
故选：．
3．（2024·福建泉州·模拟预测）（多选）某校在开展“弘扬中华传统文化，深植文化自信之根”主题教育的系列活动中，举办了“诵读国学经典，传承中华文明”知识竞赛．赛前为了解学生的备赛情况，组织对高一年和高二年学生的抽样测试，测试成绩数据处理后，得到如下频率分布直方图，则下面说法正确的是（）
A．高一年抽测成绩的众数为75
B．高二年抽测成绩低于60分的比率为
C．估计高一年学生成绩的平均分低于高二年学生成绩的平均分
D．估计高一年学生成绩的中位数低于高二年学生成绩的中位数
【答案】ACD
【详解】根据频率分步直方图､样本的数字特征等基础知识判断即可．
【试题解析】选项A：高一年学生成绩的众数为区间的中点横坐标，故A正确；
选项B：高二年学生成绩得分在区间的学生人数频率为，
所以低于60分的比率为，故B错误；
选项C：高一年学生成绩的平均数约为分；
高二年学生成绩的平均数约为分，
因为，故C正确；
选项D：高一年学生成绩的中位数位于，高二年学生成绩的中位数位于，故D正确；
故选：ACD．
4．（2024·江苏南京·二模）（多选）2023年10月31日，神舟十六号载人飞船返回舱在东风着陆场成功着陆，激发了学生对航天的热爱.某校组织高中学生参加航天知识竞赛，现从中随机抽取100名学生成绩分为四组，分别为，得到频率分布直方图如图所示，则（）

A．
B．这组样本数据的分位数为88
C．若从这100名学生成绩不低于80分的学生中，随机抽取3人，则此3人的分数都不低于90分的概率为
D．若用样本的频率估计总体，从该校高中学生中随机抽199人，记“抽取199人中成绩不低于90的人数为”的事件为，则最大时，.
【答案】AB
【分析】对于A，由频率之和为1结合频率分布直方图数据即可求解；对于B，先求出成绩在和内的频率，进而判断分位数的范围即可根据百分位数的定义直接进行求解；对于C，分别求出成绩不低于80分和不低于90分的人数，即可求解概率；对于D，先由频率分布直方图得成绩不低于90分的概率，接着由二项分布概率公式求出，再令即可求解.
【详解】对于A，由频率分布直方图得，故A对；
对于B，由频率分布直方图结合选项A可知：
成绩在内的频率为，
成绩在内的频率为，
所以分位数在80到90分之间，故分位数为，故B对；
对于C，成绩不低于80分的共有人，不低于90分的共有人，
则随机抽取3人，则此3人的分数都不低于90分的概率，故C错；
对于D，由频率分布直方图可知，成绩不低于90分的概率，
由题意，由题意，
令即，
所以即，
解得，故为29或30，故D错.
故选：AB.
考点八、总体百分位数的估计
1．（2024·江西·一模）从1984年第23届洛杉矶夏季奥运会到2024年第33届巴黎夏季奥运会，我国获得的夏季奥运会金牌数依次为15、5、16、16、28、32、51、38、26、38、40，这11个数据的分位数是（）
A．16B．30C．32D．51
【答案】C
【分析】将数据按照从小到大的顺序排列，根据百分位数的计算方法即可求解.
【详解】把11个数据按照从小到大排列得5、15、16、16、26、28、32、38、38、40、51，
因为，这11个数据按照从小到大排列第7个是32.
故选：.
2．（2024·安徽·模拟预测）一组数据按从小到大的顺序排列为2，4，m，12，16，17，若该组数据的中位数是极差的，则该组数据的第40百分位数是 .
【答案】6
【分析】先依据题意列等量关系式求出m，再依据百分位数的定义以及求解步骤直接求解即可得解.
【详解】由题该组数据的极差为，中位数为，
所以，又，
所以该组数据的第40百分位数是该组数据的第三位数为6.
故答案为：6.
3．（2024·广东广州·模拟预测）（多选）已知，，，，，为依次增大的一组数据，则去掉和后，这组数据的（）一定减小.
A．极差B．下四分位数C．上四分位数D．中位数
【答案】AC
【分析】利用极差、百分位数、中位的定义，逐一对各个选项分析判断，即可求出结果.
【详解】对于选项A，原先极差为，去掉后极差为，由于数据依次增大，则极差减小，所以选项A正确，
对于选项B，原先6个数据，因为不是整数，所以向上取整，下四分位数为第二个数，
去掉后4个数据，是整数，所以取与上一个数的平均值，下四分位数增大，所以选项B错误，
对于选项C，原先6个数据，因为不是整数，所以向上取整，上四分位数为第个数，
去掉后4个数据，是整数，所以取与上一个数的平均值，上四分位数减小，所以选项C正确，
选项D，因为中位数始终为，中位数保持不变，所以选项D错误，
故选：AC.
1．（2024·安徽六安·模拟预测）样本数据16，20，24，21，22，18，14，28的分位数为（）
A．16B．17C．23D．24
【答案】C
【分析】根据已知条件，结合百分位数的定义，即可求解．
【详解】解：样本数据由小到大排列为，共8个数据，
，所以分位数为．
故选：C．
2．（2024·河南周口·模拟预测）已知一组从小到大排列的数据：a，2，2，4，4，5，6，b，8，8，若其第70百分位数等于其极差，则 .
【答案】10
【分析】由百分位数、极差的定义求解即可.
【详解】因为，
所以a，2，2，4，4，5，6，b，8，8的第70百分位数为，
其极差为，所以，解得.
故答案为：10.
考点九、总体集中趋势的估计
1．（2023·全国·高考真题）（多选）有一组样本数据，其中是最小值，是最大值，则（）
A．的平均数等于的平均数
B．的中位数等于的中位数
C．的标准差不小于的标准差
D．的极差不大于的极差
【答案】BD
【分析】根据题意结合平均数、中位数、标准差以及极差的概念逐项分析判断.
【详解】对于选项A：设的平均数为，的平均数为，
则，
因为没有确定的大小关系，所以无法判断的大小，
例如：，可得；
例如，可得；
例如，可得；故A错误；
对于选项B：不妨设，
可知的中位数等于的中位数均为，故B正确；
对于选项C：因为是最小值，是最大值，
则的波动性不大于的波动性，即的标准差不大于的标准差，
例如：，则平均数，
标准差，
，则平均数，
标准差，
显然，即；故C错误；
对于选项D：不妨设，
则，当且仅当时，等号成立，故D正确；
故选：BD.
2．（2024·黑龙江哈尔滨·三模）如图所示，下列频率分布直方图显示了三种不同的形态.图（1）形成对称形态，图（2）形成“右拖尾”形态，图（3）形成“左拖尾”形态，根据所给图作出以下判断，正确的是（）
A．图（1）的平均数＝中位数＞众数B．图（2）的众数＜中位数＜平均数
C．图（2）的平均数＜众数＜中位数D．图（3）的中位数＜平均数＜众数
【答案】B
【分析】根据平均数，中位数，众数的概念结合图形分析判断.
【详解】图（1）的分布直方图是对称的，所以平均数=中位数=众数，故A错误；
图（2）频率直方图可得，单峰不对称且“右拖尾”，最高峰偏左，众数最小，
平均数易受极端值的影响，与中位数相比，平均数总是在“拖尾”那边，平均数大于中位数，故B正确，C错误；
同理图（3）“左拖尾”，众数最大，平均数小于中位数，故D错误.
故选：B.
3．（2024·重庆九龙坡·三模）（多选）已知样本数据的平均数为2，方差为1，则下列说法正确的是（）
A．数据，的平均数为6
B．数据，的方差为9
C．数据的方差为1
D．数据的平均数为5
【答案】BD
【分析】对于AB：根据平均数、方差的性质分析求解；对于CD：根据平均数、方差公式运算求解.
【详解】因为样本数据的平均数为2，方差为1，
对于选项A：所以数据，的平均数为，故A错误；
对于选项B：数据，的方差为，故B正确；
对于选项C：因为，，
则数据的平均数为，
所以方差为，故C错误；
对于选项D：由，，
得，可得，
所以数据的平均数为，故D正确；
故选：BD.
1．（23-24高三下·北京·开学考试）设一组数据，则数据的平均值为，30%分位数为 .
【答案】 11 5
【分析】先求得数据的平均数，进一步计算可得到数据的平均值；根据百分位数的计算公式进行计算即可.
【详解】数据，
则的平均数为，
故数据的平均值为；
因为，故从小到大进行排列的第三个数5为所求.
故答案为：11；5.
2．（2024·广东广州·模拟预测）已知数据，且满足，若去掉，后组成一组新数据，则新数据与原数据相比，有可能变大的是（）
A．平均数B．中位数C．极差D．方差
【答案】A
【分析】根据极差，中位数以及方差的定义即可排除BCD，举反例即可求解A.
【详解】由于，所以原来的极差为，新数据的极差为，故极差变小，
原来和新数据的中位数均为，故中位数不变，
去掉，后，数据波动性变小，故方差变小，
因此可能变大的是平均数，比如，原数据的平均数为6.6，去掉1和12后，
新数据的平均数为，但，故A正确.
故选：A
3．（2024·浙江·三模）（多选）已知a，，有一组样本数据为，3，，，8，10，，12，13，若在这组数据中再插入一个数8，则（）
A．平均数不变B．中位数不变C．方差不变D．极差不变
【答案】AD
【分析】求出样本数据的平均数，判断A的真假；令取特殊值，验证B的真假；利用方差的计算公式求方差判断C的真假；因为8不是最值，所以插入8不影响极差，可判断D的真假.
【详解】对于A选项，原数据的平均数为8，插入一个数8，平均数不变，正确；
对于B选项，取，，原数据的中位数为9，新数据的中位数为8.5，错误；
对于C选项，新数据的方差为，错误；
对于D选项，因为，所以8不是最值，故新数据的极差不变，正确．
故选：AD
考点十、总体离散程度的估计
1．（2024·陕西商洛·模拟预测）设一组样本数据的平均值是1，且的平均值是3，则数据的方差是（）
A．1B．2C．3D．4
【答案】B
【分析】根据已知条件结合方差公式直接求解即可.
【详解】由题意得，
所以数据的方差
.
故选：B
2．（2024·黑龙江哈尔滨·模拟预测）已知有4个数据的平均值为5，方差为4，现加入数据6和10，则这6个数据的新方差为（）
A．B．C．6D．10
【答案】C
【分析】设原来的 4 个数依次为 , , , , 再利用平均数和方差的计算公式结合整体法即可.
【详解】设原来的4个数依次为，，，，
原来4个数据的平均值为5，方差为4，
，
，
，
，
现加入数据6和10，则这6个数据的平均数为
，
则这6个数据的方差为:
.
故选：C.
3．（2021·全国·高考真题）（多选）下列统计量中，能度量样本的离散程度的是（）
A．样本的标准差B．样本的中位数
C．样本的极差D．样本的平均数
【答案】AC
【分析】考查所给的选项哪些是考查数据的离散程度，哪些是考查数据的集中趋势即可确定正确选项.
【详解】由标准差的定义可知，标准差考查的是数据的离散程度；
由中位数的定义可知，中位数考查的是数据的集中趋势；
由极差的定义可知，极差考查的是数据的离散程度；
由平均数的定义可知，平均数考查的是数据的集中趋势；
故选：AC.
4．（2021·全国·高考真题）（多选）有一组样本数据，，…，，由这组数据得到新样本数据，，…，，其中(为非零常数，则（）
A．两组样本数据的样本平均数相同
B．两组样本数据的样本中位数相同
C．两组样本数据的样本标准差相同
D．两组样本数据的样本极差相同
【答案】CD
【分析】A、C利用两组数据的线性关系有、，即可判断正误；根据中位数、极差的定义，结合已知线性关系可判断B、D的正误.
【详解】A：且，故平均数不相同，错误；
B：若第一组中位数为，则第二组的中位数为，显然不相同，错误；
C：，故方差相同，正确；
D：由极差的定义知：若第一组的极差为，则第二组的极差为，故极差相同，正确；
故选：CD
5．（2023·全国·高考真题）某厂为比较甲乙两种工艺对橡胶产品伸缩率的处理效应，进行10次配对试验，每次配对试验选用材质相同的两个橡胶产品，随机地选其中一个用甲工艺处理，另一个用乙工艺处理，测量处理后的橡胶产品的伸缩率．甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为，．试验结果如下：
记，记的样本平均数为，样本方差为．
(1)求，；
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高（如果，则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高，否则不认为有显著提高）
【答案】(1)，；
(2)认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
【分析】（1）直接利用平均数公式即可计算出，再得到所有的值，最后计算出方差即可；
（2）根据公式计算出的值，和比较大小即可.
【详解】（1），
，
，
的值分别为: ，
故
（2）由（1）知:，，故有,
所以认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
6．（2021·全国·高考真题）某厂研制了一种生产高精产品的设备，为检验新设备生产产品的某项指标有无提高，用一台旧设备和一台新设备各生产了10件产品，得到各件产品该项指标数据如下：
旧设备和新设备生产产品的该项指标的样本平均数分别记为和，样本方差分别记为和．
（1）求，，，；
（2）判断新设备生产产品的该项指标的均值较旧设备是否有显著提高（如果，则认为新设备生产产品的该项指标的均值较旧设备有显著提高，否则不认为有显著提高）．
【答案】（1）；（2）新设备生产产品的该项指标的均值较旧设备有显著提高.
【分析】（1）根据平均数和方差的计算方法，计算出平均数和方差.
（2）根据题目所给判断依据，结合（1）的结论进行判断.
【详解】（1），
，
，
.
（2）依题意，，，
，所以新设备生产产品的该项指标的均值较旧设备有显著提高.
1．（2024·新疆·二模）若数据的平均数为，方差为，则数据的方差为（）
A．B．C．D．
【答案】C
【分析】根据平均数和方差的计算公式计算即可.
【详解】因为数据的平均数为，方差为，所以，，
所以数据的平均数为，方差为．
故选：C．
2．（2024·江苏泰州·模拟预测）（多选）已知，有一组数据为，3，，，8，10，，12，13，若在这组数据中去除第5个数8，则（）
A．平均数不变B．中位数不变C．方差不变D．极差不变
【答案】AD
【分析】根据平均数，中位数，方差，极差的定义及计算公式逐一判断即可.
【详解】原数据的平均数为，
去除第5个数8后的平均数为，
所以平均数不变，故A正确；
当时，原数据的中位数为，
去除第5个数8后的中位数为，
此时中位数改变，故B错误；
对于C，原数据的方差
，
去除第5个数8后的方差，
所以，即方差改变，故C错误；
对于D，因为，所以这个数对于极差没有影响，即极差不变，故D正确.
故选：AD.
3．（2024·云南·模拟预测）某学校高三年级男生共有个，女生共有个，为调查该年级学生的年龄情况，通过分层抽样，得到男生和女生样本数据的平均数和方差分别为和，已知，则该校高三年级全体学生年龄的方差为（）
A．B．
C．D．
【答案】C
【分析】结合分层随机抽样的方差公式可得答案
【详解】学校高三年级男生共有个，所占比例为，女生个，所占比例为，
故该校高三年级全体学生的年龄方差为：，
当时，，，
故选：C
14．（2024·辽宁·模拟预测）某工厂为了提高精度，采购了一批新型机器，现对这批机器的生产效能进行测试，对其生产的第一批零件的内径进行测量，统计绘制了如下图所示的频率分布直方图.

(1)求a的值以及这批零件内径的平均值和方差（同一组中的数据用该组区间的中点值作代表）；
(2)以频率估计概率，若在这批零件中随机抽取4个，记内径在区间内的零件个数为，求的分布列以及数学期望；
(3)已知这批零件的内径（单位：mm）服从正态分布，现以频率分布直方图中的平均数作为的估计值，频率分布直方图中的标准差作为的估计值，则在这批零件中随机抽取200个，记内径在区间上的零件个数为，求的方差.
参考数据：，若，则，，.
【答案】(1)，，
(2)的分布列见解析，
(3)
【分析】（1）根据频率分布直方图中所有小矩形的面积之和为1，及频率分布直方图中均值和方差的计算公式，求出相应的值即可；
（2）确定的可能取值，求出不同的值对应的概率，得到的分布列，再根据离散型随机变量数学期望的计算公式求出的数学期望即可；
（3）由根据正态分布的概率求法，求出的概率，再根据二项分布的定义判定，最后根据二项分布方差的计算公式求出的方差.
【详解】（1）由，则，
这批零件内径的平均值：
，
，
这批零件内径的方差：
，
（2）由题意知，的可能取值为0，1，2，3，4，
则，
，
，
，
，
因此可得的分布列：
则的数学期望.
（3）由题意知，，，
又，，
则，
由二项分布的定义知,
由二项分布的方差公式知，.
5．（2024·湖北武汉·模拟预测）四月的武汉被百万株蔷薇花覆盖，形成了全城的花海景观。蔷薇花一般扦插繁殖，园林局为了更好的了解扦插枝条的长度对繁殖状况的影响，选择甲乙两区按比例分层抽样来抽取样本．已知甲区的样本容量，样本平均数，样本方差；乙区的样本容量，样本平均数，样本方差．
(1)求由两区样本组成的总样本的平均数及其方差；（结果保留一位小数）
(2)为了营造“花在风中笑，人在画中游”的美景，甲乙两区决定在各自最大的蔷薇花海公园进行一次书画比赛，两区各派一支代表队参加，经抽签确定第一场在甲区举行．比赛规则如下：每场比赛分出胜负，没有平局，胜方得1分，负方得0分，下一场在负方举行，先得2分的代表队获胜，比赛结束．当比赛在甲区举行时，甲区代表队获胜的概率为，当比赛在乙区举行时，甲区代表队获胜的概率为．假设每场比赛结果相互独立.甲区代表队的最终得分记为X，求X的分布列及的值．
参考数据：．
【答案】(1)，
(2)分布列见解析，
【分析】（1）利用平均数的计算公式求得，再利用方差的计算公式进行转化求解即可得解；
（2）先根据题意得到的所有可能取值，再利用独立事件的概率公式分别求得各个取值的概率，从而利用数学期望的计算公式即可得解.
【详解】（1）根据题意，得，
因为
，
同理，
所以
所以总样本的平均数为，方差．
（2）依题意可知，的所有可能取值为，
设“第场比赛在甲镇举行，甲镇代表队获胜”为事件，
“第场比赛在乙镇举行，甲镇代表队获胜”为事件，
且，则，，
所以，
，
，
则的分布列为：
数学期望．
考点十一、成对数据的统计相关性
1．（2024·上海·高考真题）已知气候温度和海水表层温度相关，且相关系数为正数，对此描述正确的是（）
A．气候温度高，海水表层温度就高
B．气候温度高，海水表层温度就低
C．随着气候温度由低到高，海水表层温度呈上升趋势
D．随着气候温度由低到高，海水表层温度呈下降趋势
【答案】C
【分析】根据相关系数的性质可得正确的选项.
【详解】对于AB，当气候温度高，海水表层温度变高变低不确定，故AB错误.
对于CD，因为相关系数为正，故随着气候温度由低到高时，海水表层温度呈上升趋势，
故C正确，D错误.
故选：C.
2．（2023·天津·高考真题）鸢是鹰科的一种鸟，《诗经·大雅·旱麓》曰：“鸢飞戾天，鱼跃余渊”. 鸢尾花因花瓣形如鸢尾而得名，寓意鹏程万里、前途无量.通过随机抽样，收集了若干朵某品种鸢尾花的花萼长度和花瓣长度（单位：cm），绘制散点图如图所示，计算得样本相关系数为，利用最小二乘法求得相应的经验回归方程为，根据以上信息，如下判断正确的为（）
A．花瓣长度和花萼长度不存在相关关系
B．花瓣长度和花萼长度负相关
C．花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为
D．若从样本中抽取一部分，则这部分的相关系数一定是
【答案】C
【分析】根据散点图的特点及经验回归方程可判断ABC选项，根据相关系数的定义可以判断D选项.
【详解】根据散点的集中程度可知，花瓣长度和花萼长度有相关性，A选项错误
散点的分布是从左下到右上，从而花瓣长度和花萼长度呈现正相关性，B选项错误，
把代入可得，C选项正确；
由于是全部数据的相关系数，取出来一部分数据，相关性可能变强，可能变弱，即取出的数据的相关系数不一定是，D选项错误
故选：C
3．（2022·全国·高考真题）某地经过多年的环境治理，已将荒山改造成了绿水青山．为估计一林区某种树木的总材积量，随机选取了10棵这种树木，测量每棵树的根部横截面积（单位：）和材积量（单位：），得到如下数据：
并计算得．
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量；
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数（精确到0.01）；
(3)现测量了该林区所有这种树木的根部横截面积，并得到所有这种树木的根部横截面积总和为．已知树木的材积量与其根部横截面积近似成正比．利用以上数据给出该林区这种树木的总材积量的估计值．
附：相关系数．
【答案】(1)；
(2)
(3)
【分析】（1）计算出样本的一棵根部横截面积的平均值及一棵材积量平均值，即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量；
（2）代入题给相关系数公式去计算即可求得样本的相关系数值；
（3）依据树木的材积量与其根部横截面积近似成正比，列方程即可求得该林区这种树木的总材积量的估计值．
【详解】（1）样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为，
平均一棵的材积量为
（2）
则
（3）设该林区这种树木的总材积量的估计值为，
又已知树木的材积量与其根部横截面积近似成正比，
可得，解之得．
则该林区这种树木的总材积量估计为
4．（2020·全国·高考真题）某沙漠地区经过治理，生态系统得到很大改善，野生动物数量有所增加.为调查该地区某种野生动物的数量，将其分成面积相近的200个地块，从这些地块中用简单随机抽样的方法抽取20个作为样区，调查得到样本数据(xi，yi)(i=1，2，…，20)，其中xi和yi分别表示第i个样区的植物覆盖面积(单位：公顷)和这种野生动物的数量，并计算得，，，，.
（1）求该地区这种野生动物数量的估计值（这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数）；
（2）求样本(xi，yi)(i=1，2，…，20)的相关系数（精确到0.01）；
（3）根据现有统计资料，各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计，请给出一种你认为更合理的抽样方法，并说明理由.
附：相关系数r=，≈1.414.
【答案】（1）；（2）；（3）详见解析
【分析】（1）利用野生动物数量的估计值等于样区野生动物平均数乘以地块数，代入数据即可；
（2）利用公式计算即可；
（3）各地块间植物覆盖面积差异较大，为提高样本数据的代表性，应采用分层抽样.
【详解】（1）样区野生动物平均数为，
地块数为200，该地区这种野生动物的估计值为
（2）样本(i=1，2，…，20)的相关系数为
（3）由（2）知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性，
由于各地块间植物覆盖面积差异很大，从而各地块间这种野生动物的数量差异很大，
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性，提高了样本的代表性，
从而可以获得该地区这种野生动物数量更准确的估计.
【点晴】本题主要考查平均数的估计值、相关系数的计算以及抽样方法的选取，考查学生数学运算能力，是一道容易题.
1．（23-24高三下·云南昆明·阶段练习）两个变量y与x的回归模型中，分别选择了4个不同模型，它们的决定系数如下，其中拟合效果最好的模型是（）
A．模型1（决定系数为0.97）B．模型2（决定系数为0.85）
C．模型3（决定系数为0.40）D．模型4（决定系数为0.25）
【答案】A
【分析】根据回归模型中决定系数越接近，模型拟合效果越好求解.
【详解】在两个变量与x的回归模型中，它们的决定系数越接近，模型拟合效果越好，在四个选项中A的决定系数最大，所以拟合效果最好的是模型，
故选：A．
2．（2024·贵州贵阳·模拟预测）（多选）某厂近几年陆续购买了几台 A 型机床，该型机床已投入生产的时间x（单位：年）与当年所需要支出的维修费用y（单位：万元）有如下统计资料：
根据表中的数据可得到经验回归方程为. ，则（）
A．y与x的样本相关系数
B．
C．表中维修费用的第60百分位数为6
D．该型机床已投入生产的时间为 10年时，当年所需要支出的维修费用一定是12.38万元
【答案】BC
【分析】对A，根据相关系数的概念可判断，对B，计算出样本中心，代入方程计算出，对C，根据百分位数的定义求解，对D，根据回归分析概念判断.
【详解】根据题意可得，，，
所以样本中心点为，
对于A，由表中数据可得随着增大而增大，与正相关，所以相关系数，，与不相关，故A错误；
对于B，将样本中心点代入回归方程，可得，故B正确；
对于C，维修费用从小到大依次为，第60百分位数为，故C正确；
对于D，根据回归分析的概念，机床投入生产的时间为 10年时，所需要支出的维修费用大概是12.38万元，故D错误.
故选：BC.
3．（2024·江苏宿迁·三模）（多选）为了研究y关于x的线性相关关系，收集了5对样本数据（见表格），若已求得一元线性回归方程为，则下列选项中正确的是（）
A．
B．当时的残差为
C．样本数据y的40百分位数为1
D．去掉样本点后，y与x的相关系数不会改变
【答案】BD
【分析】对A，由表格数据求出样本点的中心坐标，代入可得的值由此即可判断；对B，由回归方程求得得值，根据残差的定义运算；对C，由百分位数的概念即可判断，对D，由相关系数公式即可判断.
【详解】由，，所以样本中心点为，
对于A，将它代入，得，解得，故A错误；
对于B，当时，，所以残差为，故B正确；
对于C，样本数据的第40百分位数为，故C错误；
对于D，由相关系数公式可知，，
所以5组样本数据的相关系数为：
，
去掉样本中心点后相关系数为：
，
所以去掉样本点后，与的样本相关系数不会改变，故D正确.
故选：BD.
4．（2024·河南新乡·模拟预测）氮氧化物是一种常见的大气污染物，下图为我国2015年至2023年氮氧化物排放量（单位：万吨）的折线图，其中年份代码1~9分别对应年份2015~2023．
已知，，，．
(1)可否用线性回归模型拟合与的关系？请分别根据折线图和相关系数加以说明．
(2)若根据所给数据建立回归模型，可否用此模型来预测2024年和2034年我国的氮氧化物排放量？请说明理由．
附：相关系数．
【答案】(1)可以用线性回归模型拟合与的关系，说明见解析
(2)可以预测2024年的氮氧化物排放量，但不可以预测2034年的氮氧化物排放量，理由见解析
【分析】（1）根据题意，由相关系数的计算公式代入计算，即可判断；
（2）根据题意，由线性回归方程的意义，即可判断.
【详解】（1）从折线图看，各点落在一条直线附近，因而可以用线性回归模型拟合与的关系，
由题意知，
相关系数．
故可以用线性回归模型拟合与的关系．
（2）可以预测2024年的氮氧化物排放量，但不可以预测2034年的氮氧化物排放量．
理由如下：
①2024年与所给数据的年份较接近，因而可以认为短期内氮氧化物排放量将延续该趋势，故可以用此模型进行预测；
②2034年与所给数据的年份相距过远，而影响氮氧化物排放量的因素有很多，这些因素在短期内可能保持不变，但从长期看很有可能会变化，因而用此模型预测可能是不准确的．
考点十二、一元线性回归模型及其应用
1．（2024·上海·三模）设一组成对数据的相关系数为r，线性回归方程为，则下列说法正确的为（）.
A．越大，则r越大B．越大，则r越小
C．若r大于零，则一定大于零D．若r大于零，则一定小于零
【答案】C
【分析】利用与r的含义判断AB，根据r大于零时两变量正相关即可得一定大于零判断CD.
【详解】影响的是回归直线的斜率，r影响是两个变量之间的相关性，
所以与r之间数值大小没有关系，但符号有影响，故选项AB错误；
若r大于零，则说明两个变量之间成正相关，故一定大于零，故选项C正确，D错误.
故选：C
2．（2024·天津·二模）有人通过调查统计发现，儿子成年时的身高与父亲的身高呈线性相关，且儿子成年时的身高（单位：）与父亲的身高（单位：）的经验回归方程为，根据以上信息，下列判断正确的为（）．
A．儿子成年时的身高与父亲的身高的样本相关系数
B．父亲的身高为，儿子成年时的身高一定在到之间
C．父亲的身高每增加，儿子成年时的身高平均增加
D．儿子在成年时的身高一般会比父亲高
【答案】C
【分析】根据题意，由线性回归方程的性质，对选项逐一判断，即可得到结果.
【详解】因为，且，
即与不一定相等，故A错误；
当父亲身高为时，孩子身高可能在到之间，
而不是一定，故B错误；
因为，即父亲的身高每增加，
儿子成年时的身高平均增加，故C正确；
由回归方程可知，是否比父亲高还得取决于父亲身高，因此判断不了儿子成年时一般比父亲高，故D错误；
故选：C
3．（2024·山东枣庄·模拟预测）（多选）已知两个变量y与x对应关系如下表：
若y与x满足一元线性回归模型，且经验回归方程为，则（）
A．y与x正相关B．
C．样本数据y的第60百分位数为8D．各组数据的残差和为0
【答案】AD
【分析】利用相关性的定义及线性回归直线可判定A，根据样本中心点在回归方程上可判定B，利用百分位数的计算可判定C，利用回归方程计算预测值可得残差即可判定D.
【详解】由回归直线方程知：，所以y与x正相关，即A正确；
由表格数据及回归方程易知，即B错误；
易知，所以样本数据y的第60百分位数为，即C错误；
由回归直线方程知时对应的预测值分别为，
对应残差分别为，显然残差之和为0，即D正确.
故选：AD
4．（2024·陕西西安·二模）近年来我国新能源汽车行业蓬勃发展，新能源汽车不仅对环境保护具有重大的意义，而且还能够减少对不可再生资源的开发，是全球汽车发展的重要方向．“保护环境，人人有责”，在政府和有关企业的努力下，某地区近几年新能源汽车的购买情况如下表所示：
(1)计算与的相关系数（保留三位小数）；
(2)求关于的线性回归方程，并预测该地区2025年新能源汽车购买数量．
参考公式，，．
参考数值：，．
【答案】(1)
(2)万辆
【分析】（1）利用所提供数据求，代入参考公式求即可；
（2）结合公式求，由此可得回归方程，再利用回归方程进行预测.
【详解】（1），
，
所以；
（2）由（1）知，，
，
所以关于的线性回归方程是，
当时，（万辆），
该地区年新能源汽车购买数量约为万辆.
5．（2024·河北沧州·模拟预测）“南澳牡蛎”是我国地理标志产品，产量高、肉质肥、营养好，素有“海洋牛奶精品”的美誉.2024年该基地考虑增加人工投入，现有以往的人工投入增量x（人）与年收益增量y（万元）的数据如下：
该基地为了预测人工投入增量为16人时的年收益增量，建立了y与x的两个回归模型：
模型①：由最小二乘公式可求得y与x的线性回归方程：；
模型②：由散点图的样本点分布，可以认为样本点集中在曲线：的附近，对人工投入增量x做变换，令，则，且有，，，.
(1)（i）根据所给的统计量，求模型②中y关于x的回归方程（精确到0.1）；
（ii）根据下列表格中的数据，比较两种模型的决定系数，并选择拟合精度更高、更可靠的模型，预测人工投入增量为16人时的年收益增量.
(2)根据养殖规模与以往的养殖经验，产自某南澳牡蛎养殖基地的单个“南澳牡蛎”质量（克）在正常环境下服从正态分布.购买10只该基地的“南澳牡蛎”，会买到质量小于20g的牡蛎的可能性有多大?
附：若随机变量，则，；
样本的最小二乘估计公式为：，，.
【答案】(1)（i）；（ii）答案见解析
(2)
【分析】（1）（i）根据公式计算得到回归直线方程；（ii）通过比较的大小可得到拟合效果的差异，将代入回归方程可得到预测值.
（2）根据正态分布的对称性得到，购买10只该基地的“南澳牡蛎”，其中质量小于20g的牡蛎为只，故，由间接法列式得到结果即可；
【详解】（1）（i）由，
有，
且，
所以模型②中关于的回归方程为.
（ii）由表格中的数据，有，即，
模型①的小于模型②，说明回归模型②刻画的拟合效果更好．
当时，模型②的收益增量的预测值为
（万元），
这个结果比模型①的预测精度更高、更可靠．
（2）由已知单个“南澳牡蛎”质量，则，
由正态分布的对称性可知，
，
设购买10只该基地的“南澳牡蛎”，其中质量小于的牡蛎为只，
故，
所以，
所以这10只“南澳牡蛎”中，会买到质量小于的牡蛎的可能性仅为．
1．（2024·上海徐汇·二模）为了研究y关于x的线性相关关系，收集了5组样本数据（见下表）：
若已求得一元线性回归方程为，则下列选项中正确的是（）
A．
B．当时，y的预测值为2.2
C．样本数据y的第40百分位数为1
D．去掉样本点后，x与y的样本相关系数r不会改变
【答案】D
【分析】由表格数据求出样本点的中心坐标，代入可得的值由此即可判断A，进一步可得回归方程，由此即可验算B选项，由百分位数的概念即可判断C，由相关系数公式即可判断D.
【详解】，所以样本点的中心坐标为，
将它代入得，，解得，故A错误；
对于B，当时，y的预测值为，故B错误；
对于C，样本数据y的第40百分位数为，故C错误；
对于D，由相关系数公式可知，去掉样本点后，x与y的样本相关系数r不会改变，故D正确.
故选：D.
2．（2024·河北·一模）某校为了解本校高一男生身高和体重的相关关系，在该校高一年级随机抽取了7名男生，测量了他们的身高和体重得下表：
由表格制作成如图所示的散点图：

由最小二乘法计算得到经验回归直线的方程为，其相关系数为；经过残差分析，点对应残差过大，把它去掉后，再用剩下的6组数据计算得到经验回归直线的方程为，相关系数为.则下列选项正确的是（）
A．
B．
C．
D．
【答案】A
【分析】根据的特点判断斜率和截距；由于去掉，其它点的线性关系更强，从而可判断相关系数．
【详解】身高的平均数为，
因为离群点的横坐标167小于平均值176，纵坐标90相对过大，
所以去掉后经验回归直线的截距变小而斜率变大，故
去掉后相关性更强，拟合效果也更好，且还是正相关，
，
故选：A．
3．（2024·甘肃陇南·一模）（多选）某厂近几年陆续购买了几台 A 型机床，该型机床已投入生产的时间x(单位：年)与当年所需要支出的维修费用y(单位：万元)有如下统计资料：
根据表中的数据可得到经验回归方程为. 则（）
A．
B．y与x的样本相关系数
C．表中维修费用的第60百分位数为6
D．该型机床已投入生产的时间为 10年时，当年所需要支出的维修费用一定是12.38万元
【答案】ABC
【分析】对A，计算出样本中心，代入方程计算出，对B，根据相关系数的概念可判断，对C，根据百分位数的定义求解，对D，根据回归分析概念判断.
【详解】根据题意可得，，，
所以样本中心点为，
对于A，将样本中心点代入回归方程，可得，故A正确；
对于B，由表中数据可得随着增大而增大，与正相关，所以相关系数，故B正确；
对于C，维修费用从小到大依次为，第60百分位数为，故C正确；
对于D，根据回归分析的概念，机床投入生产的时间为 10年时，所需要支出的维修费用大概是12.38万元，故D错误.
故选：ABC.
4．（2024·全国·模拟预测）脑机接口，即指在人或动物大脑与外部设备之间创建的直接连接，实现脑与设备的信息交换.近日埃隆.马斯克宣布，脑机接口公司Neuralink正在接收第二位植入者申请，该试验可以实现意念控制手机和电脑.未来10到20年，我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求，同时兼顾企业盈利的预期，某科技公司决定增加一定数量的研发人员，经过调研，得到年收益增量（单位：亿元）与研发人员增量（人）的10组数据.现用模型①，②分别进行拟合，由此得到相应的经验回归方程，并进行残差分析，得到如图所示的残差图.
根据收集到的数据，计算得到下表数据，其中.
(1)根据残差图，判断应选择哪个模型；（无需说明理由）
(2)根据（1）中所选模型，求出关于的经验回归方程；并用该模型预测，要使年收益增量超过8亿元，研发人员增量至少多少人？（精确到1）
附：对于一组具有线性相关关系的数据，其经验回归直线的斜率和截距的最小二乘估计分别为
【答案】(1)选择模型②
(2)，10人
【分析】（1）根据残差图分析判断；
（2）令与可用线性回归来拟合，有，然后根据公式结合已知的数据求出，从而可求出关于的经验回归方程，进而可求出关于的经验回归方程，再由可求出研发人员增量.
【详解】（1）选择模型②，理由如下：
由于模型②残差点比较均匀在落在水平的带状区域中，且带状区域的宽度比模型①带状宽度窄，
所以模型②的拟合精度更高，回归方程的预报精度相应就会越高，所以模型②比较合适.
（2）根据模型②，令与可用线性回归来拟合，有.
则，所以
则关于的经验回归方程为，所以关于的经验回归方程为.
由题意，，解得，又为整数，所以.
所以，要使年收益增量超过8亿元，研发人员增量至少为10人.
5．（2024·江西九江·三模）车胎凹槽深度是影响汽车刹车的因素，汽车行驶会导致轮胎胎面磨损.某实验室通过实验测得轿车行驶里程与某品牌轮胎凹槽深度的数据，如下表所示：
(1)求该品牌轮胎凹槽深度与行驶里程的相关系数，并判断二者之间是否具有很强的线性相关性；（结果保留两位有效数字）
(2)根据我国国家标准规定：轿车轮胎凹槽安全深度为（当凹槽深度低于时刹车距离增大，驾驶风险增加，必须更换新轮胎）.某人在保养汽车时将小轿车的轮胎全部更换成了该品牌的新轮胎，请问在正常行驶情况下，更换新轮胎后继续行驶约多少公里需对轮胎再次更换？
附：变量与的样本相关系数；对于一组数据，，其线性回归方程的斜率和截距的最小二乘估计分别为：.
【答案】(1)，具有很强的线性关系
(2)6.4万公里
【分析】（1）根据题意，由相关系数的公式代入计算，即可判断；
（2）根据题意，由最小二乘法公式代入计算，分别求得，即可得到线性回归方程，即可得到结果.
【详解】（1）计算得，
，
由公式知，二者之间具有很强的线性关系.
（2）设轮胎凹槽深度与行驶里程的线性回归方程为，
则==
线性回归方程为
令，得
即更换新轮胎后继续行驶约6.4万公里需要对轮胎再次更换.
考点十三、列联表与独立性检验
1．（2024·江苏盐城·模拟预测）根据分类变量Ⅰ与Ⅱ的统计数据，计算得到，则（）
A．变量Ⅰ与Ⅱ相关
B．变量Ⅰ与Ⅱ相关，这个结论犯错误的概率不超过0.1
C．变量Ⅰ与Ⅱ不相关
D．变量Ⅰ与Ⅱ不相关，这个结论犯错误的概率不超过0.1
【答案】B
【分析】根据独立性检验的原理，将与临界值表比较，即可得结论.
【详解】零假设为：变量Ⅰ与Ⅱ不相关，
因为，
依据得独立性检验可知，推断不成立，
即认为变量Ⅰ与Ⅱ相关，这个结论犯错误的概率不超过0.1，
故选：B
2．（2024·广东江门·模拟预测）（多选）某中学为更好的开展素质教育，现对外出研学课程是否和性别有关做了一项调查，其中被调查的男生和女生人数相同，且男生中选修外出研学课程的人数占男生总人数的，女生中选修外出研学课程的人数占女生总人数的．若依据的独立性检验，可以认为“选修外出研学课程与性别有关”．则调查人数中男生可能有（）
附：
，其中
A．150人B．225人C．300人D．375人
【答案】BCD
【分析】设男生人数为，根据题意用表示出女生人数、男生中“选修外出研学课程”人数、女生中“选修外出研学课程”人数，进而表示出表格中其它人数，利用公式计算出，由得到的范围，进而得到男生人数的范围，选出符合题意的选项.
【详解】设男生人数为，根据题意可得列联表如下：
则，
若有的把握认为喜欢选修外出研学课程与性别有关，则，
解得，则．
故选：BCD．
3．（2024·湖南益阳·一模）某公园为了提升公园形象，提高游客旅游的体验感，他们更新了部分设施，调整了部分旅游线路.为了解游客对新措施是否满意，随机抽取了100名游客进行调查，男游客与女游客的人数之比为2:3，其中男游客有35名满意，女游客有15名不满意.
(1)完成列联表，依据表中数据，以及小概率值的独立性检验，能否认为游客对公园新措施满意与否与性别有关?
(2)从被调查的游客中按男、女分层抽样抽取5名游客.再随机从这5名游客中抽取3名游客征求他们对公园进一步提高服务质量的建议，其中抽取男游客的人数为.求出的分布列及数学期望.
参考公式：，其中.
参考数据：
【答案】(1)联表见详解，不能.
(2)分布列见详解，
【分析】（1）根据男游客与女游客的人数的比值,结合卡方计算公式进行计算求解即可；
（2）根据超几何分布的性质，结合数学期望公式进行求解即可.
【详解】（1）因为调查的男游客人数为：，所以，调查的女游客人数为，于是可完成列联表如下：
零假设为：游客对公园新措施满意与否与性别无关.根据列联表中的数据，可得：
，
根据小概率值的独立性检验，没有充分证据推断不成立，因此可以认为成立，即游客对公园新措施满意与否与性别无关；
（2）由（1）可知男游客抽2人，女游客抽3人，依题意可知的可能取值为0，1，2，并且服从超几何分布，即，，.
所以的分布列为：
.
1．（2024·四川成都·三模）有甲、乙两个班级进行数学考试，按照大于等于85分为优秀，85分以下为非优秀统计成绩，得到如下所示的列联表：
附：（），
已知在全部105人中随机抽取1人，成绩优秀的概率为，则下列说法正确的是（）
A．甲班人数少于乙班人数
B．甲班的优秀率高于乙班的优秀率
C．表中的值为15，的值为50
D．根据表中的数据，若按的可靠性要求，能认为“成绩与班级有关系”
【答案】D
【分析】根据条件解出，，然后直接计算即可判断A，B，C错误，使用的计算公式计算，并将其与比较，即可得到D正确.
【详解】对于C，由条件知，，故，.
所以，，故C错误；
对于A，由于甲班人数为，
乙班人数为，故A错误；
对于B，由于甲班优秀率为，乙班优秀率为，故B错误；
对于D，由于，故D正确.
故选：D.
2．（2024·福建南平·模拟预测）（多选）2023年10月全国多地医院出现较多的支原体肺炎感染患者，患者多以儿童为主．某研究所在某小学随机抽取了46名儿童，得到他们是否接种流感疫苗和是否感染支原体肺炎的情况的相关数据，如下表所示，则（）
附：．
A．
B．
C．认为是否接种流感疫苗与是否感染支原体肺炎有关联，此推断犯错的概率不大于0.1
D．没有充分的证据推断是否接种流感疫苗与是否感染支原体肺炎有关联
【答案】AD
【分析】根据表格信息得出相应数值，通过计算和独立性检验判断各个选项；
【详解】由表中数据易得，
对于A,．故A正确；
对于B,，故B错误；
对于C，D，依据的独立性检验，没有充分的证据推断是否接种流感疫苗与是否感染支原体肺炎有关联，故C错误，D正确．
故选：AD．
3．（2024·广东佛山·模拟预测）某区中考体育科目有必选项目和选考项目，其中篮球为一个选考项目．该区体育老师为了了解初中学生的性别和喜欢篮球是否有关，随机调查了该区1000名初中学生，得到成对样本数据的分类统计结果，如下表所示：
(1)依据的独立性检验，能否认为该区初中学生的性别与喜欢篮球有关联；
(2)用按性别比例分配的分层随机抽样的方法从参与调查的喜欢篮球的600名初中学生中抽取8名学生做进一步调查，将这8名学生作为一个样本，从中随机抽取3人，用X表示随机抽取的3人中女生的人数，求X的分布列和数学期望．
附：参考数据
，其中．
【答案】(1)该区初中学生的性别与喜欢篮球有关联；
(2)
【分析】（1）根据题意补全列联表，再计算出卡方值并与边界值比较即可；
（2）利用分层抽样可得抽取的男生与女生人数，利用超几何分布计算随机变的分布列，利用期望计算公式可求期望.
【详解】（1）零假设:该区初中学生的性别与喜欢篮球无关联，
，
根据小概率值的独立性检验，推断不成立，
即认为该区初中学生的性别与喜欢篮球有关联；
（2）根据喜欢篮球的学生中男生与女生的比例可得抽取的8人中男生有6人，女生有2人，
所以的为0，1，2，
，，，
所以的分布列为
.
一、单选题
1．（2024·四川南充·一模）甲同学近10次数学考试成绩情况如下：103，106，113，119，123，118，134，118，125，121，则甲同学数学考试成绩的第75百分位数是（）
A．118B．121C．122D．123
【答案】D
【分析】根据百分位数的定义计算．
【详解】已知数据按从小到大排列为：，
，因此第75百分位数是第8个数123.
故选：D．
2．（2024·广东珠海·模拟预测）下列说法正确的是（）
A．一组数据的标准差为0，则这组数据中的数均相等
B．两组数据的标准差相等，则这两组数据的平均数相等
C．若两个变量的相关系数越接近于0，则这两个变量的相关性越强
D．已知变量，由它们的样本数据计算得到的观测值的部分临界值如下表：
则在犯错误的概率不超过0.025的前提下认为变量没有关系
【答案】A
【分析】应用标准差公式判断A,特殊值法判断B,根据相关系数性质判断C,应用独立性检验判断D.
【详解】A选项，根据标准差定义，一组数据的标准差
时，
显然A正确；
B选项，两组数据的标准差相等，这两组数据的平均数未必相等，
如均为1和均为2的两组数据，它们的标准差均为0，
但它们的平均数分别为1和，B错误；
C选项，两个变量的相关系数越接近于0，两个变量的相关性越弱，C错误；
D选项，，根据独立性检验原理，
在犯错误的概率不超过0.025的前提下认为变量有关系，D错误.
故选：A
3．（2024·江苏苏州·模拟预测）设研究某两个属性变量时，作出零假设并得到2×2列联表，计算得，则下列说法正确的是（）
A．有99.5%的把握认为不成立B．有5%的把握认为的反面正确
C．有95%的把握判断正确D．有95%的把握能反驳
【答案】D
【分析】根据独立性检验的概念以及计算步骤，可得答案.
【详解】依题意，，因此有95%的把握反驳，
故选：D.
4．（2024·安徽芜湖·模拟预测）下列说法正确的是（）
A．若随机变量，则当较小时，对应的正态曲线“矮胖”，随机变量X的分布比较分散
B．在做回归分析时，可以用决定系数刻画模型回归效果，越小，说明模型拟合的效果越好
C．一元线性回归模型中，如果相关系数，表明两个变量的相关程度很强
D．在列联表中，若所有数据均变成原来的2倍，则不变（，其中）
【答案】C
【分析】根据正态分布曲线的性质，可得判定A错误；根据决定系数和相关系数的性质，可得判定B错误，C正确；根据独立性检验的计算公式，可判定D错误.
【详解】对于A中，若随机变量，则当较小时，对应的正态曲线“瘦高”，随机变量X的分布比较集中，所以A错误；
对于B中，在做回归分析时，可以用决定系数刻画模型回归效果，越大，说明模型拟合的效果越好，所以B错误；
对于C中，一元线性回归模型中，相关系数的绝对值越接近1，表明两个变量的相关性越强，所以如果相关系数，表明两个变量的相关程度很强，所以C正确；
对于D中，在列联表中，若所有数据均变成原来的2倍，
则，
此时是原来的2倍，所以D错误.
故选：C.
二、多选题
5．（2024·海南海口·模拟预测）某校为了解学生的身体状况，随机抽取了50名学生测量体重，经统计，这些学生的体重数据（单位：千克）全部介于45至70之间，将数据整理得到如图所示的频率分布直方图，则（）
A．频率分布直方图中的值为0.04
B．这50名学生体重的众数约为52.5
C．该校学生体重的上四分位数约为61.25
D．这50名学生中体重不低于65千克的人数约为10
【答案】ABC
【分析】利用频率之和为1可判断选项A，利用频率分布直方图中众数的计算方法求解众数，即可判断选项B，由分位数的计算方法求解，即可判断选项C，利用频率即可计算个数求解D.
【详解】由，解得，故选项A正确；
50名学生体重的众数约为，故选项B正确；
因为体重不低于60千克的频率为0.3，而体重在,的频率为，
所以计该校学生体重的分位数约为，故选项C正确．
体重不低于65千克的频率为，
所以这50名学生中体重不低于65千克的人数为人，故选项D错误；
故选：ABC．
6．（2024·湖北武汉·模拟预测）某科技公司统计了一款App最近5个月的下载量如表所示，若与线性相关，且线性回归方程为，则（）
A．与负相关B．
C．预测第6个月的下载量是2.1万次D．残差绝对值的最大值为0.2
【答案】ACD
【分析】对于A：根据回归方程分析判断；对于B：根据线性回归方程必过样本中心点，运算求解；对于C：根据回归方程进而预测；对于D：根据题意结合残差的定义分析判断.
【详解】对于A：因为，所以变量与负相关，故正确；
对于B：，
，
，则，
解得，故错误；
对于C：当时，，
故可以预测第6个月的下载量约为2.1万次，故正确；
对于D：当时，，，
当时，，，
当时，，，
当时，，，
当时，，，
故残差绝对值的最大值为0.2，故正确.
故选：ACD.
7．（2024·江西新余·模拟预测）已知对个数据做如下变换：当为奇数时，对应的变为；当为偶数时，对应的变为，则对于该组数据的变化，下列情况中可能发生的是：（）.
A．平均数增大B．方差不变
C．分位数减小D．众数减小
【答案】BCD
【分析】根据平均数、方差、百分位数、众数的意义一一分析计算即可.
【详解】由题意易知数据中奇数项均加一，偶数项均减二，则改变后数据和减小，
即平均数减小，故A错误；
由方差的实际意义（数据的波动程度）与在统计图中几何特征分析，
不妨令：为奇数时，为偶数时，
则与方差为，
新方差为，两数据相等，故B正确；
易知分位数为从小到大的第三个数据，而对应的可奇可偶，所以分位数可能减小，故C正确；
不妨取数据：，众数为1，
新数据的偶数项均从1变为，众数减少，故D正确，
故选：BCD
三、填空题
8．（2024·四川成都·模拟预测）已知关于x的一组数据：
根据表中数据得到的线性回归直线方程为，则的值．
【答案】0.64
【分析】先计算出，代入回归直线方程，得到.
【详解】，，
又题意得在上，
故，故.
故答案为：0.64
四、解答题
9．（2024·浙江嘉兴·二模）为了有效预防流感，很多民众注射了流感疫苗.市防疫部门随机抽取了1000人进行调查，发现其中注射疫苗的800人中有220人感染流感，另外没注射疫苗的200人中有80人感染流感.医学研究表明，流感的检测结果有检错的可能，已知患流感的人其检测结果有呈阳性（流感），而没有患流感的人其检测结果有呈阴性（未感染）
(1)估计该市流感感染率是多少？
(2)根据所给的数据，判断是否有99％的把握认为注射流感疫苗与预防流感有关；
(3)已知某人的流感检查结果呈阳性，求此人真的患有流感的概率.（精确到0.001）
附：．
【答案】(1)
(2)有
(3)
【分析】（1）根据古典概型运算公式进行求解即可；
（2）根据题中数据得到列联表，结合卡方运算公式和附表中的值进行判断即可；
（3）利用条件概率和全概率公式进行求解即可.
【详解】（1）估计流感的感染率；
（2）列联表如下：
所以，
所以有99.9%的把握认为注射流感疫苗与流感发病人数有关.
（3）设事件A为“一次检测结果呈阳性”，事件B为“被检测者确实患有流感”，
由题意得，，，，，
由全概率公式得，
所以，于是此人真的患有流感的概率是0.976.
10．（2024·陕西安康·模拟预测）某乒乓球训练机构以训练青少年为主，其中有一项打定点训练，就是把乒乓球打到对方球台的指定位置（称为“准点球”），在每周末，记录每个接受训练的学员在训练时打的所有球中“准点球”的百分比（），A学员已经训练了1年，下表记录了学员最近七周“准点球”的百分比：
若.
(1)根据上表数据，计算与的相关系数，并说明与的线性相关性的强弱；
（若，则认为与线性相关性很强；若，则认为与线性相关性一般；若，则认为与线性相关性较弱）（精确到）
(2)求关于的回归方程，并预测第周“准点球”的百分比.（精确到）
参考公式和数据：
，，
.
【答案】(1)，与线性相关性很强；
(2)，
【分析】（1）根据所给参考数据及相关系数公式求出，即可判断；
（2）首先求出，，即可得到与的回归方程，从而得到关于的回归方程，再代入计算可得.
【详解】（1）依题意，
又，所以与线性相关性很强；
（2）依题意，
所以，
所以，又，
所以，
当时，
所以预测第周“准点球”的百分比为.
一、单选题
1．（2024·江苏镇江·三模）命题P：的平均数与中位数相等；命题Q：是等差数列，则P是Q的（）
A．充分不必要条件B．必要不充分条件
C．充要条件D．既不充分也不必要条件
【答案】B
【分析】由是等差数列，易推导出的平均数与中位数相等，所以 P 是 Q 的必要条件；举出反例可推翻 P 是 Q 的充分条件．
【详解】由是等差数列，所以平均数为，而中位数也是，
所以的平均数与中位数相等，
即 , P 是 Q 的必要条件；
若数据是1,1,1,3,3,5,5,5，则平均数和中位数相等，但不是等差数列，
所以 P 推不出 Q ，所以 P 不是 Q 的充分条件；
所以 P 是 Q 的必要不充分条件．
故选： B .
2．（2024·江西新余·模拟预测）已知一组数据大致呈线性分布，其回归直线方程为，则的最小值为（）.
A．B．C．D．无法确定
【答案】C
【分析】根据回归方程必过样本中心点，即可得到答案.
【详解】回归直线经过，
且，，
代入回归方程得：，
即，
所以当时，的最小值为.
故选：C.
3．（2024·吉林·模拟预测）设样本数据，，…，的平均数为，标准差为，若样本数据，，…，的平均数比标准差少3，则的最大值为（）
A．1B．C．4D．
【答案】C
【分析】由平均数、标准差的性质结合已知条件得，从而，由此能求出的最大值．
【详解】样本数据，，…，的平均数为，标准差为，
样本数据，，…，的平均数为，标准差为，
依题意有，得，
由，，
所以，即时，的最大值为4.
故选：C.
二、多选题
4．（2024·湖南邵阳·三模）为了解一片经济林的生长情况，随机抽取了其中60株树木，测量底部周长（单位：cm），所得数据均在区间内，其频率分布直方图如图所示，则（）
A．图中的值为0.025
B．样本中底部周长不小于110cm的树木有12株
C．估计该片经济林中树木的底部周长的分位数为115
D．估计该片经济林中树木的底部周长的平均数为104（每组数据用该组所在区间的中点值作代表）
【答案】AC
【分析】根据频率分布直方图的性质，以及平均数和百分位数，以及频数与频率的计算方法，逐项判定，即可求解.
【详解】对于A中，由频率分布直方图的性质，可得，
解得，所以A正确；
对于B中，由频率分布直方图，可得不小于110 cm的频数为，
所以不小于110 cm的树木有株，所以B错误；
对于C中，由频率分布直方图得，前三个矩形的面积为，
前四个矩形的面积为，
所以分位数位于区间，则，所以C正确；
对于D中，由频率分布直方图的平均数的计算公式，可得：
，所以D错误；
故选：AC.
5．（2024·辽宁·模拟预测）已知由样本数据组成的一个样本，得到回归直线方程为，且，去除两个歧义点和后，得到新的回归直线的回归系数为2.5，则下列说法正确的是（）
A．相关变量具有正相关关系
B．去除两个歧义点后，随值增加相关变量值增加速度变小
C．去除两个歧义点后，重新求得回归方程对应的直线一定过点
D．去除两个歧义点后，重新求得的回归直线方程为
【答案】ABD
【分析】根据回归直线方程的斜率可得A正确，由新的回归直线方程的斜率大小可得B正确，由回归直线方程过样本中心点可得新的回归直线一定过点，可得C错误，代入新的样本中心点可得新的回归直线方程为，即D正确.
【详解】对于A，因为回归直线的斜率大于0，即相关变量具有正相关关系，故A正确；
对于B，斜率，此时随值增加相关变量值增加速度变小，故B正确；
对于C，将代入得，则去掉两个歧义点后，得到新的相关变量的平均值分别为，
所以重新求得得回归方程对应得直线一定过点，故C错误；
对于D，，此时的回归直线方程为，故D正确.
故选：ABD
6．（2024·吉林长春·模拟预测）已知变量x和变量y的一组成对样本数据（）的散点落在一条直线附近，，，相关系数为，线性回归方程为，则（）
A．当越大时，成对样本数据的线性相关程度越强
B．当时，
C．，时，成对样本数据（）的相关系数满足
D．时，成对样本数据（）的线性回归方程满足
参考公式：
【答案】BCD
【分析】根据线性相关、相关系数、线性回归方程等知识，对选项逐一分析，即可得到答案.
【详解】对于A，当越接近1时，成对样本数据的线性相关程度越强，故A错误；
对于B，当时，成对样本数据正相关，相关系数与符号相同，则，故B正确；
对于C，当，时，将这组数据添加后，不变，故相关系数的表达式中的分子和分母均不变，故C正确；
对于D，当，时，将这组数据添加后，不变，故线性回归方程中的斜率的表达式中的分子和分母均不变，所以，故D正确；
综上所述，正确的有B、C、D.
故选：BCD.
7．（2024·福建·模拟预测）已知一组数据的平均数、中位数、众数依次成等差数列，现在丢失了其中一个数据，另外六个数据分别是7，9，10，7，15，7．将丢失数据的所有可能值从小到大排列成数列an，记，则（）
A．B．
C．an是等差数列D．an是等比数列
【答案】AC
【分析】设丢失的数据是，求出平均值和众数，然后根据的大小得出中位数，根据已知等差数列求出的所有可能值，判断各个选项得出结论．
【详解】设丢失的数据是，则这组数据的平均数为，
众数显然是7，所以中位数为，
当时，有，解得，
当时，有，解得，
当时，有，解得，
所以丢失的数据所有可能值为，则.
对于A，，故A正确；
对于B，，故B错误；
对于C，D，由，，，所以是等差数列，故C正确，D错误.
故选：AC.
8．（2024·湖北·模拟预测）已知互不相同的20个样本数据，若去掉其中最大和最小的数据，设剩下的18个样本数据的方差为，平均数；去掉的两个数据的方差为，平均数；原样本数据的方差为，平均数，若，则（）
A．
B．
C．剩下18个数据的中位数大于原样本数据的中位数
D．剩下18个数据的分位数不等于原样本数据的分位数
【答案】AB
【分析】根据平均数的计算方法判断A；根据方差的计算方法判断B；根据中位数的概念判断C，根据百分位数的计算方法判断D.
【详解】对A：因为，且，所以，故A正确；
对B：设20个数据按从小到大的顺序排列为：，则
，，
因为，
所以
.故B正确；
对C：剩下18个数据的中位数和原样本数据的中位数均为，是相等的，故C错误；
对D:因为，则剩下18个数据的分位数为；又，所以原样本数据的分位数也是，故D错误.
故选：AB
三、解答题
9．（2024·海南海口·模拟预测）制定适合自己的学习计划并在学习过程中根据自己的实际情况有效地安排和调整学习方法是一种有效的学习策略．某教师为研究学生制定学习计划并坚持实施和数学成绩之间的关系，得到如下数据：
(1)依据小概率值的独立性检验，能否认为“制定学习计划并坚持实施”和“数学成绩高于分”有关联？
(2)若该校高三年级每月进行一次月考，该校学生小明在高三开学初认真制定了学习计划，其中一项要求自己每天要把错题至少重做一遍，做对为止．以下为小明坚持实施计划的月份和他在学校数学月考成绩的校内名次数据：
参考数据：，．
（ⅰ）求月考校内名次与时间代码的线性回归方程；
（ⅱ）该校老师给出了上一年该校学生高考（月初考试）数学成绩在校内的名次和在全省名次的部分数据：
利用数据分析软件，根据以上数据得出了两个回归模型和决定系数：
在以上两个模型中选择“较好”模型（说明理由），并结合问题（ⅰ）的回归方程，依据“较好”模型预测小明如果能坚持实施学习计划，他在次年高考中数学成绩的全省名次（名次均保留整数）．（参考数据：，，）
附：（ii），其中．
（i）对于一组数据，其回归直线的斜率和截距的最小二乘估计分别为：，．
【答案】(1)依据小概率值的独立性检验，能认为“制定学习计划并坚持实施”和“数学成绩高于分”有关联
(2)（ⅰ），（ⅱ）模型②较好，全省名次预测为
【分析】（1）计算卡方，即可与临界值比较作答，
（2）根据最小二乘法即可求解回归方程，利用决定系数的大小比较即可选择模型②，代入方程即可求解名次.
【详解】（1）零假设：制定学习计划并坚持实施和数学成绩高于分没有关联
因为，
依据小概率值的独立性检验认为不成立，
即认为“制定学习计划并坚持实施”和“数学成绩高于120分”有关联
（2）（ⅰ），
，
，
．
回归直线方程为，
模型②较好，由于模型②与模型①相比较，模型②决定系数大于模型①，因此拟合效果更好，
由于回归直线方程为，当六月初月考时，，小明的月考校内名次预测值为，
故省内排名预测为.
10．（2024·江苏无锡·模拟预测）由于人们对工业高度发达的负面影响预料不够，预防不利，导致了全球性的三大危机：资源短缺、环境污染、生态破坏环境污染指自然的或人为的破坏，向环境中添加某种物质而超过环境的自净能力而产生危害的行为或由于人为的因素，环境受到有害物质的污染，使生物的生长繁殖和人类的正常生活受到有害影响由于人为因素使环境的构成或状态发生变化，环境质量下降，从而扰乱和破坏了生态系统和人类的正常生产和生活条件的现象据研究，某种污染物具有极强的污染力，现在对这种污染物的污染力进行调查研究，通过实验调查，可以得到某地区该污染物到来后的污染时间小时与该污染物的污染面积平方米的一些数据如下：
通过分析可知，数据与之间存在很强的线性回归关系．
(1)求出与之间的关系式；
(2)根据中的关系式，该污染物到来后的污染时间是多少时，该污染物的污染面积的平均增长最慢？
参考公式：对于一组数据，其回归直线的斜率和截距的最小二乘估计分别，．．
【答案】(1)；
(2)该污染物到来后的污染时间是小时时，该污染物的污染面积的平均增长最慢．
【分析】（1）令，利用最小二乘法求出与的关系，进一步可得与之间的关系式；
（2）令，利用导数求最值得答案．
【详解】（1）令，则，．
，，
，．
，则，可得与之间的关系式为；
（2）令，则，
当时，，单调递减，
当时，，单调递增，
．
故该污染物到来后的污染时间是小时时，该污染物的污染面积的平均增长最慢．
1．（2024·天津·高考真题）下列图中，线性相关性系数最大的是（）
A．B．
C．D．
【答案】A
【分析】由点的分布特征可直接判断
【详解】观察4幅图可知，A图散点分布比较集中，且大体接近某一条直线，线性回归模型拟合效果比较好，呈现明显的正相关，值相比于其他3图更接近1.
故选：A
2．（2024·全国·高考真题）某工厂进行生产线智能化升级改造，升级改造后，从该工厂甲、乙两个车间的产品中随机抽取150件进行检验，数据如下：
(1)填写如下列联表：
能否有的把握认为甲、乙两车间产品的优级品率存在差异？能否有的把握认为甲，乙两车间产品的优级品率存在差异？
(2)已知升级改造前该工厂产品的优级品率，设为升级改造后抽取的n件产品的优级品率.如果，则认为该工厂产品的优级品率提高了，根据抽取的150件产品的数据，能否认为生产线智能化升级改造后，该工厂产品的优级品率提高了？（）
附：
【答案】(1)答案见详解
(2)答案见详解
【分析】（1）根据题中数据完善列联表，计算，并与临界值对比分析；
（2）用频率估计概率可得，根据题意计算，结合题意分析判断.
【详解】（1）根据题意可得列联表：
可得，
因为，
所以有的把握认为甲、乙两车间产品的优级品率存在差异，没有的把握认为甲，乙两车间产品的优级品率存在差异.
（2）由题意可知：生产线智能化升级改造后，该工厂产品的优级品的频率为，
用频率估计概率可得，
又因为升级改造前该工厂产品的优级品率，
则，
可知，
所以可以认为生产线智能化升级改造后，该工厂产品的优级品率提高了.
3．（2024·上海·高考真题）为了解某地初中学生体育锻炼时长与学业成绩的关系，从该地区29000名学生中抽取580人，得到日均体育锻炼时长与学业成绩的数据如下表所示：
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少？
(2)估计该地区初中学生日均体育锻炼的时长（精确到0.1）
(3)是否有的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关？
（附：其中，．）
【答案】(1)
(2)
(3)有
【分析】（1）求出相关占比，乘以总人数即可；
（2）根据平均数的计算公式即可得到答案；
（3）作出列联表，再提出零假设，计算卡方值和临界值比较大小即可得到结论.
【详解】（1）由表可知锻炼时长不少于1小时的人数为占比，
则估计该地区29000名学生中体育锻炼时长不少于1小时的人数为．
（2）估计该地区初中生的日均体育锻炼时长约为
．
则估计该地区初中学生日均体育锻炼的时长为0.9小时.
（3）由题列联表如下：
提出零假设：该地区成绩优秀与日均锻炼时长不少于1小时但少于2小时无关．
其中．
．
则零假设不成立，
即有的把握认为学业成绩优秀与日均锻炼时长不小于1小时且小于2小时有关．
4．（2023·全国·高考真题）一项试验旨在研究臭氧效应，试验方案如下：选40只小白鼠，随机地将其中20只分配到试验组，另外20只分配到对照组，试验组的小白鼠饲养在高浓度臭氧环境，对照组的小白鼠饲养在正常环境，一段时间后统计每只小白鼠体重的增加量（单位：g）．试验结果如下：
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数；
(2)（ⅰ）求40只小白鼠体重的增加量的中位数m，再分别统计两样本中小于m与不小于m的数据的个数，完成如下列联表
（ⅱ）根据（i）中的列联表，能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异？
附：，
【答案】(1)
(2)（i）；列联表见解析，（ii）能
【分析】（1）直接根据均值定义求解；
（2）（i）根据中位数的定义即可求得，从而求得列联表；
（ii）利用独立性检验的卡方计算进行检验，即可得解.
【详解】（1）试验组样本平均数为：
（2）（i）依题意，可知这40只小鼠体重的中位数是将两组数据合在一起，从小到大排后第20位与第21位数据的平均数，
由原数据可得第11位数据为，后续依次为，
故第20位为，第21位数据为，
所以，
故列联表为：
（ii）由（i）可得，，
所以能有的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.
5．（2023·全国·高考真题）一项试验旨在研究臭氧效应.实验方案如下：选40只小白鼠，随机地将其中20只分配到实验组，另外20只分配到对照组，实验组的小白鼠饲养在高浓度臭氧环境，对照组的小白鼠饲养在正常环境，一段时间后统计每只小白鼠体重的增加量（单位：g）.
(1)设表示指定的两只小白鼠中分配到对照组的只数，求的分布列和数学期望；
(2)实验结果如下：
对照组的小白鼠体重的增加量从小到大排序为：
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
实验组的小白鼠体重的增加量从小到大排序为：
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
（i）求40只小鼠体重的增加量的中位数m，再分别统计两样本中小于m与不小于的数据的个数，完成如下列联表：
（ii）根据（i）中的列联表，能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异．
附：
【答案】(1)分布列见解析，
(2)（i）；列联表见解析，（ii）能
【分析】（1）利用超几何分布的知识即可求得分布列及数学期望；
（2）（i）根据中位数的定义即可求得，从而求得列联表；
（ii）利用独立性检验的卡方计算进行检验，即可得解.
【详解】（1）依题意，的可能取值为，
则，，，
所以的分布列为：
故.
（2）（i）依题意，可知这40只小白鼠体重增量的中位数是将两组数据合在一起，从小到大排后第20位与第21位数据的平均数，观察数据可得第20位为，第21位数据为，
所以，
故列联表为：
（ii）由（i）可得，，
所以能有的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
6．（2023·全国·高考真题）某厂为比较甲乙两种工艺对橡胶产品伸缩率的处理效应，进行10次配对试验，每次配对试验选用材质相同的两个橡胶产品，随机地选其中一个用甲工艺处理，另一个用乙工艺处理，测量处理后的橡胶产品的伸缩率．甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为，．试验结果如下：
记，记的样本平均数为，样本方差为．
(1)求，；
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高（如果，则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高，否则不认为有显著提高）
【答案】(1)，；
(2)认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
【分析】（1）直接利用平均数公式即可计算出，再得到所有的值，最后计算出方差即可；
（2）根据公式计算出的值，和比较大小即可.
【详解】（1），
，
，
的值分别为: ，
故
（2）由（1）知:，，故有,
所以认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
7．（2022·北京·高考真题）在北京冬奥会上，国家速滑馆“冰丝带”使用高效环保的二氧化碳跨临界直冷制冰技术，为实现绿色冬奥作出了贡献．如图描述了一定条件下二氧化碳所处的状态与T和的关系，其中T表示温度，单位是K；P表示压强，单位是．下列结论中正确的是（）
A．当，时，二氧化碳处于液态
B．当，时，二氧化碳处于气态
C．当，时，二氧化碳处于超临界状态
D．当，时，二氧化碳处于超临界状态
【答案】D
【分析】根据与的关系图可得正确的选项.
【详解】当，时，，此时二氧化碳处于固态，故A错误.
当，时，，此时二氧化碳处于液态，故B错误.
当，时，与4非常接近，故此时二氧化碳处于固态，对应的是非超临界状态，故C错误.
当，时，因, 故此时二氧化碳处于超临界状态，故D正确.
故选：D
8．（2022·全国·高考真题）某社区通过公益讲座以普及社区居民的垃圾分类知识．为了解讲座效果，随机抽取10位社区居民，让他们在讲座前和讲座后各回答一份垃圾分类知识问卷，这10位社区居民在讲座前和讲座后问卷答题的正确率如下图：
则（）
A．讲座前问卷答题的正确率的中位数小于
B．讲座后问卷答题的正确率的平均数大于
C．讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D．讲座后问卷答题的正确率的极差大于讲座前正确率的极差
【答案】B
【分析】由图表信息，结合中位数、平均数、标准差、极差的概念，逐项判断即可得解.
【详解】讲座前中位数为,所以错；
讲座后问卷答题的正确率只有一个是个,剩下全部大于等于,所以讲座后问卷答题的正确率的平均数大于,所以B对；
讲座前问卷答题的正确率更加分散,所以讲座前问卷答题的正确率的标准差大于讲座后正确率的标准差,所以C错；
讲座后问卷答题的正确率的极差为，
讲座前问卷答题的正确率的极差为,所以错.
故选:B.
9．（2022·全国·高考真题）甲、乙两城之间的长途客车均由A和B两家公司运营，为了解这两家公司长途客车的运行情况，随机调查了甲、乙两城之间的500个班次，得到下面列联表：
(1)根据上表，分别估计这两家公司甲、乙两城之间的长途客车准点的概率；
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关？
附：，
【答案】(1)A，B两家公司长途客车准点的概率分别为，
(2)有
【分析】（1）根据表格中数据以及古典概型的概率公式可求得结果；
（2）根据表格中数据及公式计算，再利用临界值表比较即可得结论.
【详解】（1）根据表中数据，A共有班次260次，准点班次有240次，
设A家公司长途客车准点事件为M，
则；
B共有班次240次，准点班次有210次，
设B家公司长途客车准点事件为N，
则.
A家公司长途客车准点的概率为；
B家公司长途客车准点的概率为.
（2）列联表
=，
根据临界值表可知，有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
10．（2022·全国·高考真题）一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯（卫生习惯分为良好和不够良好两类）的关系，在已患该疾病的病例中随机调查了100例（称为病例组），同时在未患该疾病的人群中随机调查了100人（称为对照组），得到如下数据：
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异？
(2)从该地的人群中任选一人，A表示事件“选到的人卫生习惯不够良好”，B表示事件“选到的人患有该疾病”．与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标，记该指标为R．
（ⅰ）证明：；
（ⅱ）利用该调查数据，给出的估计值，并利用（ⅰ）的结果给出R的估计值．
附，
【答案】(1)答案见解析
(2)（i）证明见解析；(ii)；
【分析】(1)由所给数据结合公式求出的值，将其与临界值比较大小，由此确定是否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异；(2)(i) 根据定义结合条件概率公式即可完成证明；(ii)根据（i）结合已知数据求.
【详解】（1）由已知，
又，，
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
（2）(i)因为，
所以
所以，
(ii)
由已知，，
又，，
所以
11．（2021·全国·高考真题）甲、乙两台机床生产同种产品，产品按质量分为一级品和二级品，为了比较两台机床产品的质量，分别用两台机床各生产了200件产品，产品的质量情况统计如下表：
（1）甲机床、乙机床生产的产品中一级品的频率分别是多少?
（2）能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附：
【答案】（1）75%；60%；
（2）能.
【分析】根据给出公式计算即可
【详解】（1）甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.
（2）,
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
12．（2020·江苏·高考真题）已知一组数据的平均数为4，则的值是 .
【答案】2
【分析】根据平均数的公式进行求解即可．
【详解】∵数据的平均数为4
∴，即.
故答案为：2.
【点睛】本题主要考查平均数的计算和应用，比较基础．
13．（2020·全国·高考真题）在一组样本数据中，1，2，3，4出现的频率分别为，且，则下面四种情形中，对应样本的标准差最大的一组是（）
A．B．
C．D．
【答案】B
【分析】计算出四个选项中对应数据的平均数和方差，由此可得出标准差最大的一组.
【详解】对于A选项，该组数据的平均数为，
方差为；
对于B选项，该组数据的平均数为，
方差为；
对于C选项，该组数据的平均数为，
方差为；
对于D选项，该组数据的平均数为，
方差为.
因此，B选项这一组的标准差最大.
故选：B.
【点睛】本题考查标准差的大小比较，考查方差公式的应用，考查计算能力，属于基础题.
14．（2020·全国·高考真题）设一组样本数据x1，x2，…，xn的方差为0.01，则数据10x1，10x2，…，10xn的方差为（）
A．0.01B．0.1C．1D．10
【答案】C
【分析】根据新数据与原数据关系确定方差关系，即得结果.
【详解】因为数据的方差是数据的方差的倍，
所以所求数据方差为
故选：C
【点睛】本题考查方差，考查基本分析求解能力，属基础题.
15．（2020·全国·高考真题）某校一个课外学习小组为研究某作物种子的发芽率y和温度x（单位：°C）的关系，在20个不同的温度条件下进行种子发芽实验，由实验数据得到下面的散点图：
由此散点图，在10°C至40°C之间，下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是（）
A．B．
C．D．
【答案】D
【分析】根据散点图的分布可选择合适的函数模型.
【详解】由散点图分布可知，散点图分布在一个对数函数的图象附近，
因此，最适合作为发芽率和温度的回归方程类型的是.
故选：D.
【点睛】本题考查函数模型的选择，主要观察散点图的分布，属于基础题.
16．（2020·海南·高考真题）我国新冠肺炎疫情进入常态化，各地有序推进复工复产，下面是某地连续11天复工复产指数折线图，下列说法正确的是
A．这11天复工指数和复产指数均逐日增加;
B．这11天期间，复产指数增量大于复工指数的增量;
C．第3天至第11天复工复产指数均超过80%;
D．第9天至第11天复产指数增量大于复工指数的增量;
【答案】CD
【分析】注意到折线图中有递减部分，可判定A错误；注意考查第1天和第11天的复工复产指数的差的大小，可判定B错误；根据图象，结合复工复产指数的意义和增量的意义可以判定CD正确.
【详解】由图可知，第1天到第2天复工指数减少，第7天到第8天复工指数减少，第10天到第11复工指数减少，第8天到第9天复产指数减少，故A错误；
由图可知，第一天的复产指标与复工指标的差大于第11天的复产指标与复工指标的差，所以这11天期间，复产指数增量小于复工指数的增量，故B错误;
由图可知，第3天至第11天复工复产指数均超过80%，故C正确;
由图可知，第9天至第11天复产指数增量大于复工指数的增量，故D正确;
【点睛】本题考查折线图表示的函数的认知与理解，考查理解能力，识图能力，推理能力，难点在于指数增量的理解与观测，属中档题.
17．（2020·天津·高考真题）从一批零件中抽取80个，测量其直径（单位：），将所得数据分为9组：，并整理得到如下频率分布直方图，则在被抽取的零件中，直径落在区间内的个数为（）
A．10B．18C．20D．36
【答案】B
【分析】根据直方图确定直径落在区间之间的零件频率，然后结合样本总数计算其个数即可.
【详解】根据直方图，直径落在区间之间的零件频率为：，
则区间内零件的个数为：.
故选：B.
【点睛】本题主要考查频率分布直方图的计算与实际应用，属于中等题.
18．（2020·全国·高考真题）某厂接受了一项加工业务，加工出来的产品(单位：件)按标准分为A，B，C，D四个等级.加工业务约定：对于A级品、B级品、C级品，厂家每件分别收取加工费90元，50元，20元；对于D级品，厂家每件要赔偿原料损失费50元.该厂有甲、乙两个分厂可承接加工业务.甲分厂加工成本费为25元/件，乙分厂加工成本费为20元/件.厂家为决定由哪个分厂承接加工业务，在两个分厂各试加工了100件这种产品，并统计了这些产品的等级，整理如下：
甲分厂产品等级的频数分布表
乙分厂产品等级的频数分布表
（1）分别估计甲、乙两分厂加工出来的一件产品为A级品的概率；
（2）分别求甲、乙两分厂加工出来的100件产品的平均利润，以平均利润为依据，厂家应选哪个分厂承接加工业务?
【答案】（1）甲分厂加工出来的级品的概率为，乙分厂加工出来的级品的概率为；（2）选甲分厂，理由见解析.
【分析】（1）根据两个频数分布表即可求出；
（2）根据题意分别求出甲乙两厂加工件产品的总利润，即可求出平均利润，由此作出选择．
【详解】（1）由表可知，甲厂加工出来的一件产品为级品的概率为，乙厂加工出来的一件产品为级品的概率为；
（2）甲分厂加工件产品的总利润为元，
所以甲分厂加工件产品的平均利润为元每件；
乙分厂加工件产品的总利润为
元，
所以乙分厂加工件产品的平均利润为元每件．
故厂家选择甲分厂承接加工任务．
【点睛】本题主要考查古典概型的概率公式的应用，以及平均数的求法，并根据平均值作出决策，属于基础题．
19．（2017·全国·高考真题）为了监控某种零件的一条生产线的生产过程，检验员每隔从该生产线上随机抽取一个零件，并测量其尺寸（单位：）．下面是检验员在一天内依次抽取的16个零件的尺寸：
经计算得，，
，其中为抽取的第个零件的尺寸，．
（1）求的相关系数，并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小（若，则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小）．
（2）一天内抽检零件中，如果出现了尺寸在之外的零件，就认为这条生产线在这一天的生产过程可能出现了异常情况，需对当天的生产过程进行检查．
（ⅰ）从这一天抽检的结果看，是否需对当天的生产过程进行检查？
（ⅱ）在之外的数据称为离群值，试剔除离群值，估计这条生产线当天生产的零件尺寸的均值与标准差．（精确到）附：样本的相关系数
，．
【答案】（1）可以；（2）（ⅰ）需要；（ⅱ），.
【分析】（1）依公式求；
（2）（i）由，得抽取的第13个零件的尺寸在以外，因此需对当天的生产过程进行检查；（ii）剔除第13个数据，则均值的估计值为10.02，方差为0.09．
【详解】（1）由样本数据得的相关系数为
.
由于，因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
（2）（i）由于，
由样本数据可以看出抽取的第13个零件的尺寸在以外，
因此需对当天的生产过程进行检查.
（ii）剔除离群值，即第13个数据，
剩下数据的平均数为，
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
，
剔除第13个数据，剩下数据的样本方差为
，
这条生产线当天生产的零件尺寸的标准差的估计值为.
【点睛】解答新颖的数学题时，一是通过转化，化“新”为“旧”；二是通过深入分析，多方联想，以“旧”攻“新”；三是创造性地运用数学思想方法，以“新”制“新”，应特别关注创新题型的切入点和生长点．
20．（2016·全国·高考真题）下图是我国2008年至2014年生活垃圾无害化处理量（单位：亿吨）的折线图.

（Ⅰ）由折线图看出，可用线性回归模型拟合y与t的关系，请用相关系数加以说明；
（Ⅱ）建立y关于t的回归方程（系数精确到0.01），预测2016年我国生活垃圾无害化处理量.
附注：
参考数据：，，
，≈2.646.
参考公式：相关系数
回归方程中斜率和截距的最小二乘估计公式分别为：
【答案】(Ⅰ)答案见解析；(Ⅱ)答案见解析.
【详解】试题分析：（Ⅰ）根据相关系数的公式求出相关数据后，代入公式即可求得的值，最后根据值的大小回答即可；（Ⅱ）准确求得相关数据，利用最小二乘法建立y关于t的回归方程，然后预测．
试题解析：（Ⅰ）由折线图中数据和附注中参考数据得
，，，
，
.
因为与的相关系数近似为0.99，说明与的线性相关相当高，从而可以用线性回归模型拟合与的关系.
（Ⅱ）由及（Ⅰ）得，
.
所以，关于的回归方程为：.
将2016年对应的代入回归方程得：.
所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.
【考点】线性相关系数与线性回归方程的求法与应用．
【方法点拨】（1）判断两个变量是否线性相关及相关程度通常有两种方法：（1）利用散点图直观判断；（2）将相关数据代入相关系数公式求出，然后根据的大小进行判断．求线性回归方程时要严格按照公式求解，并一定要注意计算的准确
5年考情
考题示例
考点分析
关联考点
2024年新Ⅱ卷，第4题,5分
计算几个数的中位数
计算几个数的平均数
计算几个数据的极差
/
2023年新I卷，第9题,5分
计算几个数的中位数
计算几个数的平均数
计算几个数据的极差、方差
标准差
/
2023年新Ⅱ卷，第19题,12分
频率分布直方图的实际应用
总体百分位数的估计
/
2023年全国甲卷（理），
第19题,12分
独立性检验解决实际问题
计算几个数的中位数
超几何分布的均值
超几何分布的分布列
2023年全国乙卷（理），
第17题,12分
计算几个数的平均数
计算几个数据的极差、方差、标准差
统计新定义
2022年新I卷，第20题,12分
独立性检验解决实际问题
计算条件概率
2022年新Ⅱ卷，第19题,12分
频率分布直方图的实际应用
由频率分布直方图估计平均数
利用对立事件的概率公式求概率
计算条件概率
2022年全国甲卷（理），
第2题,5分
众数、平均数、中位数的比较
计算几个数据的极差、方差、标准差
/
2022年全国乙卷（理），
第19题,12分
相关系数的计算
根据样本中心点求参数
计算几个数的平均数
2021年新I卷，第9题,5分
众数、平均数、中位数的比较
计算几个数据的极差、方差、标准差
/
2021年新Ⅱ卷，第9题,5分
计算几个数的众数
计算几个数的中位数
计算几个数的平均数
计算几个数据的极差、方差、标准差
/
2021年全国乙卷（理），
第17题,10分
独立性检验解决实际问题
/
2021年全国甲卷（理），
第2题,5分
由频率分布直方图计算频率、频数、样本容量、总体容量
由频率分布直方图估计平均数
/
2021年全国甲卷（理），
第17题,10分
计算几个数的平均数
计算几个数据的极差、方差、标准差
/
2020年新I卷，第19题,12分
完善列联表
独立性检验
/
2020年新Ⅱ卷，第19题,12分
完善列联表
独立性检验
/
2020年全国甲卷（理），
第5题,5分
由散点图画求近似回归直线
/
2020年全国乙卷（理），
第18题,12分
相关系数的计算
/
2020年全国丙卷（理），
第18题,12分
独立性检验解决实际问题
/
2020年新Ⅱ卷，第9题,5分
根据折线统计图解决实际问题
/
y1
y2
总计
x1
a
b
a＋b
x2
c
d
c＋d
总计
a＋c
b＋d
a＋b＋c＋d
组号
1
2
3
4
5
频数
8
11
10
9
分数段
人数
1
3
6
6
2
1
1
试验序号
1
2
3
4
5
6
7
8
9
10
伸缩率
545
533
551
522
575
544
541
568
596
548
伸缩率
536
527
543
530
560
533
522
550
576
536
旧设备
9.8
10.3
10.0
10.2
9.9
9.8
10.0
10.1
10.2
9.7
新设备
10.1
10.4
10.1
10.0
10.1
10.3
10.6
10.5
10.4
10.5
0
1
2
3
4
0.4096
0.4096
0.1536
0.0256
0.0016
X
0
1
2
P
样本号ｉ
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7
1
2
3
4
5
1
x
1
2
3
4
5
y
5
m
8
9
10.5
年份x
2019
2020
2021
2022
2023
新能源汽车购买数量>（万辆）
0.40
0.70
1.10
1.50
1.80
人工投入增量x（人）
2
3
4
6
8
10
13
年收益增量y（万元）
13
22
31
42
50
56
58
回归模型
模型①
模型②
回归方程
182.4
79.2
x
1
2
3
4
5
y
0.5
0.9
1
1.1
1.5
身高（单位：
167
173
175
177
178
180
181
体重（单位：
90
54
59
64
67
72
76
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7
7.5
2.25
82.50
4.50
12.14
2.88
行驶里程万
0.0
0.4
1.0
1.6
2.4
2.8
3.4
4.4
轮胎凹槽深度
8.0
7.8
7.2
6.2
5.6
4.8
4.4
4.0
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
男生
女生
合计
选修外出研学课程
未选修外出研学课程
合计
男生
女生
合计
选修外出研学课程
不选修外出研学课程
合计
满意
不满意
总计
男游客
35
女游客
15
合计
100
0.10
0.05
0.010
0.005
2.706
3.841
6.635
7.879
满意
不满意
总计
男游客
35
5
40
女游客
45
15
60
合计
80
20
100
0
1
2
优秀
非优秀
甲班
10
乙班
30
0.05
0.025
0.010
0.005
3.841
5.024
6.635
7.879
感染情况接种情况
感染支原体肺炎
未感染支原体肺炎
合计
接种流感疫苗
未接种流感疫苗
合计
46
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
性别
是否喜欢篮球
合计
喜欢
不喜欢
男生
450
150
600
女生
150
250
400
合计
600
400
1000
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
0.1
0.05
0.025
0.01
2.706
3.841
5.024
6.635
月份编号
1
2
3
4
5
下载量（万次）
5
4.5
4
3.5
2.5
x
1
m
3
4
5
y
0.5
0.6
n
1.3
1.4
0.050
0.010
0.001
k
3.841
6.635
10.828
疫苗情况
患有流感
不患有流感
合计
打疫苗
220
580
800
不打疫苗
80
120
200
合计
300
700
100
周次（x）
1
2
3
4
5
6
7
52
52.8
53.5
54
54.5
54.9
55.3
成绩分
成绩分
合计
制定学习计划并坚持实施
没有制定学习计划
合计
50
月考时间
月初
月初
次年月初
次年月初
次年月初
时间代码
月考校内名次
校内名次
全省名次
模型①
模型②
优级品
合格品
不合格品
总计
甲车间
26
24
0
50
乙车间
70
28
2
100
总计
96
52
2
150
优级品
非优级品
甲车间
乙车间
0.050
0.010
0.001
k
3.841
6.635
10.828
优级品
非优级品
甲车间
26
24
乙车间
70
30
时间范围学业成绩
优秀
5
44
42
3
1
不优秀
134
147
137
40
27
其他
合计
优秀
45
50
95
不优秀
177
308
485
合计
222
358
580
对照组
试验组
0.100
0.050
0.010
2.706
3.841
6.635
合计
对照组
6
14
20
试验组
14
6
20
合计
20
20
40
对照组
实验组
0.100
0.050
0.010
2.706
3.841
6.635
合计
对照组
6
14
20
实验组
14
6
20
合计
20
20
40
试验序号
1
2
3
4
5
6
7
8
9
10
伸缩率
545
533
551
522
575
544
541
568
596
548
伸缩率
536
527
543
530
560
533
522
550
576
536
准点班次数
未准点班次数
A
240
20
B
210
30
0.100
0.050
0.010
2.706
3.841
6.635
准点班次数
未准点班次数
合计
A
240
20
260
B
210
30
240
合计
450
50
500
不够良好
良好
病例组
40
60
对照组
10
90
0.050
0.010
0.001
k
3.841
6.635
10.828
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
0.050
0.010
0.001
k
3.841
6.635
10.828
等级
A
B
C
D
频数
40
20
20
20
等级
A
B
C
D
频数
28
17
34
21
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9．95
10．12
9．96
9．96
10．01
9．92
9．98
10．04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10．26
9．91
10．13
10．02
9．22
10．04
10．05
9．95