2023届高考数学二轮复习专题四第1讲统计与统计案例学案
展开专题四 统计与概率
第1讲 统计与统计案例
考情分析
高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体,线性回归方程的求解与运用,独立性检验问题.常与概率综合考查,中等难度.
自主先热身 真题定乾坤
ZIZHUXIANRESHENZHENTIDINGQIANKUN
真题热身
1.(2021·全国甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( C )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
【解析】 对于A,该地农户家庭年收入低于4.5万元的农户比率为(0.02+0.04)×1=0.06=6%,故选项A正确;
对于B,该地农户家庭年收入不低于10.5万元的农户比率为(0.04+0.02×3)×1=0.1=10%,故选项B正确;
对于C,估计该地农户家庭年收入的平均值为3×0.02+4×0.04+5×0.1+6×0.14+7×0.2+8×0.2+9×0.1+10×0.1+11×0.04+12×0.02+13×0.02+14×0.02=7.68>6.5万元,故选项C错误;
对于D,家庭年收入介于4.5万元至8.5万元之间的频率为(0.1+0.14+0.2+0.2)×1=0.64>0.5,故估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间,故选项D正确.故选C.
2.(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则( B )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
【解析】 讲座前中位数为>70%,所以A错;讲座后问卷答题的正确率只有一个是80%,4个85%,剩下全部大于等于90%,所以讲座后问卷答题的正确率的平均数大于85%,所以B对;讲座前问卷答题的正确率更加分散,所以讲座前问卷答题的正确率的标准差大于讲座后正确率的标准差,所以C错;讲座后问卷答题的正确率的极差为100%-80%=20%,讲座前问卷答题的正确率的极差为95%-60%=35%>20%,所以D错.故选B.
3.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本
号i
1
2
3
4
5
6
7
8
9
10
总和
根部横
截面积
xi
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积
量yi
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得=0.038,=1.6158,iyi=0.2474.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=,≈1.377.
【解析】 (1)样本中10棵这种树木的根部横截面积的平均值==0.06,
样本中10棵这种树木的材积量的平均值==0.39,
据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m2,
平均一棵的材积量为0.39 m3.
(2)r=
=
=
=≈≈0.97,
则r≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,
又已知树木的材积量与其根部横截面积近似成正比,
可得=,解之得Y=1 209 m3.
则该林区这种树木的总材积量估计为1 209 m3.
4.(2022·全国甲卷)甲、乙两城之间长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数
未准点班次数
A
240
20
B
210
30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:K2=,
P(K2≥k)
0.100
0.050
0.010
k
2.706
3.841
6.635
【解析】(1)根据表中数据,A家公司共有班次260次,准点班次有240次,
设A家公司长途客车准点事件为M,
则P(M)==;
B家公司共有班次240次,准点班次有210次,
设B家公司长途客车准点事件为N,
则P(N)==,
A家公司长途客车准点的概率为;
B家公司长途客车准点的概率为.
(2)列联表
准点班次数
未准点班次数
合计
A
240
20
260
B
210
30
240
合计
450
50
500
K2=
=≈3.205>2.706,
根据临界值表可知,有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
感悟高考
1.统计与统计案例在选择或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在3~4题的位置.
2.统计的解答题多在第19或20题的位置,多与概率知识交汇考查,交汇点主要有两种:频率分布直方图与随机变量的分布列、数学期望、方差、正态分布相交汇考查;频率分布直方图与线性回归或独立性检验相交汇来考查,难度中等.
核心拔头筹 考点巧突破
HEXINBATOUCHOUKAODIANQIAOTUPO
考点一 统计图表
1.频率分布直方图中横坐标表示组距,纵坐标表示,频率=组距×.
2.频率分布直方图中各小长方形的面积之和为1.
3.利用频率分布直方图求众数、中位数与平均数.
频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即众数.
(2)中位数左边和右边的小长方形的面积和相等.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
典例1 (1)(2021·济南市模拟考试)如图是某地区2001年至2021年环境保护建设投资额(单位:万元)的折线图.
根据该折线图判断,下列结论正确的是( B )
A.为预测该地2022年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠
B.为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠
C.投资额与年份负相关
D.投资额与年份的相关系数r<0
【解析】因2009年之前与2010年之后投资额变化较大,故为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠,所以A错误,B正确;随年份的增长,投资额总体上在增长,所以投资额与年份正相关,r>0,故C、D错误.故选B.
(2)某班40名学生参加普法知识竞赛,成绩都在区间[40,100]内,其频率分布直方图如图所示,则成绩不低于60分的人数为__30__.
【解析】根据频率分布直方图可得成绩不低于60分的学生的频率为
(0.015+0.030+0.025+0.005)×10=0.75,
则成绩不低于60分的学生人数为40×0.75=30.
【易错提醒】(1)对于给出的统计图表,一定要结合问题背景理解图表意义,不能似懂非懂.
(2)频率分布直方图中纵坐标不要误以为频率.
1.(1)(2020·四省八校双教研联考)如图1为某省2019年1~4月份快递业务量统计图,图2为该省2019年1~4月份快递业务收入统计图,对统计图理解错误的是( D )
A.2019年1~4月份快递业务量3月份最高,2月份最低,差值接近2000万件
B.2019年1~4月份快递业务量同比增长率均超过50%,在3月份最高,和春节蛰伏后网购迎来喷涨有关
C.从两图中看,增量与增长速度并不完全一致,但业务量与业务收入变化高度一致
D.从1~4月份来看,业务量与业务收入有波动,但整体保持高速增长
(2)(2020·重庆模拟)新高考方案规定,普通高中学业水平考试分为合格性考试(合格考)和选择性考试(选择考),其中“选择考”成绩将计入高考总成绩,即将学生考试时的原始卷面分数由高到低进行排序,评定为A,B,C,D,E五个等级,再转换为分数计入高考总成绩.某试点高中2020年参加“选择考”总人数是2018年参加“选择考”总人数的2倍,为了更好地分析该校学生“选择考”的水平情况,统计了该校2018年和2020年“选择考”成绩等级结果,得到如图所示的统计图.
针对该校“选择考”情况,2020年与2018年比较,下列说法正确的是( A )
A.获得A等级的人数增加了
B.获得B等级的人数增加了1倍
C.获得D等级的人数减少了一半
D.获得E等级的人数相同
【解析】(1)对于A,2019年1~4月份快递业务量3月份最高,有4 397万件,2月份最低,有2 411万件,其差值接近2 000万件,所以A正确;对于B,2019年1~4月份快递业务量的同比增长率分别为55%,53%,62%,58%,均超过50%,在3月份最高,和春节蛰伏后网购迎来喷涨有关,所以B正确;对于C,由两图易知增量与增长速度并不完全一致,其业务量从高到低变化是3月→4月→1月→2月,业务收入从高到低变化是3月→4月→1月→2月,保持高度一致,所以C正确;对于D,由图知业务收入2月对1月减少,4月对3月减少,整体不具备高速增长之说,所以D不正确.故选D.
(2)设2018年参加“选择考”的总人数为x,则2020年参加“选择考”的总人数为2x,根据图表得出2018年和2020年各个等级的人数如表所示.
等级
年份
A
B
C
D
E
2018
0.28x
0.32x
0.30x
0.08x
0.02x
2020
0.48x
0.8x
0.56x
0.12x
0.04x
由表可知,获得A等级的人数增加了,故A正确;获得B等级的人数增加了=1.5倍,故B错误;获得D等级的人数增加了,故C错误;获得E等级的人数不相同,故D错误.故选A.
考点二 回归分析
在分析两个变量的相关关系时,可根据样本数据作出散点图来判断两个变量之间是否具有相关关系.若具有线性相关关系,则回归直线过样本点的中心(,),并且可通过线性回归方程估计预报变量的值.
典例2为了选拔培养有志于服务国家重大战略需求且综合素质优秀或基础学科拔尖的学生,教育部开展了招生改革工作——强基计划.现对某高中学校学生对强基课程学习的情况进行调查,在参加数学和物理的强基计划课程学习的学生中,随机抽取了10名学生.
(1)在某次数学强基课程的测试中,这10名学生成绩的统计数据如图所示,其中某男生的成绩被污损(为整数),求女生的平均分数超过男生的平均分数的概率;
女生
89
88
93
92
91
男生
87
86
83
99
9
(2)已知学生的物理成绩y与数学成绩x是线性相关的,现统计了小明同学连续5次在强基课程测试中的数学和物理成绩(如下表).若第6次测试该生的数学成绩达到132,请你估计第6次测试他的物理成绩大约是多少?
数学成绩x
120
118
116
122
124
物理成绩y
79
79
77
82
83
附=,=-.
【解析】(1)由题知女生的平均分数=90.6,
设缺失的数据为x,则男生的平均数为,
若女生的平均分数超过男生的平均分数,
则<90.6,
解得:x<98,
由于污损处的数据是0,1,2,3,4,5,6,7,8,9,
满足x<98的有0,1,2,3,4,5,6,7,
所以女生的平均分数超过男生的平均分数的概率为P==.
(2)==120,
==80,
=
==,
=-=80-×120=-10,
所以,物理成绩y与数学成绩x的回归直线方程为=x-10,
当x=132时,=×132-10=89,
估计第6次测试他的物理成绩大约为89分.
【素养提升】求回归直线方程的方法
(1)若所求的回归直线方程是在选择题中,常利用回归直线必经过样本点的中心(,)快速解决.
(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤:
①依据样本数据画出散点图,确定两个变量具有线性相关关系;
②计算,,,iyi的值;
③计算回归系数,;
④写出回归直线方程=x+.
2.(1)(2022·安徽高三模拟)下列说法错误的是( A )
A.相关系数r越大,两个变量的线性相关性越强
B.若X~N(2,σ2),且P(1<X≤3)=0.5,则P(X>3)=0.25
C.相关指数R2=0.64,表示解释变量对于预报变量变化的贡献率为64%
D.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
(2)(2021·河北衡水中学月考)有一散点图如图所示,在5个(x,y)数据中去掉D(3,10)后,下列说法正确的是( A )
A.残差平方和变小
B.相关系数r变小
C.相关指数R2变小
D.解释变量x与预报变量y的相关性变弱
【解析】(1)对于A,相关系数|r|趋向于1时,两个变量的线性相关性越强,故A错误;
对于B,∵X~N(2,σ2),且P(1<X≤3)=0.5,∴P(X>3)===0.25,故B正确;
对于C,相关指数R2=0.64,表示解释变量对于预报变量变化的贡献率为64%,故C正确;
对于D,在残差图中,残差点分布的带状区域的宽度越狭窄,说明数据越集中,其模型拟合的精度越高,故D正确.故选A.
(2)∵从散点图可分析得出:
只有D点偏离直线远,去掉D点,解释变量x与预报变量y的线性相关性变强,
∴相关系数变大,相关指数变大,残差平方和变小,故选A.
考点三 独立性检验
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
K2=(其中n=a+b+c+d为样本容量).
典例3(2020·新高考全国Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
SO2
PM2.5
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
SO2
PM2.5
[0,150]
(150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
附:K2=,
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
【解析】(1)由表格可知,该市100天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+6+18+8=64,
所以该市一天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.
(2)由所给数据,可得2×2列联表:
SO2
PM2.5
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
(3)根据2×2列联表中的数据可得
K2=
=
≈7.484>6.635,
故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
【素养提升】独立性检验的关键
(1)根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.
(2)K2的观测值k越大,对应的假设H0成立的概率越小,H0不成立的概率越大.
3.(1)在某大学一食品超市,随机询问了70名不同性别的大学生在购买食物时是否查看营养说明,得到如下的列联表:
女
男
总计
要查看营养说明
15
25
40
不查看营养说明
20
10
30
总计
35
35
70
附:K2=,其中n=a+b+c+d.
P(K2
≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
根据列联表的独立性检验,则下列说法正确的是( C )
A.在犯错误的概率不超过0.05的前提下认为该校大学生在购买食物时要查看营养说明的人数中男生人数更多
B.在犯错误的概率不超过0.010的前提下认为该校女大学生在购买食物时要查看营养说明的人数与不查看营养说明的人数比为
C.在犯错误的概率不超过0.025的前提下认为性别与是否查看营养说明有关系
D.在犯错误的概率不超过0.010的前提下认为性别与是否查看营养说明有关系
(2)某校团委对“学生性别和喜欢某视频APP是否有关”做了一次调查,其中被调查的女生人数是男生人数的一半,男生喜欢某视频APP的人数占男生人数的,女生喜欢某视频APP的人数占女生人数的,若有95%的把握认为喜欢某视频APP和性别有关,则男生至少有( A )
附:
P(K2≥k0)
0.050
0.010
k0
3.841
6.635
K2=.
A.12人 B.6人
C.10人 D.18人
【解析】(1)根据列联表中数据,
计算K2==≈5.833>5.024,
所以在犯错误的概率不超过0.025的前提下认为性别与是否查看营养说明有关系.故选C.
(2)设被调查的男生人数为x,则被调查的女生人数为,则2×2列联表为
喜欢某视频APP
不喜欢某视频APP
总计
男生
x
女生
总计
x
若有95%的把握认为喜欢某视频APP和性别有关,则K2≥3.841,
即K2==≥3.841,
则x≥≈10.243,又,,均为整数,所以男生至少有12人.
2023届高考数学二轮复习5-2统计、统计案例与概率学案含答案: 这是一份2023届高考数学二轮复习5-2统计、统计案例与概率学案含答案,共16页。
2023届高考数学二轮复习5-1统计与统计案例、概率学案含答案: 这是一份2023届高考数学二轮复习5-1统计与统计案例、概率学案含答案,共18页。
高考数学二轮复习第2部分专题篇素养提升文理专题四第2讲统计与统计案例文理学案含解析: 这是一份高考数学二轮复习第2部分专题篇素养提升文理专题四第2讲统计与统计案例文理学案含解析,共15页。