所属成套资源:高考数学第一轮复习复习(精品讲义)
高考数学第一轮复习复习第2节 用样本估计总体(讲义)
展开
这是一份高考数学第一轮复习复习第2节 用样本估计总体(讲义),共27页。
1.能用样本估计总体的集中趋势参数(平均数、中位数、众数、百分位数),理解集中趋势参数的统计含义.
2.能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义.
1.百分位数
(1)第p百分位数的定义:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)四分位数:25%,50%,75%这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数,其中第25百分位数也称为第一四分位数或下四分位数,第75百分位数也称为第三四分位数或上四分位数.
第50百分位数就是中位数,中位数是百分位数的特例,百分位数是中位数的推广.
2.总体集中趋势的估计
平均数、中位数、众数分别从不同角度描述了一组数据的特征,刻画了一组数据的大致情况.平均数表示“一般水平”,中位数表示“中等水平”,众数表示“多数水平”.一组数据的平均数、中位数都是唯一的.众数不一定唯一,还可以没有,且众数一定是原数据中的数,而平均数和中位数都不一定是原数据中的数.
3.总体离散程度的估计
设一组数据x1,x2,x3,…,xn的平均数为 x,则这组数据的方差和标准差分别是
s2=1n∑i=1n(xi-x)2,s=1n∑i=1n(xi-x)2.
1.若数据x1,x2,…,xn的平均数为 x,方差为s2,则数据mx1+a,mx2+a,…,mxn+a的平均数为mx+a,方差为m2s2.
2.s2=1n∑i=1n(xi-x)2=1n∑i=1nxi2-x2,即方差等于各数平方的平均数减去平均数的平方.
1.(多选题)(2021·新高考Ⅰ卷)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则( CD )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
解析:设样本数据x1,x2,…,xn的平均数、中位数、标准差、极差分别为x,m,σ,t,依题意,得新样本数据y1,y2,…,yn的平均数、中位数、标准差、极差分别为x+c,m+c,σ,t,因为c≠0,所以C,D正确.
2.(多选题)(2022·辽宁沈阳一模)某团队共有20人,他们的年龄分布如表所示,
有关这20人年龄的众数、极差、百分位数说法正确的是( ACD )
A.众数是32
B.众数是5
C.极差是17
D.25%分位数是30
解析:年龄为32的有5人,故众数是32,A正确,B错误;45-28=17,极差为17,C正确;因为20×25%=5,所以(30+30)÷2=30,故25%分位数是30,D正确.
3.如图是某学校随机抽取的100名学生数学月考成绩的频率分布直方图,据此估计该校本次月考数学成绩的总体情况(同一组中的数据用该组区间的中点值为代表),下列说法正确的是( D )
A.平均数为74
B.众数为60或70
C.中位数为75
D.该校数学月考成绩在80分以上的学生约占25%
解析:对于A,x=0.005×10×55+0.04×10×65+0.03×10×75+0.02×10×85+0.005×10×95=73,故A不正确;
对于B,由频率分布直方图可知众数为65,故B不正确;
对于C,设中位数为x,则0.005×10+0.04×10+0.03×(x-70)=0.5,
解得x=7123,故C不正确;
对于D,数学月考成绩在80分以上的学生约占
0.02×10+0.005×10=0.25=25%,故D正确.
4.已知一组数据4,2a,3-a,5,6的平均数为4,则a的值是 ,该组数据的方差是 .
解析:由已知,得4+2a+3-a+5+6=20,
所以a=2.
s2=15×[(4-4)2+(4-4)2+(1-4)2+(5-4)2+(6-4)2]=145.
答案:2 145
总体百分位数的估计
离散型数字的百分位数
[例1]按从小到大顺序排列的9个数据:10,16,25,33,39,43,m,65,70,若这组数据的第一四分位数与第三四分位数的和是73,则m等于( )
A.40B.48C.50D.57
解析:因为9×25%=2.25,
所以第一四分位数为25;
因为9×75%=6.75,
所以第三四分位数为m,
所以25+m=73,
解得m=48.故选B.
计算一组数据的p%分位数的步骤
连续型数字的百分位数
[例2] (2022·北京期末)某学校统计了全校学生观看北京冬奥会开幕式和闭幕式的时长情况(单位:min),并根据样本数据绘制得到如图所示的频率分布直方图,则估计样本数据的85%分位数为 .
解析:因为(0.000 5+0.002×2+2a+0.006+0.006 5)×40=1,
所以a=0.004,
又观看时长在200 min以下的占比为(0.000 5+0.002+0.004+0.006+0.006 5)×40=0.760.85,
所以85%分位数位于[200,240)内,所以85%分位数为200+40×0.85-
答案:222.5
频率分布直方图中第p百分位数的求解方法可以模仿中位数的求解思路:
(1)确定第p百分位数所在的区间[a,b).
(2)确定小于或等于a和小于或等于b的数据所占的百分比分别为fa%,fb%,则第p百分位数为a+p%-fa%fb%-fa%×(b-a).
[针对训练]
1.如图是根据某班学生在一次数学考试中的成绩画出的频率分布直方图,则由直方图得到的25%分位数为( )
A.66.5B.67C.67.5D.68
解析:因为第一组的频率为0.010×10=0.1,
前两组的频率之和为(0.010+0.020)×10=0.3,
所以25%分位数在[60,70)内,
所以25%分位数为60+0.25-0.10.2×10=67.5.故选C.
2.将20个数据按从小到大的顺序排列,若第70百分位数为8.2,第14个数据为7.8,则第15个数据为 .
解析:因为70%×20=14,所以x14+x152=8.2,解得x15=8.6.
答案:8.6
总体集中趋势的估计
[例3] (多选题)在某次高中学科知识竞赛中,对4 000名考生的参赛成绩(成绩范围为[40,100])进行统计,可得到如图所示的频率分布直方图,其中分组的区间为[40,50),[50,60),[60,70),[70,80),
[80,90),[90,100],60分以下视为不及格,若同一组中数据用该组区间中间值代表,则下列说法正确的是( )
A.考生成绩的众数约为75分
B.不及格的考生人数为1 000
C.考生竞赛成绩的平均分约为70.5分
D.考生竞赛成绩的中位数约为75分
解析:最高矩形所在区间[70,80)的中点为75,故A正确;成绩在[40,60)的频率为0.01×10+0.015×10=0.25,因此,不及格的人数为4 000×0.25=1 000,故B正确;考生竞赛成绩的平均分约为45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5,故C正确;因为成绩在[40,70)的频率为0.45,在[70,80)的频率为0.3,所以中位数约为70+10×0.050.3≈71.67,故D错误.故选ABC.
用频率分布直方图估计众数、中位数、平均数
(1)众数:取最高小长方形底边中点的横坐标作为众数.
(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x轴交点的横坐标称为中位数.
(3)平均数:平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘小矩形底边中点的横坐标之和.
[针对训练] (多选题)为响应自己城市倡导的低碳出行,小李上班可以选择公交车、自行车两种交通工具,他分别记录了100次坐公交车和骑车所用时间(单位:min),得到下列两个频率分布直方图.基于以上统计信息,正确的是( )
A.骑车时间的中位数的估计值是22 min
B.骑车时间的众数的估计值是21 min
C.坐公交车时间的40%分位数的估计值是19 min
D.坐公交车时间的平均数的估计值小于骑车时间的平均数的估计值
解析:根据频率分布直方图可得骑车时间为22 min 的频率为0.6不是0.5,所以中位数估计值不是22 min,所以A错误;根据频率分布直方图可得骑车时间的众数估计值为20+222=21,所以B正确;根据频率分布直方图可得坐公交车时间的40%分位数的估计值是18+202=19,所以C正确;根据频率分布直方图可得坐公交车时间、骑车时间平均数的估计值分别为(13+27)×0.05+(15+25)×0.1+(17+23)×0.15+(19+21)×0.2=2+4+6+8=20,19×0.2+21×0.4+23×0.3+25×0.1=21.6>20,所以D正确.故选BCD.
总体离散程度的估计
[例4] (2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如表所示,
旧设备和新设备生产产品的该项指标的样本平均数分别记为x和y,样本方差分别记为s12和s22.
(1)求x,y,s12,s22;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y-x≥2s12+s2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
解:(1)x=110×(9.8+10.3+10+10.2+9.9+9.8+10+10.1+10.2+9.7)=10,
y=110×(10.1+10.4+10.1+10+10.1+10.3+10.6+10.5+10.4+10.5)=
10.3,
s12=110×(0.22+0.32+0+0.22+0.12+0.22+0+0.12+0.22+0.32)=0.036,
s22=110×(0.22+0.12+0.22+0.32+0.22+0+0.32+0.22+0.12+0.22)=0.04.
(2)依题意,y-x=0.3=2×0.15=20.152=20.022 5,20.036+0.0410=20.007 6,
符合y-x≥2s12+s2210,所以新设备生产产品的该项指标的均值较旧设备有显著提高.
利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
[针对训练] (2019·全国Ⅱ卷)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:74≈8.602.
解:(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.
产值负增长的企业频率为2100=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)y=1100×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=1100∑i=15ni(yi-y)2
=1100×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]
=0.029 6.
s=0.029 6=0.02×74≈0.17.
所以这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
[例1] 某班统计某次数学测验的平均分与方差(成绩不完全相同),计算完后才发现有名同学的分数录入了两次,只好重算一次.已知第一次计算所得平均分和方差分别为x,s2,第二次计算所得平均分和方差分别为x1,s12,若此同学的得分恰好为x,则( )
A.x=x1,s2=s12B.x=x1,s2s12D.x
相关学案
这是一份高考数学第一轮复习复习第2节 函数的单调性与最值(讲义),共17页。
这是一份高考数学第一轮复习复习第2节 二项式定理(讲义),共19页。
这是一份高考数学第一轮复习复习第1节 集 合(讲义),共14页。