北师大版高中数学必修第一册第六章统计学案
展开§4 用样本估计总体的数字特征
4.1 样本的数字特征
4.2 分层随机抽样的均值与方差
4.3 百分位数
核心知识目标 | 核心素养目标 |
1.会求样本的平均数、中位数、众数、极差、方差、标准差,理解它们的意义和作用. 2.会用分层随机抽样的均值与方差公式简化运算. 3.选取恰当的样本数字特征来估计总体,从而正确地对实际问题做出决策. | 1.通过合理选取、认真计算样本的数字特征,培养学生耐心细致、严谨认真的科学态度. 2.经历用统计的方法解决实际问题的过程,培养数学抽象、数学运算、数据分析的学科素养. |
样本的数字特征
[问题1] 我们在初中已经学过样本的平均数、中位数、众数、极差、方差,平均数、中位数和众数从不同角度反映了数据的集中趋势,极差和方差都刻画数据的离散程度.
在以上5个特征数中,哪些特征数与样本的每一个数字都有关系?哪些特征数只与样本的个别数字有关?哪个特征数的单位与样本数据的单位不一致?
提示:平均数、方差与样本的每一个数字都有关系;
中位数、众数、极差只与样本的个别数字有关;
方差单位与样本数据的单位不一致,单位是样本原始数据单位的平方.
知识点1:给定一组数据x1,x2,…,xn,
平均数:=,是指一组数据的平均值;
方差:s2=;
由于方差的单位是原始数据单位的平方,而刻画离散程度的一种理想度量应当具有与原始数据相同的单位,为此,计算方差的算术平方根,得s==,称之为标准差;
方差和标准差刻画一组数据偏离平均数的离散程度;
极差:数据中最大值与最小值的差,从最值方面刻画数据的离散程度;
中位数:将数据按从小到大的顺序排列后,“中间”的那个数据(当n为奇数时,中位数是第项,当n为偶数时,中位数是第项和第+1项的平均数),它使数据被分成的两部分的数据量是一样的;
众数:数据中出现次数最多的数据,反映一组数据的多数水平.
[思考1] 给定一组数据x1,x2,…,xn,其平均数为,方差为s2,则ax1+b,ax2+b,…,axn+b的平均数和方差分别是多少?
提示:平均数为a+b,方差为a2s2.
[例1]甲、乙两台机床同时生产一种零件,在10天中,两台机床每天生产的次品数分别为
甲:0,0,1,2,0,0,3,0,4,0;
乙:2,0,2,0,2,0,2,0,2,0.
(1)分别求两组数据的众数、中位数,根据计算结果比较两台机床性能;
(2)分别求两组数据的平均数和标准差,根据计算结果比较两台机床性能.
解:(1)由题知,甲组数据的众数为0;乙组数据的众数为0和2;
甲组数据的中位数为0;乙组数据的中位数为=1.
甲组数据的众数只有0,出现次数为6,乙组数据的众数为0和2,都出现5次,所以从众数看,甲性能较好;
虽然甲组数据的中位数0小于乙组数据的中位数1,但是提供信息量较少,只从中位数很难判断两台机床性能差异.
解:(2)甲组数据的平均数为
==1,
乙组数据的平均数为
==1,
甲组数据的方差为=
=2,
乙组数据的方差为=
=1,
所以甲组数据的标准差为s甲=,乙组数据的标准差为s乙=1.
因为=,s乙<s甲,所以,甲、乙两台机床的平均水平相当,但是乙机床性能更稳定.
变式训练1-1:已知一组数据按从小到大的顺序排列为-1,0,4,x,6,15,且这组数据的中位数是5,那么这组数据的众数是 ,平均数是 .
解析:因为中位数为5,所以=5,即x=6.
所以该组数据的众数为6,
平均数为=5.
答案:6 5
(1)平均数与每一个数据都有关,可以反映更多的总体信息,是使用最多的一个特征数,但是受极端值的影响较大;中位数是数据的数据量的等分线,不受极端值的影响;众数只能体现数据的最大集中点,一般无法客观反映总体特征.当平均数大于中位数时,说明数据中存在较大的极端值(例如例1中的甲样本数据),反之说明数据中存在较小的极端值.
(2)比较两组数据的差异,有时要剔除极端值,然后比较它们的平均数和方差,如果平均数相差不大,就进一步比较它们的方差(或标准差),然后根据具体情况确定它们的优劣并做出适当地预测或选择.
(3)样本容量越大,样本所包含的总体信息就越多,估计的合理性就越充分.
分层随机抽样的平均数
[问题2] 在一组数据中,x1出现了f1次,x2出现了f2次,…,xn出现了fn次,写出这组数据的加权平均数.
提示:=.
知识点2:一般地,将样本a1,a2,…,am和样本b1,b2,…,bn合并成一个新样本,则这个新样本的平均数为=,+,.于是,当已知上述两层构成的新样本中每层的平均数分别为和时,可得这个新样本的平均数为
+.记w1=,w2=,则这个新样本的平均数为w1+w2,其中w1,w2称为权重.
更一般地,设样本中不同层的平均数和相应权重分别为,,…,和w1,w2,…,wn,则这个样本的平均数为w1+w2+…+wn,记作w1+w2+…+wn=wi.
[思考2] 分层随机抽样的平均数公式与加权平均数公式有什么关系?
提示:二者是一般与特殊的关系.当w1=w2=…=wn=,f1=f2=…=fn=1时,二者是一致的,都是平均数公式=.
[例2] “新冠肺炎”席卷全球,我国医务工作者为了打好这次疫情阻击战,充分发挥优势,很快抑制了病毒,据统计老年患者治愈率为71%,中年患者治愈率为85%,青年患者治愈率为91%.如果某医院有30名老年患者,40名中年患者,50名青年患者,则估计该医院的平均治愈率是( )
(A)86% (B)83% (C)90% (D)84%
解析:法一 ×71%+×85%+×91%=84%.
法二 =0.84=84%.故选D.
计算分层随机抽样的平均数的两种方法
(1)利用加权平均数公式
=.
(2)利用分层随机抽样的平均数公式=w1+w2+…+wn.
分层随机抽样的方差
[问题3] 我们知道,样本中不同层的平均数和相应的权重分别为,,…,和w1,w2,…,wn,则这个样本的平均数为=w1+w2+…+wn.那么,样本中不同层次的方差和相应的权重分别为,,…,和w1,w2,…,wn,则样本的方差为s2=w1+w2+…+wn,这个命题是真命题吗?如果是真命题,给出证明;如果是假命题,举一反例.
提示:假命题.反例:数据组1,1的方差为0,数据组2,2,2的方差也是0,它们组成的新数据组为1,1,2,2,2,这组数据的方差显然不是0.
知识点3:设样本中不同层的平均数分别为,,…,,方差分别为,,…,,相应的权重分别为w1,w2,…,wn,则这个样本的方差为s2=wi[+],其中为这个样本的平均数.
[例3] 数学考试中,有一道选做题,学生可以从题目甲和乙中任选一题作答,满分10分.某高三年级共有1 000名学生参加了某次数学考试,为了了解学生的作答情况,计划从该年级1 000名考生的数学成绩中随机抽取一个容量为10的样本,若采用分层随机抽样,按照学生选择甲或乙的情况将成绩分为两层.已知该校共有600名考生选择了甲,400名考生选择了乙,在选取的样本中,选择甲的平均得分为6分,方差为2,选择乙的平均得分为5分,方差为0.75.用样本估计该校1 000名考生选做题得分的平均数和得分的方差.
解:法一 在选取的样本中,选择甲的考生有6人,选择乙的考生有4人,
所以样本的平均数为×(6×6+4×5)=5.6.
从选择甲的考生中抽取6人,得分分别记为a1,a2,…,a6,
从选择乙的考生中抽取4人,得分分别记为b1,b2,b3,b4,
则×[(a1-6)2+(a2-6)2+…+(a6-6)2]=2,
所以++…+=228,
同理得+++=103,
所以样本的方差为
[(a1-5.6)2+…+(a6-5.6)2+(b1-5.6)2+…+(b4-5.6)2]
=×[+…+++…+-11.2×(a1+…+a6+b1+…+b4)+10×5.62]
=×[228+103-11.2×56+10×31.36]
=1.74.
所以估计该校1 000名考生选做题得分的平均数为5.6,方差为1.74.
法二 样本中选择甲的考生有6人,选择乙的考生有4人,
所以样本的平均数为×(6×6+4×5)=5.6.
直接利用分层随机抽样的方差计算公式可得样本得分的方差为
×[2+(6-5.6)2]+×[0.75+(5-5.6)2]=1.74,
所以估计该校1 000名考生选做题得分的平均数为5.6,方差为1.74.
变式训练3-1:已知一组数据x1,x2,x3的平均数是5,方差是4,则由2x1+1,2x2+1,2x3+1,11这4个数据组成的新的一组数据的方差是( )
(A)16 (B)14 (C)12 (D)8
解析:法一 2x1+1,2x2+1,2x3+1的平均数为=2×5+1=11,方差为=4×4=16,权重w1=,11的平均数为=11,方差为=0,权重w2=.
又2x1+1,2x2+1,2x3+1,11的平均数为=11,
所以2x1+1,2x2+1,2x3+1,11这4个数据组成的新的一组数据的方差是
s2=×[16+(11-11)2]+×[0+(11-11)2]=12.故选C.
法二 由已知x1+x2+x3=15,(x1-5)2+(x2-5)2+(x3-5)2=12,
则新数据的平均数为(2x1+1+2x2+1+2x3+1+11)==11,
所以新数据的方差为[(2x1+1-11)2+(2x2+1-11)2+(2x3+1-11)2+(11-11)2]
=[4(x1-5)2+4(x2-5)2+4(x3-5)2]
=(x1-5)2+(x2-5)2+(x3-5)2=12.
故选C.
计算分层随机抽样的方差的两种方法
(1)设出各层中的样本数,依次利用方差的定义式计算,这个方法比较复杂.
(2)直接利用分层随机抽样的方差的计算公式s2=wi[+],这个方法比较简单.
百分位数
[问题4] 当总体是连续变量时,总体中的中位数有什么特点?
提示:总体数据中的任意一个数小于或等于它的中位数的可能性是50%.
知识点4:p分位数
一般地,当总体是连续变量时,给定一个百分数p∈(0,1),总体的p分位数有这样的特点:总体数据中的任意一个数小于或等于它的可能性是p.
25%,50%,75%分位数是三个常用的百分位数,也称为总体的四分位数,其他常用的百分位数有1%,5%,10%,90%,95%,99%.
[思考3] 总体的p分位数通常是未知的,用p分位数去估计它时,估计的准确率与样本容量有什么关系?
提示:样本的容量越大,估计越准确.
[例4] 一组数据按由小到大的顺序排列为0,0,0,0,1,2,2,2,3,3,5,6,7,8,9,10,求该组数据的四分位数和90%分位数.
解:这组数据共16个数,由小到大记为x1,x2,…,x16,50%分位数即中位数是==2.5,
16×25%=4,所以25%分位数是==0.5,
16×75%=12,所以75%分位数是==6.5,
16×90%=14.4,所以90%分位数是x15=9,
因此所求四分位数分别是0.5,2.5,6.5,90%分位数是9.
变式训练4-1:高二(1)班7人宿舍中每个同学的身高(单位:cm)分别为170,168,172,172,175,176,180,则这7人身高的40%分位数为( )
(A)168 (B)170 (C)172 (D)171
解析:这7人的身高从小到大排列为168,170,172,172,175,176,180,7×40%=2.8,
所以第3个数据172为这7人身高的40%分位数.
故选C.
计算一组n个数据的p分位数的一般步骤
第一步,按照从小到大排列原始数据.
第二步,计算i=np.
第三步,若i不是整数,大于i的最小的整数为j,则p分位数为第j项数据;若i是整数,则p分位数为第i项与第(i+1)项数据的平均数.
样本特征数之间的综合关系
[典例] 在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志为“连续10日,每天新增疑似病例不超过7人”.过去10日,a,b,c,d四地新增疑似病例数据信息如下:
甲地:总体平均数为3,中位数为4;
乙地:总体平均数为1,总体方差大于0;
丙地:中位数为2,众数为3;
丁地:总体平均数为2,总体方差为3.
则甲,乙,丙,丁四地中,一定没有发生大规模群体感染的地方是( )
(A)甲 (B)乙 (C)丙 (D)丁
试题情境:多个样本特征数.
必备知识:平均数、方差、众数、中位数的计算.
关键能力:数据运算能力,逻辑推理能力.
学科素养:数学运算,数据分析.
解析:对于甲地,总体平均数为3,中位数为4,平均数与中位数不能限制极端值的出现,因而有可能出现新增疑似病例超过7人的情况,例如0,0,0,0,4,4,4,4,4,10,显然这组数据的平均数为3,中位数为4,所以甲地不符合要求.
对于乙地,总体平均数为1,总体方差大于0,没有给出方差具体的大小,如果方差很大有可能出现新增疑似病例超过7人的情况,例如0,0,0,0,0,0,0,0,0,10,显然这组数据的平均数为1,总体方差大于0,所以乙地不符合要求.
对于丙地,中位数为2,众数为3,众数与中位数不能限制极端值的大小,因而有可能出现新增疑似病例超过7人的情况,例如0,0,0,0,2,2,3,3,3,10,显然中位数为2,众数为3,所以丙地不符合要求.
对于丁地,若出现大于7的数值m,比如取m=8,则总体方差s2=[(m-2)2+(x2-2)2+…+(x10-2)2]≥3.6,与总体方差为3矛盾,因而不会出现新增疑似病例超过7人的情况.
综上可知,d地符合要求.故选D.
[素养演练] 四名同学各掷一枚均匀骰子5次,分别记录每次骰子出现的点数.根据下面四名同学的统计结果,可以判断出一定没有出现点数6的是( )
(A)平均数为2,方差为2.4
(B)中位数为3,众数为2
(C)平均数为3,中位数为2
(D)中位数为3,方差为2.8
解析:若平均数为2,且出现点数6,则方差s2≥(6-2)2=3.2,因为2.4<3.2,所以选项A中一定没有出现点数6;选项B,C,D中涉及中位数、众数,不能确定是否出现点数6.故选A.
[例1] 若数据x1,x2,…,xn的平均数为=3,方差为s2=1,则数据2x1+3,2x2+3,…,2xn+3的平均数和方差分别为( )
(A)6,6 (B)9,2 (C)9,6 (D)9,4
解析:法一 由题意,若数据x1,x2,…,xn的平均数为=3,方差为s2=1,
可得x1+x2+…+xn=3n,
则2x1+3+2x2+3+…+2xn+3=2(x1+x2+…+xn)+3n=9n,
所以数据2x1+3,2x2+3,…,2xn+3的平均数为9.
又s2=[(x1-3)2+(x2-3)2+…+(xn-3)2]=1,
所以(x1-3)2+(x2-3)2+…+(xn-3)2=n,
所以[(2x1+3-9)2+(2x2+3-9)2+…+(2xn+3-9)2]=[(x1-3)2+(x2-3)2+…+(xn-3)2]=4,
则数据2x1+3,2x2+3,…,2xn+3的平均数和方差分别为9,4.故选D.
法二 由给定一组数据x1,x2,…,xn,其平均数为,方差为s2,则数据ax1+b,ax2+b,…,axn+b的平均数为a+b,方差为a2s2,直接得所求平均数为2×3+3=9,方差为22×1=4.故选D.
[例2] 为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
(A)x1,x2,…,xn的平均数
(B)x1,x2,…,xn的标准差
(C)x1,x2,…,xn的最大值
(D)x1,x2,…,xn的中位数
解析:一组数据的方差与标准差反映了这组数据的稳定程度.故选B.
基础巩固
知识点一:样本数字特征的意义
1.数据的信息除了通过各种统计图表来加以整理和表达之外,还可以通过一些统计量来表述.平均数、中位数、众数、极差、方差、标准差这些统计量反映了数据的集中趋势或离散程度,下列表述不正确的是( B )
(A)平均数、中位数、众数刻画了一组数据的集中趋势
(B)平均数、中位数、众数一定出现在原始数据中
(C)极差、方差、标准差刻画了一组数据的离散程度
(D)平均数、中位数、众数、极差、标准差的单位与原始数据单位保持一致
解析:平均数、中位数、众数、极差、标准差的单位与原数据单位保持一致,
众数一定出现在原始数据中,但平均数、中位数不一定出现在原始数据中,A,C,D正确,B不正确.故选B.
2.(多选题)某次考试规定得分为百分制,小明在参加考试的800名考生中,考生成绩的百分位数是90%,则下列说法中正确的有( BCD )
(A)小明排名第90名
(B)小明的成绩大约比90%的考生要高
(C)小明的成绩大约比10%的考生要低
(D)小明的成绩可能是90分
解析:成绩的百分位数是90%,其意义是小明的成绩高于约90%的考生,低于约10%的考生,成绩分数为百分制,故可能为90分,但不一定就是第90名.故选BCD.
知识点二:样本数字特征的计算
3.贵州省的五个旅游景区门票票价如表所示:
景区名称 | 黄果树瀑布 | 龙宫 | 百里杜鹃 | 青岩古镇 | 梵净山 |
票价/元 | 150 | 150 | 90 | 80 | 290 |
关于这五个旅游景区门票票价,下列说法错误的是( C )
(A)众数为150 (B)平均数为152
(C)中位数为90 (D)极差为210
解析:数据从小到大排列为80,90,150,150,290,
所以这组数据的众数是150,中位数是150,A正确,C错误;
极差是290-80=210,D正确;
平均数是=×(80+90+150+150+290)=152,B正确.故选C.
4.某校有甲、乙两个数学建模兴趣班.其中甲班有40人,乙班有50人.现分析两个班的一次考试成绩,算得甲班的平均成绩是90分,乙班的平均成绩是81分,则这两个数学建模兴趣班所有同学的平均成绩是( A )
(A)85分 (B)85.5分 (C)86分 (D)86.5分
解析:由题意可知,这两个数学建模兴趣班所有同学的平均成绩为=85分.故选A.
5.样本容量为10的一组数据依次为3,9,0,4,1,6,6,8,2,7,该组数据的50%分位数是 ,75%分位数是 .
解析:样本容量为10的一组数据从小到大排列为0,1,2,3,4,6,6,7,
8,9,
因为10×50%=5,
所以该组数据的50%分位数是=5.
因为10×75%=7.5,
所以该组数据的75%分位数是7.
答案:5 7
6.用一组数据8,x,10,11,9来估计总体的标准差,若该组数据的平均数为10,则总体标准差s= .
解析:因为该组样本数据的平均数为10,
所以(8+x+10+11+9)÷5=10,所以x=12,
所以s2=×(4+4+0+1+1)=2,所以总体标准差s=.
答案:
能力提升
7.(多选题)给定一组数据5,5,4,3,3,3,2,2,2,1,则( AC )
(A)平均数为3 (B)标准差为
(C)众数为2和3 (D)85%分位数为4.5
解析:平均数为=3,
众数为2和3,
标准差为=,
将数据按从小到大顺序排列为1,2,2,2,3,3,3,4,5,5,一共10个数,10×85%=8.5,则第9个数据5是85%分位数.故选AC.
8.已知样本x1,x2,…,xn(n∈N+)的平均数与方差分别是a和b,若yi=-2xi+3(i=1,2,…n),且样本y1,y2,…,yn的平均数与方差分别是b和a,则a-b等于( A )
(A)1 (B)2 (C)3 (D)4
解析:由题意得解得故a-b=1.故选A.
9.某创业公司共有36名职工,为了了解该公司职工的年龄构成情况,随机采访了9名代表,得到的数据分别为36,36,37,37,40,43,43,
44,44,若用样本估计总体,年龄在(-s,+s)内的人数占公司总人数的百分比是(其中是平均数,s为标准差,结果精确到1%)( C )
(A)14% (B)25% (C)56% (D)67%
解析:依题意,=×(36+36+37+37+40+43+43+44+44)=40,
s==,
所以年龄在(-s,+s)内,即在(,)内的人数为5,故年龄在
(-s,+s)内的人数占公司总人数的百分比为×100%≈56%.故选C.
10.某校从高一新生中随机抽取了一个容量为20的身高样本,数据从小到大排序如下(单位:cm):
152,155,158,164,164,165,165,165,166,167,168,168,169,170,
170,170,171,x,174,175.若样本的90%分位数是173,则x的值为
.
解析:因为20×90%=18,所以90%分位数是第18项和第19项数据的平均数,即(x+174)=173,所以x=172.
答案:172
11.某医院急救中心随机抽取20位病人等待急诊的时间记录如下表:
等待时间 /分 | [0,5) | [5,10) | [10,15) | [15,20) | [20,25] |
频数 | 4 | 8 | 5 | 2 | 1 |
用上述分组资料计算出病人平均等待时间的估计值 = 分钟.
解析:=×(2.5×4+7.5×8+12.5×5+17.5×2+22.5×1)=9.5(分).
答案:9.5
12.某小区广场上有甲、乙两群市民,两群市民的年龄如下(单位:岁):
甲群:13,13,14,15,15,15,15,16,17,17;
乙群:54,3,4,4,5,6,6,6,6,56.
(1)甲群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映甲群市民的年龄特征?
(2)乙群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映乙群市民的年龄特征?
解:(1)甲群市民年龄的平均数为=15(岁),
中位数为15岁,众数为15岁.
平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.
(2)乙群市民年龄的平均数为=15(岁),
中位数为6岁,众数为6岁.
由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征.
应用创新
13.如图所示是一样本的频率分布直方图,数据共分3组,分别为[5,10),[10,15),[15,20].估计数据的60%分位数是( A )
(A)14 (B)15 (C)16 (D)17
解析:第1组数据的频率为0.04×5=0.2,
第2组数据的频率为0.10×5=0.5,
设数据的60%分位数是x,则0.2+0.10(x-10)=0.6,
解得x=14,所以估计数据的60%分位数是14.
故选A.