北师大版 (2019)必修 第一册4.2 分层随机抽样的均值与方差学案设计
展开甲班和乙班各有学生20人、40人,甲班的数学成绩的平均数为80分,方差为2,乙班的数学成绩的平均数为82分,方差为4.
[问题] 甲班和乙班这60人的数学成绩的平均分是eq \f(80+82,2)=81分吗?方差是eq \f(2+4,2)=3吗?为什么?
知识点一 分层随机抽样的均值与方差
1.分层随机抽样的平均数
(1)一般地,将样本a1,a2,…,am和样本b1,b2,…,bn合并成一个新样本,则这个新样本的平均数为eq \f(a1+a2+…+am+b1+b2+…+bn,m+n)=eq \f(m,m+n)·eq \f(a1+a2+…+am,m)+eq \f(n,m+n)·eq \f(b1+b2+…+bn,n).
于是,当已知上述两层构成的新样本中每层的平均数分别为eq \x\t(x)1和eq \x\t(x)2时,可得这个新样本的平均数为eq \f(m,m+n)eq \x\t(x)1+eq \f(n,m+n)eq \x\t(x)2.记w1=eq \f(m,m+n),w2=eq \f(n,m+n),则这个新样本的平均数为w1eq \x\t(x)1+w2eq \x\t(x)2,其中w1,w2称为权重.
(2)设样本中不同层的平均数和相应权重分别为eq \x\t(x)1,eq \x\t(x)2,…,eq \x\t(x)n和w1,w2,…,wn,则这个样本的平均数为w1eq \x\t(x)1+w2eq \x\t(x)2+…+wneq \x\t(x)n.为了简化表示,引进求和符号,记作w1eq \x\t(x)1+w2eq \x\t(x)2+…+wneq \x\t(x)n=eq \i\su(i=1,n,w)ieq \x\t(x)i.
2.分层随机抽样的方差
设样本中不同层的平均数分别为eq \x\t(x)1,eq \x\t(x)2,…,eq \x\t(x)n,方差分别为seq \\al(2,1),seq \\al(2,2),…,seq \\al(2,n),相应的权重分别为w1,w2,…,wn,则这个样本的方差为s2=eq \i\su(i=1,n,w)i[seq \\al(2,i)+(eq \x\t(x)i-eq \x\t(x))2],其中eq \x\t(x)为这个样本的平均数.
已知某省二、三、四线城市数量之比为1∶3∶6,2020年8月份调查得知该省所有城市房产均价为1.2万元/平方米,方差为20,二、三、四线城市的房产均价分别为2.4万元/平方米,1.8万元/平方米,0.8万元/平方米,三、四线城市房价的方差分别为10,8,则二线城市的房价的方差为________.
解析:设二线城市的房价的方差为s2,由题意可知20=eq \f(1,1+3+6)[s2+(1.2-2.4)2]+eq \f(3,1+3+6)[10+(1.2-1.8)2]+eq \f(6,1+3+6)[8+(1.2-0.8)2],
解得s2=118.52,即二线城市的房价的方差为118.52.
答案:118.52
知识点二 百分位数
1.p分位数
一般地,当总体是连续变量时,给定一个百分数p∈(0,1),总体的p分位数有这样的特点:总体数据中的任意一个数小于或等于它的可能性是p.
2.四分位数
25%,50%,75%分位数是三个常用的百分位数.把总体数据按照从小到大排列后,这三个百分位数把总体数据分成了4个部分,在这4个部分取值的可能性都是eq \f(1,4).因此这三个百分位数也称为总体的四分位数.
3.计算p分位数的一般步骤
第1步,按照从小到大排列原始数据;
第2步,计算i=np;
第3步,若i不是整数,大于i的最小整数为j,则p分位数为第j项数据;若i是整数,则p分位数为第i项与第(i+1)项数据的平均数.
1.某班级人数为50,班主任老师说“90%的同学能够考取本科院校”,这里的“90%”是百分位数吗?
提示:不是.是指能够考取本科院校的同学占同学总数的百分比.
2.“这次数学测试成绩的70%分位数是85分”这句话是什么意思?
提示:有70%的同学数学测试成绩小于或等于85分.
1.下列关于一组数据的50%分位数的说法正确的是( )
A.50%分位数就是中位数
B.总体数据中的任意一个数小于它的可能性一定是50%
C.它一定是这组数据中的一个数据
D.它适用于总体是离散型的数据
解析:选A 由百分位数的意义可知选项B、C、D错误.
2.5,6,7,8,9,10,11,12,13,14的25%分位数为________,75%分位数为________,90%分位数为________.
解析:由于共有10个数字,则10×25%=2.5,10×75%=7.5,10×90%=9.故25%分位数为7,75%分位数为12,90%分位数为eq \f(13+14,2)=13.5.
答案:7 12 13.5
[例1] (链接教科书第171页例6)工厂为了解每个工人对某零件的日加工量,统计员分别从两车间抽取了甲、乙两人日加工量的两个样本.抽到甲的一个样本容量为10,样本平均数为5,方差为1;乙的一个样本容量为12,样本平均数为6,方差为2.现将这两组样本合在一起,求合在一起后的样本的平均数与方差.
[解] 设抽到甲的一个样本数据为x1,x2,…,x10;乙的一个样本数据为y1,y2,…,y12,
由题意知eq \x\t(x)=eq \f(1,10)eq \i\su(i=1,10,x)i=5,方差s2=eq \f(1,10)eq \i\su(i=1,10, )(xi-5)2=1,
eq \x\t(y)=eq \f(1,12)eq \i\su(i=1,12,y)i=6,方差t2=eq \f(1,12)eq \i\su(i=1,12, )(yi-6)2=2,
则合在一起后的样本容量为22,
w甲=eq \f(10,22),w乙=eq \f(12,22),
样本平均数为eq \x\t(a)=w甲eq \x\t(x)+w乙eq \x\t(y)=eq \f(10,22)×5+eq \f(12,22)×6≈5.55,
样本方差为b2=w甲[s2+(eq \x\t(x)-eq \x\t(a))2]+w乙[t2+(eq \x\t(y)-eq \x\t(a))2]=eq \f(10,22)eq \b\lc\[\rc\](\a\vs4\al\c1(1+5-5.552))+eq \f(12,22)eq \b\lc\[\rc\](\a\vs4\al\c1(2+6-5.552))≈1.79.
求分层随机抽样背景下的样本平均数、方差
设样本中不同分层的平均数、方差和相应权重分别为eq \x\t(x)1,eq \x\t(x)2,…eq \x\t(x)n、seq \\al(2,1),seq \\al(2,2),…,seq \\al(2,n)和w1,w2,…,wn,则样本平均数eq \x\t(a)=w1eq \x\t(x)1+w2eq \x\t(x)2+…+wneq \x\t(x)n=eq \i\su(i=1,n,w)ieq \x\t(x)i.
样本方差s2=eq \i\su(i=1,n,w)i[seq \\al(2,i)+(eq \x\t(x)i-eq \x\t(a))2].
[跟踪训练]
在某学校为了调查高一年级学生每周的锻炼时间(单位:h),甲同学抽取了一个容量为10的样本,并算得样本的平均数为5,方差为9;乙同学抽取了一个容量为8的样本,并算得样本的平均数为6,方差为16.已知甲、乙两同学抽取的样本合在一起组成一个容量为18的样本,求合在一起后的样本均值与样本方差.
解:由题意知,甲同学抽取的样本容量m=10,样本平均值为eq \x\t(x)=5,样本方差为s2=9;乙同学抽取的样本容量n=8,样本平均值为eq \x\t(y)=6,样本方差t2=16.故合在一起后的样本平均值为w甲eq \x\t(x)+w乙eq \x\t(y)=eq \f(10,18)×5+eq \f(8,18)×6≈5.44.样本方差为w甲[s2+(5-5.44)2]+w乙[t2+(6-5.44)2]=eq \f(10,18)[9+0.442]+eq \f(8,18)[16+0.562]≈12.36.
[例2] (链接教科书第174页例7)从某珍珠公司生产的产品中,任意抽取12颗珍珠,得到它们的质量(单位:g)如下:
7.9,9.0,8.9,8.6,8.4,8.5,
8.5,8.5,9.9,7.8,8.3,8.0.
(1)分别求出这组数据的25%,75%,95%分位数;
(2)请你找出珍珠质量较小的前15%的珍珠质量;
(3)若用25%,50%,95%分位数把公司生产的珍珠划分为次品、合格品、优等品和特优品,依照这个样本的数据,给出该公司珍珠等级的划分标准.
[解] (1)将所有数据从小到大排列,得
7.8,7.9,8.0,8.3,8.4,8.5,8.5,8.5,8.6,8.9,9.0,9.9,
因为共有12个数据,所以12×25%=3,12×75%=9,12×95%=11.4,
则25%分位数是eq \f(8.0+8.3,2)=8.15,
75%分位数是eq \f(8.6+8.9,2)=8.75,
95%分位数是第12个数据为9.9.
(2)因为共有12个数据,所以12×15%=1.8,则15%分位数是第2个数据为7.9.
即产品质量较小的前15%的产品有2个,它们的质量分别为7.8 g,7.9 g.
(3)由(1)可知珍珠质量的25%分位数是8.15 g,50%分位数为8.5 g,95%分位数是9.9 g,所以质量小于或等于8.15 g的珍珠为次品,质量大于8.15 g且小于或等于8.5 g的珍珠为合格品,质量大于8.5 g且小于或等于9.9 g的珍珠为优等品,质量大于9.9 g的珍珠为特优品.
计算百分位数时,可先将这组数据按从小到大的顺序排列,再根据定义计算.
[跟踪训练]
某校年级组长为了解本校高三学生一模考试的数学成绩(单位:分),随机抽取30名学生的一模数学成绩,如下所示:
110 144 125 63 89 121 145 123 74 96
97 142 115 68 83 116 139 124 85 98
132 147 128 133 99 117 107 113 96 141
估计该校高三学生一模数学成绩的25%分位数为________分,50%分位数为________分.
解析:把这30名学生的数学成绩按从小到大的顺序排列,得63,68,74,83,85,89,96,96,97,98,99,107,110,113,115,116,117,121,123,124,125,128,132,133,139,141,142,144,145,147.因为30×25%=7.5,30×50%=15,所以这30名学生一模数学成绩的25%分位数为96分,50%分位数为eq \f(115+116,2)=115.5(分).据此可以估计本校高三学生一模数学成绩的25%分位数为96分,50%分位数为115.5分.
答案:96 115.5
[例3] 某市为了鼓励市民节约用电,实行“阶梯式”电价,将该市每户居民的月用电量划分为三档,月用电量不超过200千瓦时的部分按0.5元/千瓦时收费,超过200千瓦时但不超过400千瓦时的部分按0.8元/千瓦时收费,超过400千瓦时的部分按1.0元/千瓦时收费.
(1)求某户居民用电费用y(单位:元)关于月用电量x(单位:千瓦时)的函数解析式;
(2)为了了解居民的用电情况,通过抽样获得了今年1月份100户居民每户的用电量,统计分析后得到如图所示的频率分布直方图.若这100户居民中,今年1月份用电费用不超过260元的占80%,求a,b的值;
(3)根据(2)中求得的数据计算用电量的75%分位数.
[解] (1)当0≤x≤200时,y=0.5x;
当200
所以y与x之间的函数解析式为
y=eq \b\lc\{\rc\ (\a\vs4\al\c1(0.5x,0≤x≤200,,0.8x-60,200
(2)由(1)可知,当y=260时,x=400,即用电量不超过400千瓦时的占80%,
结合频率分布直方图可知
eq \b\lc\{\rc\ (\a\vs4\al\c1(0.001×100+2×100b+0.003×100=0.8,,100a+0.000 5×100=0.2,))
解得a=0.001 5,b=0.002 0.
(3)设75%分位数为m,
因为用电量低于300千瓦时的所占比例为(0.001+0.002+0.003)×100=60%,
用电量不超过400千瓦时的占80%,
所以75%分位数m在[300,400)内,所以0.6+(m-300)×0.002=0.75,
解得m=375千瓦时,即用电量的75%分位数为375千瓦时.
[母题探究]
(变设问)根据本例(2)中求得的数据计算用电量的15%分位数.
解:设15%分位数为x,
因为用电量低于100千瓦时的所占比例为0.001×100=10%,
用电量不超过200千瓦时的占30%,
所以15%分位数x在[100,200)内,所以0.1+(x-100)×0.002=0.15,
解得x=125千瓦时,即用电量的15%分位数为125千瓦时.
根据频率分布直方图计算样本数据的百分位数,首先要理解频率分布直方图中各组数据频率的计算,其次估计百分位数在哪一组,再应用方程的思想方法,设出百分位数,解方程可得.
[跟踪训练]
某市为了了解人们对“中国梦”的伟大构想的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分100分(90分及以上为认知程度高),现从参赛者中抽取了x人,按年龄分成5组(第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45]),得到如图所示的频率分布直方图,已知第一组有5人.
(1)求x;
(2)求抽取的x人的年龄的50%分位数(结果保留整数);
(3)以下是参赛的10人的成绩:90,96,97,95,92,92,98,88,96,99,求这10人成绩的20%分位数和平均数,以这两个数据为依据,评价参赛人员对“中国梦”的伟大构想的认知程度,并谈谈你的感想.
解:(1)第一组频率为0.01×5=0.05,所以x=eq \f(5,0.05)=100.
(2)由题图可知年龄低于30岁的所占比例为40%,年龄低于35岁的所占比例为70%,所以抽取的x人的年龄的50%分位数在[30,35)内,由30+5×eq \f(0.50-0.40,0.70-0.40)=eq \f(95,3)≈32(岁),所以抽取的x人的年龄的50%分位数为32岁.
(3)把参赛的10人的成绩按从小到大的顺序排列:
88,90,92,92,95,96,96,97,98,99,
计算10×20%=2,所以这10人成绩的20%分位数为eq \f(90+92,2)=91(分),
这10人成绩的平均数为eq \f(1,10)(88+90+92+92+95+96+96+97+98+99)=94.3(分).
评价:从百分位数和平均数来看,参赛人员的认知程度很高.
感想:略(结合本题和实际,符合社会主义核心价值观即可).
1.期中考试后,班长算出了全班40人数学成绩的平均分为M,如果把M当成一个同学的分数,与原来的40个分数一起,算出这41个分数的平均数为N,那么eq \f(M,N)等于( )
A.eq \f(40,41) B.1
C.eq \f(41,40) D.2
解析:选B 平均数是用所有数据的和除以数据的总个数而得到的.设40位同学的成绩为xi(i=1,2,…,40),则M=eq \f(x1+x2+…+x40,40),N=eq \f(x1+x2+…+x40+M,41)=M,故eq \f(M,N)=1.
2.下列一组数据的25%分位数是( )
2.1,3.0,3.2,3.8,3.4,4.0,4.2,4.4,5.3,5.6
A.3.2 B.3.0
C.4.4 D.2.5
解析:选A 把这组数据按照由小到大排列,可得:2.1,3.0,3.2,3.4,3.8,4.0,4.2,4.4,5.3,5.6,
由i=10×25%=2.5,不是整数,则第3个数据3.2,是25%分位数.
3.某厂10名工人在一小时内生产零件的个数分别是15,17,14,10,15,17,17,16,14,12,设该组数据的平均数为a,50%分位数为b,则有( )
A.a=13.7,b=15.5 B.a=14,b=15
C.a=12,b=15.5 D.a=14.7,b=15
解析:选D 把该组数据按从小到大的顺序排列为10,12,14,14,15,15,16,17,17,17,其平均数a=eq \f(1,10)×(10+12+14+14+15+15+16+17+17+17)=14.7,50%分位数为b=eq \f(15+15,2)=15.
4.某棉纺厂为了了解一批棉花的质量,从中随机抽取了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据都在区间[5,40]中,其频率分布直方图如图所示.估计棉花纤维的长度的90%分位数是( )
A.32.5 mm B.33 mm
C.33.5 mm D.34 mm
解析:选A 棉花纤维的长度在30 mm以下的比例为(0.01+0.01+0.04+0.06+0.05)×5=0.85=85%,在35 mm以下的比例为85%+10%=95%,
因此,90%分位数一定位于[30,35]内,由30+5×eq \f(0.90-0.85,0.95-0.85)=32.5(mm),
可以估计棉花纤维的长度的90%分位数是32.5 mm.
新课程标准解读
核心素养
1.结合实例,能用样本估计总体的取值规律.掌握分层随机抽样的均值与方差
数据分析
2.结合实例,能用样本估计百分位数,理解百分位数的统计含义
数据运算、数据分析
分层随机抽样背景下的样本数字特征估计
百分位数的计算
百分位数的应用
数学3.1 离散型随机变量的均值学案及答案: 这是一份数学3.1 离散型随机变量的均值学案及答案,共8页。
数学必修 第一册4.2 分层随机抽样的均值与方差导学案: 这是一份数学必修 第一册4.2 分层随机抽样的均值与方差导学案,共10页。
高中数学湘教版(2019)必修 第一册6.4 用样本估计总体导学案: 这是一份高中数学湘教版(2019)必修 第一册6.4 用样本估计总体导学案,共7页。