2021版江苏高考数学一轮复习讲义:第9章第2节 用样本估计总体
展开第二节 用样本估计总体
[最新考纲] 1.了解分布的意义与作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.
1.常用统计图表
(1)作频率分布直方图的步骤:
①求极差(即一组数据中最大值与最小值的差).
②决定组距与组数.
③将数据分组.
④列频率分布表.
⑤画频率分布直方图.
(2)频率分布直方图:反映样本频率分布的直方图(如图)
横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本数据落在该组内的频率.各小矩形的面积和为1.
(3)频率分布折线图和总体密度曲线
①频率分布折线图:将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起来,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
2.样本的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把=称为x1,x2,…,xn这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s=;
s2=[(x1-)2+(x2-)2+…+(xn-)2].
1.频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
2.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)数据x1,x2,…,xn的方差为s2.
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
一、思考辨析(正确的打“√”,错误的打“×”)
(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势. ( )
(2)一组数据的方差越大,说明这组数据越集中. ( )
(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越高. ( )
(4) 已知样本数据x1,x2,…,xn的均值=5,则样本数据2x1+1,2x2+1,…,2xn+1的均值为10. ( )
[答案](1)√ (2)× (3)√ (4)×
二、教材改编
1.一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为( )
A.4 B.8 C.12 D.16
B [设频数为n,则=0.25,
∴n=32×=8.]
2.若某校高一年级8个班参加合唱比赛的得分分别为87,89,90,91,92,93,94,96,则这组数据的中位数和平均数分别是( )
A.91.5和91.5 B.91.5和92
C.91和91.5 D.92和92
A [∵这组数据为87,89,90,91,92,93,94,96,∴中位数是=91.5,
平均数==91.5.]
3.(2019·盐城模拟)已知一组数据x1,x2,x3,x4,x5的方差是2,则数据2x1,2x2,2x3,2x4,2x5的标准差为 .
2 [由s2= (xi-)2=2,则数据2x1,2x2,2x3,2x4,2x5的方差是8,标准差为2.]
4.如图是100位居民月均用水量的频率分布直方图,则月均用水量为[2,2.5)范围内的居民有 人.
25 [0.5×0.5×100=25.]
考点1 样本的数字特征的计算与应用
利用样本的数字特征解决决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
1.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数
C.方差 D.极差
A [设9位评委评分按从小到大排列为x1<x2<x3<x4…<x8<x9,则原始中位数为x5,去掉最低分x1,最高分x9后剩余x2<x3<x4…<x8,
中位数仍为x5,∴A正确.]
2.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )
甲 乙
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的中位数等于乙的成绩的中位数
C.甲的成绩的方差小于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
C [根据条形统计图可知甲的中靶情况为4环、5环、6环、7环、8环;乙的中靶情况为5环、5环、5环、6环、9环.甲=(4+5+6+7+8)=6,乙=(5×3+6+9)=6,甲的成绩的方差为
=2,乙的成绩的方差为=2.4;甲的成绩的极差为4环,乙的成绩的极差为4环;甲的成绩的中位数为6环,乙的成绩的中位数为5环,综上可知C正确,故选C.]
3.某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x-y|的值为( )
A.1 B.2 C.3 D.4
D [由题意可知
∴
∴(x+y)2=x2+y2+2xy,即208+2xy=400,∴xy=96.
∴(x-y)2=x2+y2-2xy=16,
∴|x-y|=4,故选D.]
4.(2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组 | [-0.20,0) | [0,0.20) | [0.20,0.40) | [0.40,0.60) | [0.60,0.80) |
企业数 | 2 | 24 | 53 | 14 | 7 |
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:≈8.602.
[解](1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为=0.21.
产值负增长的企业频率为=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)=(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,s2=
=[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]
=0.029 6,
s==0.02×≈0.17,
所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.
方差的简化计算公式:s2=[(x+x+…+x)-n2],或写成s2=(x+x+…+x)-2,即方差等于原数据平方的平均数减去平均数的平方.
考点2 频率分布直方图
频率、频数、样本容量的计算方法
(1)×组距=频率.
(2)=频率,=样本容量,样本容量×频率=频数.
(1)(2019·益阳模拟)为了了解某校九年级1 600名学生的体能情况,随机抽查了部分学生,测试1分钟仰卧起坐的成绩(次数),将数据整理后绘制成如图所示的频率分布直方图,根据统计图的数据,下列结论错误的是( )
A.该校九年级学生1分钟仰卧起坐的次数的中位数为26.25
B.该校九年级学生1分钟仰卧起坐的次数的众数为27.5
C.该校九年级学生1分钟仰卧起坐的次数超过30的人数约为320
D.该校九年级学生1分钟仰卧起坐的次数少于20的人数约为32
(2)(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液,每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比,根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
①求乙离子残留百分比直方图中a,b的值;
②分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
(1)D [由频率分布直方图可知,中位数是频率分布直方图面积等分线对应的数值,是26.25;众数是最高矩形的中间值27.5;1分钟仰卧起坐的次数超过30的频率为0.2,所以估计1分钟仰卧起坐的次数超过30的人数为320;1分钟仰卧起坐的次数少于20的频率为0.1,所以估计1分钟仰卧起坐的次数少于20的人数为160.故D错误.]
(2)[解] ①由已知得0.70=a+0.20+0.15,故
a=0.35.
b=1-0.05-0.15-0.70=0.10.
②甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
频率分布直方图的纵坐标是,而不是频率,切莫与条形图混淆.
[教师备选例题]
(2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
使用了节水龙头50天的日用水量频数分布表
(1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图:
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)
[解](1)如图所示:
(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,
因此该家庭使用节水龙头后日用水量小于0.35 m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为
1=(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后50天日用水量的平均数为
2=(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
1.为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图,由于不慎将部分数据丢失,但知道后5组频数和为62,设视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为( )
A.64 B.54
C.48 D.27
B [前两组中的频数为100×(0.05+0.11)=16.因为后五组频数和为62,所以前三组为38.所以第三组频数为22.又最大频率为0.32,对应的最大频数为0.32×100=32.所以a=22+32=54.]
2.某城市100户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
[解](1)(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1,解得x=0.007 5.
即直方图中x的值为0.007 5.
(2)月平均用电量的众数是=230.
∵(0.002+0.009 5+0.011)×20=0.45<0.5,
(0.002+0.009 5+0.011+0.012 5)×20=0.7>0.5,
∴月平均用电量的中位数在[220,240)内.
设中位数为a,则0.45+0.012 5×(a-220)=0.5,解得a=224,即中位数为224.
(3)月平均用电量在[220,240)的用户有0.012 5×20×100=25(户).同理可得月平均用电量在[240,260)的用户有15户,月平均用电量在[260,280)的用户有10户,月平均用电量在[280,300]的用户有5户,故抽取比例为=.
∴月平均用电量在[220,240)的用户中应抽取25×=5(户).