还剩12页未读,
继续阅读
2020届高考数学一轮复习新课改省份专用学案:第九章第一节统计
展开
第九章统计与统计案例
第一节 统计
突破点一 随机抽样
1.简单随机抽样
(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法.
2.系统抽样
在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).
3.分层抽样
在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
4.三种抽样方法的比较
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
均为不放回抽样,且抽样过程中每个个体被抽取的机会相等
从总体中逐个抽取
是后两种方法的基础
总体中的个数较少
系统抽样
将总体均分成几部分,按事先确定的规则在各部分中抽取
在起始部分抽样时采用简单随机抽样
元素个数很多且均衡的总体抽样
分层抽样
将总体分成几层,分层按比例进行抽取
各层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
一、判断题(对的打“√”,错的打“×”)
(1)简单随机抽样是一种不放回抽样.( )
(2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( )
(3)系统抽样在起始部分抽样时采用简单随机抽样.( )
(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.( )
(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( )
答案:(1)√ (2)× (3)√ (4)× (5)×
二、填空题
1.在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是________.
答案:总体
2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号,29号,42号学生在样本中,那么样本中还有一个学生的学号是________.
答案:16
3.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.
答案:1 800
1.系统抽样的最基本特征是“等距性”,一般地,每组内所抽取的号码依据第一组抽取的号码和组距确定.每组抽取的号码依次构成一个以第一组抽取的号码m为首项、组距d为公差的等差数列{an},第k组抽取的号码为ak=m+(k-1)d.
2.分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,抽样比==.
1.(2018·河北石家庄二中三模)某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )
A.16 B.17
C.18 D.19
解析:选C ∵从1 000名学生中抽取一个容量为40的样本,∴系统抽样的分段间隔为=25,设第一组随机抽取的号码为x,则抽取的第18组的号码为x+17×25=443,∴x=18.故选C.
2.(2019·吉林通化模拟)分层抽样是将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,组成一个样本的抽样方法.在《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱.欲以钱多少衰出之,问各几何?”其译文为:今有甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,问三人各应付多少税?则下列说法错误的是( )
A.甲应付51钱
B.乙应付32钱
C.丙应付16钱
D.三者中甲付的钱最多,丙付的钱最少
解析:选B 依题意由分层抽样可知,100÷(560+350+180)=,
则甲应付:×560=51(钱);
乙应付:×350=32(钱);
丙应付:×180=16(钱).
系统抽样和分层抽样中的计算
(1)系统抽样
总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).
若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+,…,k+(n-1).
(2)分层抽样
按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.
1.(2019·唐山模拟)用简单随机抽样的方法从含有100个个体的总体中抽取一个容量为5的样本,则个体M被抽到的概率为( )
A. B.
C. D.
解析:选C 一个总体含有100个个体,每个个体被抽到的概率为,用简单随机抽样方法从该总体中抽取容量为5的样本,则每个个体被抽到的概率为×5=.
2.(2019·江西八校联考)从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )
A.480 B.481
C.482 D.483
解析:选C 根据系统抽样的定义可知样本的编号成等差数列,令a1=7,a2=32,则d=25,所以7+25(n-1)≤500,所以n≤20,最大编号为7+25×19=482.
3.(2019·陕西部分学校摸底检测)某单位有老年人27人,中年人54人,青年人81人,为了调查他们的身体状况的某项指标,需从他们中间抽取一个容量为42的样本,则应分别抽取老年人、中年人、青年人的人数是( )
A.7,11,18 B.6,12,18
C.6,13,17 D.7,14,21
解析:选D 因为该单位共有27+54+81=162(人),样本容量为42,所以应当按=的比例分别从老年人、中年人、青年人中抽取样本,且应分别抽取的人数是7,14,21.故选D.
4.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样.
答案:分层抽样
突破点二 用样本估计总体
1.频率分布直方图和茎叶图
(1)作频率分布直方图的步骤
①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组; ④列频率分布表;⑤画频率分布直方图.
(2)频率分布折线图和总体密度曲线
频率分布折线图
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图
总体密度曲线
随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线
(3)茎叶图的优点
茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.
2.众数、中位数、平均数
数字特征
定义与求法
优点与缺点
众数
一组数据中重复出现次数最多的数
众数体现了样本数据的最大集中点,不受极端值的影响.但显然它对其他数据信息的忽视使得无法客观地反映总体特征
中位数
把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)
中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数
如果有n个数据x1,x2,…,xn,那么这n个数的平均数=
平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
3.标准差、方差
(1)标准差:样本数据到平均数的一种平均距离,一般用s表示,s= .
(2)方差:标准差的平方s2=[(x1-)2+(x2-)2+…+(xn-)2],其中xi(i=1,2,3,…,n)是样本数据,n是样本容量,是样本平均数.
(3)方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.
4.平均数、方差公式的推广
若数据x1,x2,…,xn的平均数为,方差为s2,则数据mx1+a,mx2+a,…,mxn+a的平均数为m+a,方差为m2s2.
一、判断题(对的打“√”,错的打“×”)
(1)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( )
(2)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( )
(3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )
(5)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )
(6)一组数据的众数可以是一个或几个,中位数也具有相同的结论.( )
答案:(1)√ (2)× (3)√ (4)× (5)√ (6)×
二、填空题
1.在样本频率分布直方图中,共有9个小长方形.若中间一个小长方形的面积等于其他8个小长方形面积之和的,且样本容量为140,则中间一组的频数为________.
答案:40
2.某学校组织学生参加数学测试,成绩(单位:分)的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若低于60分的人数是15,则该班的学生人数是________.
答案:50
3.如图是某班8位学生诗词比赛得分的茎叶图,那么这8位学生得分的众数和中位数分别为________.
答案:93,92
4.已知一组正数x1,x2,x3的方差s2=(x+x+x-12),则数据x1+1,x2+1,x3+1的平均数为________.
答案:3
考法一 折线图、饼图的应用
[例1] (1)(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
(2)(2019·昆明市高三质检)“搜索指数”是网民通过搜索引擎,以每天搜索关键词的次数为基础所得到的统计指标.搜索指数越大,表示网民搜索该关键词的次数越多,对该关键词相关的信息关注度也越高.如图是2018年9月到2019年2月这半年来,某个关键词的搜索指数变化的统计图.
根据该统计图判断,下列结论正确的是( )
A.这半年来,网民对该关键词相关的信息关注度呈周期性变化
B.这半年来,网民对该关键词相关的信息关注度不断减弱
C.从该关键词的搜索指数来看,2018年10月的方差小于11月的方差
D.从该关键词的搜索指数来看,2018年12月的平均值大于2019年1月的平均值
[解析] (1)设新农村建设前,农村的经济收入为a,则新农村建设后,农村经济收入为2a.
新农村建设前后,各项收入的对比如下表:
新农村建设前
新农村建设后
新农村建设后变化情况
结论
种植收入
60%a
37%×2a=74%a
增加
A错
其他收入
4%a
5%×2a=10%a
增加一倍以上
B对
养殖收入
30%a
30%×2a=60%a
增加了一倍
C对
养殖收入+第三产业收入
(30%+6%)a=36%a
(30%+28%)×2a=116%a
超过经济收入2a的一半
D对
故选A.
(2)由统计图可知,这半年来,该关键词的搜索指数变化的周期性并不显著,排除A;由统计图可知,这半年来,该关键词的搜索指数的整体减弱趋势不显著,排除B;由统计图可知,2018年10月该关键词的搜索指数波动较大,11月的波动较小,所以2018年10月的方差大于11月的方差,排除C;由统计图可知,2018年12月该关键词的搜索指数大多高于10 000,该月平均值大于10 000,2019年1月该关键词的搜索指数大多低于10 000,该月平均值小于10 000,选D.
[答案] (1)A (2)D
利用饼图、折线图分析问题的关键是读懂图形,读准图形中给的数据,明确图形中的变化等.
考法二 频率分布直方图的应用
[例2] (2018·安徽黄山二模)全世界越来越关注环境保护问题,某监测站点于2018年8月某日起连续n天监测空气质量指数(AQI),数据统计如下表:
空气质量指数(μg/m3)
[0,50]
(50,100]
(100,150]
(150,200]
(200,250]
空气质量等级
优
良
轻度污染
中度污染
重度污染
天数
20
40
m
10
5
(1)根据所给统计表和频率分布直方图中的信息求出n,m的值,并完成频率分布 直方图;
(2)由频率分布直方图,求该组数据的平均数与中位数;
(3)在空气质量指数分别为(50,100]和(150,200]的监测数据中,用分层抽样的方法抽取5天,从中任意选取2天,求事件A“两天空气质量等级都为良”的概率.
[解] (1)∵0.004×50=,∴n=100,
∵20+40+m+10+5=100,∴m=25.
=0.008;=0.005;=0.002;=0.001.
由此完成频率分布直方图,如图:
(2)由频率分布直方图得该组数据的平均数为
25×0.004×50+75×0.008×50+125×0.005×50+175×0.002×50+225×0.001×50=95,
∵[0,50]的频率为0.004×50=0.2,(50,100]的频率为0.008×50=0.4,
∴中位数为50+×50=87.5.
(3)由题意知在空气质量指数为(50,100]和(150,200]的监测天数中分别抽取4天和1天,
在所抽取的5天中,将空气质量指数为(50,100]的4天分别记为a,b,c,d;
将空气质量指数为(150,200]的1天记为e,
从中任取2天的基本事件为(a,b),(a,c),(a,d),(a,e),(b,c),(b,d),(b,e),(c,d),(c,e),(d,e),共10个,
其中事件A“两天空气质量等级都为良”包含的基本事件为(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),共6个,
所以P(A)==.
1.由频率分布直方图进行相关计算时,需掌握的两个关系式
(1)×组距=频率.
(2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
2.利用频率分布直方图估计样本的数字特征的方法
(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.
(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和.
(3)众数:最高的矩形的中点的横坐标.
考法三 茎叶图的应用
[例3] 某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:
(1)分别估计该市的市民对甲、乙两部门评分的中位数;
(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;
(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.
[解] (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.
50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为=67,所以该市的市民对乙部门评分的中位数的估计值是67.
(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为=0.1,=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.
(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.
1.茎叶图的绘制需注意
(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;
(2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.
2.茎叶图的用途
(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.
(2)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.
考法四 样本的数字特征及其应用
[例4] (2019·河南周口上学期期末抽测调研)甲、乙两人在相同条件下各射击10次,每次中靶环数情况如图所示:
(1)请填写下表(写出计算过程):
平均数
方差
命中9环及9环以上的次数
甲
乙
(2)从下列三个不同的角度对这次测试结果进行分析:
①从平均数和方差相结合看(分析谁的成绩更稳定);
②从平均数和命中9环及9环以上的次数相结合看(分析谁的成绩好些);
③从折线图上两人射击命中环数的走势看(分析谁更有潜力).
[解] 由题图,知甲射击10次中靶环数分别为9,5,7,8,7,6,8,6,7,7.
将它们由小到大排列为5,6,6,7,7,7,7,8,8,9.
乙射击10次中靶环数分别为2,4,6,8,7,7,8,9,9,10.
将它们由小到大排列为2,4,6,7,7,8,8,9,9,10.
(1)甲=×(5+6×2+7×4+8×2+9)=7(环),
乙=×(2+4+6+7×2+8×2+9×2+10)=7(环),
s=×[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]
=×(4+2+0+2+4)=1.2,
s=×[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]
=×(25+9+1+0+2+8+9)=5.4.
填表如下:
平均数
方差
命中9环及9环以上的次数
甲
7
1.2
1
乙
7
5.4
3
(2)①∵平均数相同,s<s,
∴甲成绩比乙稳定.
②∵平均数相同,命中9环及9环以上的次数甲比乙少,
∴乙成绩比甲好些.
③甲成绩在平均数上下波动;而乙处于上升势头,从第三次以后就没有比甲少的情况发生,乙更有潜力.
利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
1.某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.
已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是( )
A.最低气温与最高气温为正相关
B.10月的最高气温不低于5月的最高气温
C.月温差(最高气温减最低气温)的最大值出现在1月
D.最低气温低于0 ℃的月份有4个
解析:选D 在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C正确;在D中,最低气温低于0 ℃的月份有3个,故D错误.故选D.
2.近年呼吁高校招生改革的呼声越来越高,在赞成高校招生改革的市民中按年龄分组,得到样本频率分布直方图如图所示,其中年龄在区间[30,40)内的有2 500人,在区间[20,30)内的有1 200人,则m的值为( )
A.0.013 B.0.13
C.0.012 D.0.12
解析:选C 由题意,得年龄在区间[30,40)内的频率为0.025×10=0.25,则赞成高校招生改革的市民有=10 000(人),因为年龄在区间[20,30)内的有1 200人,所以m==0.012.
3.一次数学考试后,某老师从甲、乙两个班级中各抽取5人,记录他们的考试成绩,得到如图所示的茎叶图,已知甲班5名同学成绩的平均数为81,乙班5名同学成绩的中位数为73,则x-y的值为( )
A.2 B.-2
C.3 D.-3
解析:选D 由茎叶图知
解得x=0,y=3,所以x-y=-3,故选D.
4.在某校科普知识竞赛前的模拟测试中,得到甲、乙两名学生的6次模拟测试成绩(百分制)的茎叶图.
若从甲、乙两名学生中选择一人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由.
解:学生甲的平均成绩甲==82,
学生乙的平均成绩乙==82,
又s=×[(68-82)2+(76-82)2+(79-82)2+(86-82)2+(88-82)2+(95-82)2]=77,
s=×[(71-82)2+(75-82)2+(82-82)2+(84-82)2+(86-82)2+(94-82)2]=,
则甲=乙,s>s,说明甲、乙的平均水平一样,但乙的方差小,即乙发挥更稳定,故可选择学生乙参加知识竞赛.
5.(2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
[0.6,0.7)
频数
1
3
2
4
9
26
5
使用了节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
频数
1
5
13
10
16
5
(1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图;
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)
解:(1)频率分布直方图如图所示.
(2)根据频率分布直方图知,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后,日用水量小于0.35 m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为
1=×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后50天日用水量的平均数为
2=×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
第一节 统计
突破点一 随机抽样
1.简单随机抽样
(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法.
2.系统抽样
在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).
3.分层抽样
在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
4.三种抽样方法的比较
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
均为不放回抽样,且抽样过程中每个个体被抽取的机会相等
从总体中逐个抽取
是后两种方法的基础
总体中的个数较少
系统抽样
将总体均分成几部分,按事先确定的规则在各部分中抽取
在起始部分抽样时采用简单随机抽样
元素个数很多且均衡的总体抽样
分层抽样
将总体分成几层,分层按比例进行抽取
各层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
一、判断题(对的打“√”,错的打“×”)
(1)简单随机抽样是一种不放回抽样.( )
(2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( )
(3)系统抽样在起始部分抽样时采用简单随机抽样.( )
(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.( )
(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( )
答案:(1)√ (2)× (3)√ (4)× (5)×
二、填空题
1.在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是________.
答案:总体
2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号,29号,42号学生在样本中,那么样本中还有一个学生的学号是________.
答案:16
3.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.
答案:1 800
1.系统抽样的最基本特征是“等距性”,一般地,每组内所抽取的号码依据第一组抽取的号码和组距确定.每组抽取的号码依次构成一个以第一组抽取的号码m为首项、组距d为公差的等差数列{an},第k组抽取的号码为ak=m+(k-1)d.
2.分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,抽样比==.
1.(2018·河北石家庄二中三模)某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )
A.16 B.17
C.18 D.19
解析:选C ∵从1 000名学生中抽取一个容量为40的样本,∴系统抽样的分段间隔为=25,设第一组随机抽取的号码为x,则抽取的第18组的号码为x+17×25=443,∴x=18.故选C.
2.(2019·吉林通化模拟)分层抽样是将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,组成一个样本的抽样方法.在《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱.欲以钱多少衰出之,问各几何?”其译文为:今有甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,问三人各应付多少税?则下列说法错误的是( )
A.甲应付51钱
B.乙应付32钱
C.丙应付16钱
D.三者中甲付的钱最多,丙付的钱最少
解析:选B 依题意由分层抽样可知,100÷(560+350+180)=,
则甲应付:×560=51(钱);
乙应付:×350=32(钱);
丙应付:×180=16(钱).
系统抽样和分层抽样中的计算
(1)系统抽样
总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).
若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+,…,k+(n-1).
(2)分层抽样
按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.
1.(2019·唐山模拟)用简单随机抽样的方法从含有100个个体的总体中抽取一个容量为5的样本,则个体M被抽到的概率为( )
A. B.
C. D.
解析:选C 一个总体含有100个个体,每个个体被抽到的概率为,用简单随机抽样方法从该总体中抽取容量为5的样本,则每个个体被抽到的概率为×5=.
2.(2019·江西八校联考)从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )
A.480 B.481
C.482 D.483
解析:选C 根据系统抽样的定义可知样本的编号成等差数列,令a1=7,a2=32,则d=25,所以7+25(n-1)≤500,所以n≤20,最大编号为7+25×19=482.
3.(2019·陕西部分学校摸底检测)某单位有老年人27人,中年人54人,青年人81人,为了调查他们的身体状况的某项指标,需从他们中间抽取一个容量为42的样本,则应分别抽取老年人、中年人、青年人的人数是( )
A.7,11,18 B.6,12,18
C.6,13,17 D.7,14,21
解析:选D 因为该单位共有27+54+81=162(人),样本容量为42,所以应当按=的比例分别从老年人、中年人、青年人中抽取样本,且应分别抽取的人数是7,14,21.故选D.
4.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样.
答案:分层抽样
突破点二 用样本估计总体
1.频率分布直方图和茎叶图
(1)作频率分布直方图的步骤
①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组; ④列频率分布表;⑤画频率分布直方图.
(2)频率分布折线图和总体密度曲线
频率分布折线图
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图
总体密度曲线
随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线
(3)茎叶图的优点
茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.
2.众数、中位数、平均数
数字特征
定义与求法
优点与缺点
众数
一组数据中重复出现次数最多的数
众数体现了样本数据的最大集中点,不受极端值的影响.但显然它对其他数据信息的忽视使得无法客观地反映总体特征
中位数
把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)
中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数
如果有n个数据x1,x2,…,xn,那么这n个数的平均数=
平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
3.标准差、方差
(1)标准差:样本数据到平均数的一种平均距离,一般用s表示,s= .
(2)方差:标准差的平方s2=[(x1-)2+(x2-)2+…+(xn-)2],其中xi(i=1,2,3,…,n)是样本数据,n是样本容量,是样本平均数.
(3)方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.
4.平均数、方差公式的推广
若数据x1,x2,…,xn的平均数为,方差为s2,则数据mx1+a,mx2+a,…,mxn+a的平均数为m+a,方差为m2s2.
一、判断题(对的打“√”,错的打“×”)
(1)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( )
(2)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( )
(3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )
(5)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )
(6)一组数据的众数可以是一个或几个,中位数也具有相同的结论.( )
答案:(1)√ (2)× (3)√ (4)× (5)√ (6)×
二、填空题
1.在样本频率分布直方图中,共有9个小长方形.若中间一个小长方形的面积等于其他8个小长方形面积之和的,且样本容量为140,则中间一组的频数为________.
答案:40
2.某学校组织学生参加数学测试,成绩(单位:分)的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若低于60分的人数是15,则该班的学生人数是________.
答案:50
3.如图是某班8位学生诗词比赛得分的茎叶图,那么这8位学生得分的众数和中位数分别为________.
答案:93,92
4.已知一组正数x1,x2,x3的方差s2=(x+x+x-12),则数据x1+1,x2+1,x3+1的平均数为________.
答案:3
考法一 折线图、饼图的应用
[例1] (1)(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
(2)(2019·昆明市高三质检)“搜索指数”是网民通过搜索引擎,以每天搜索关键词的次数为基础所得到的统计指标.搜索指数越大,表示网民搜索该关键词的次数越多,对该关键词相关的信息关注度也越高.如图是2018年9月到2019年2月这半年来,某个关键词的搜索指数变化的统计图.
根据该统计图判断,下列结论正确的是( )
A.这半年来,网民对该关键词相关的信息关注度呈周期性变化
B.这半年来,网民对该关键词相关的信息关注度不断减弱
C.从该关键词的搜索指数来看,2018年10月的方差小于11月的方差
D.从该关键词的搜索指数来看,2018年12月的平均值大于2019年1月的平均值
[解析] (1)设新农村建设前,农村的经济收入为a,则新农村建设后,农村经济收入为2a.
新农村建设前后,各项收入的对比如下表:
新农村建设前
新农村建设后
新农村建设后变化情况
结论
种植收入
60%a
37%×2a=74%a
增加
A错
其他收入
4%a
5%×2a=10%a
增加一倍以上
B对
养殖收入
30%a
30%×2a=60%a
增加了一倍
C对
养殖收入+第三产业收入
(30%+6%)a=36%a
(30%+28%)×2a=116%a
超过经济收入2a的一半
D对
故选A.
(2)由统计图可知,这半年来,该关键词的搜索指数变化的周期性并不显著,排除A;由统计图可知,这半年来,该关键词的搜索指数的整体减弱趋势不显著,排除B;由统计图可知,2018年10月该关键词的搜索指数波动较大,11月的波动较小,所以2018年10月的方差大于11月的方差,排除C;由统计图可知,2018年12月该关键词的搜索指数大多高于10 000,该月平均值大于10 000,2019年1月该关键词的搜索指数大多低于10 000,该月平均值小于10 000,选D.
[答案] (1)A (2)D
利用饼图、折线图分析问题的关键是读懂图形,读准图形中给的数据,明确图形中的变化等.
考法二 频率分布直方图的应用
[例2] (2018·安徽黄山二模)全世界越来越关注环境保护问题,某监测站点于2018年8月某日起连续n天监测空气质量指数(AQI),数据统计如下表:
空气质量指数(μg/m3)
[0,50]
(50,100]
(100,150]
(150,200]
(200,250]
空气质量等级
优
良
轻度污染
中度污染
重度污染
天数
20
40
m
10
5
(1)根据所给统计表和频率分布直方图中的信息求出n,m的值,并完成频率分布 直方图;
(2)由频率分布直方图,求该组数据的平均数与中位数;
(3)在空气质量指数分别为(50,100]和(150,200]的监测数据中,用分层抽样的方法抽取5天,从中任意选取2天,求事件A“两天空气质量等级都为良”的概率.
[解] (1)∵0.004×50=,∴n=100,
∵20+40+m+10+5=100,∴m=25.
=0.008;=0.005;=0.002;=0.001.
由此完成频率分布直方图,如图:
(2)由频率分布直方图得该组数据的平均数为
25×0.004×50+75×0.008×50+125×0.005×50+175×0.002×50+225×0.001×50=95,
∵[0,50]的频率为0.004×50=0.2,(50,100]的频率为0.008×50=0.4,
∴中位数为50+×50=87.5.
(3)由题意知在空气质量指数为(50,100]和(150,200]的监测天数中分别抽取4天和1天,
在所抽取的5天中,将空气质量指数为(50,100]的4天分别记为a,b,c,d;
将空气质量指数为(150,200]的1天记为e,
从中任取2天的基本事件为(a,b),(a,c),(a,d),(a,e),(b,c),(b,d),(b,e),(c,d),(c,e),(d,e),共10个,
其中事件A“两天空气质量等级都为良”包含的基本事件为(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),共6个,
所以P(A)==.
1.由频率分布直方图进行相关计算时,需掌握的两个关系式
(1)×组距=频率.
(2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
2.利用频率分布直方图估计样本的数字特征的方法
(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.
(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和.
(3)众数:最高的矩形的中点的横坐标.
考法三 茎叶图的应用
[例3] 某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:
(1)分别估计该市的市民对甲、乙两部门评分的中位数;
(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;
(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.
[解] (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.
50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为=67,所以该市的市民对乙部门评分的中位数的估计值是67.
(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为=0.1,=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.
(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.
1.茎叶图的绘制需注意
(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;
(2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.
2.茎叶图的用途
(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.
(2)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.
考法四 样本的数字特征及其应用
[例4] (2019·河南周口上学期期末抽测调研)甲、乙两人在相同条件下各射击10次,每次中靶环数情况如图所示:
(1)请填写下表(写出计算过程):
平均数
方差
命中9环及9环以上的次数
甲
乙
(2)从下列三个不同的角度对这次测试结果进行分析:
①从平均数和方差相结合看(分析谁的成绩更稳定);
②从平均数和命中9环及9环以上的次数相结合看(分析谁的成绩好些);
③从折线图上两人射击命中环数的走势看(分析谁更有潜力).
[解] 由题图,知甲射击10次中靶环数分别为9,5,7,8,7,6,8,6,7,7.
将它们由小到大排列为5,6,6,7,7,7,7,8,8,9.
乙射击10次中靶环数分别为2,4,6,8,7,7,8,9,9,10.
将它们由小到大排列为2,4,6,7,7,8,8,9,9,10.
(1)甲=×(5+6×2+7×4+8×2+9)=7(环),
乙=×(2+4+6+7×2+8×2+9×2+10)=7(环),
s=×[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]
=×(4+2+0+2+4)=1.2,
s=×[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]
=×(25+9+1+0+2+8+9)=5.4.
填表如下:
平均数
方差
命中9环及9环以上的次数
甲
7
1.2
1
乙
7
5.4
3
(2)①∵平均数相同,s<s,
∴甲成绩比乙稳定.
②∵平均数相同,命中9环及9环以上的次数甲比乙少,
∴乙成绩比甲好些.
③甲成绩在平均数上下波动;而乙处于上升势头,从第三次以后就没有比甲少的情况发生,乙更有潜力.
利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
1.某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.
已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是( )
A.最低气温与最高气温为正相关
B.10月的最高气温不低于5月的最高气温
C.月温差(最高气温减最低气温)的最大值出现在1月
D.最低气温低于0 ℃的月份有4个
解析:选D 在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C正确;在D中,最低气温低于0 ℃的月份有3个,故D错误.故选D.
2.近年呼吁高校招生改革的呼声越来越高,在赞成高校招生改革的市民中按年龄分组,得到样本频率分布直方图如图所示,其中年龄在区间[30,40)内的有2 500人,在区间[20,30)内的有1 200人,则m的值为( )
A.0.013 B.0.13
C.0.012 D.0.12
解析:选C 由题意,得年龄在区间[30,40)内的频率为0.025×10=0.25,则赞成高校招生改革的市民有=10 000(人),因为年龄在区间[20,30)内的有1 200人,所以m==0.012.
3.一次数学考试后,某老师从甲、乙两个班级中各抽取5人,记录他们的考试成绩,得到如图所示的茎叶图,已知甲班5名同学成绩的平均数为81,乙班5名同学成绩的中位数为73,则x-y的值为( )
A.2 B.-2
C.3 D.-3
解析:选D 由茎叶图知
解得x=0,y=3,所以x-y=-3,故选D.
4.在某校科普知识竞赛前的模拟测试中,得到甲、乙两名学生的6次模拟测试成绩(百分制)的茎叶图.
若从甲、乙两名学生中选择一人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由.
解:学生甲的平均成绩甲==82,
学生乙的平均成绩乙==82,
又s=×[(68-82)2+(76-82)2+(79-82)2+(86-82)2+(88-82)2+(95-82)2]=77,
s=×[(71-82)2+(75-82)2+(82-82)2+(84-82)2+(86-82)2+(94-82)2]=,
则甲=乙,s>s,说明甲、乙的平均水平一样,但乙的方差小,即乙发挥更稳定,故可选择学生乙参加知识竞赛.
5.(2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
[0.6,0.7)
频数
1
3
2
4
9
26
5
使用了节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
频数
1
5
13
10
16
5
(1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图;
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)
解:(1)频率分布直方图如图所示.
(2)根据频率分布直方图知,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后,日用水量小于0.35 m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为
1=×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后50天日用水量的平均数为
2=×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
相关资料
更多