还剩18页未读,
继续阅读
2020版高考新创新一轮复习数学(理)通用版讲义:第十章第一节 统计
展开
第十章统计与统计案例
第一节 统计
[考纲要求]
1.理解随机抽样的必要性和重要性.
2.会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.
3.了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.
4.理解样本数据标准差的意义和作用,会计算数据标准差.
5.能从样本数据中提取基本的数字特征(平均数、标准差),并作出合理的解释.
6.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.
7.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.
突破点一 随机抽样
1.简单随机抽样
(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法.
2.系统抽样
在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).
3.分层抽样
在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
4.三种抽样方法的比较
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
均为不放回抽样,且抽样过程中每个个体被抽取的机会相等
从总体中逐个抽取
是后两种方法的基础
总体中的个数较少
系统抽样
将总体均分成几部分,按事先确定的规则在各部分中抽取
在起始部分抽样时采用简单随机抽样
元素个数很多且均衡的总体抽样
分层抽样
将总体分成几层,分层按比例进行抽取
各层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
一、判断题(对的打“√”,错的打“×”)
(1)简单随机抽样是一种不放回抽样.( )
(2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( )
(3)系统抽样在起始部分抽样时采用简单随机抽样.( )
(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.( )
(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( )
答案:(1)√ (2)× (3)√ (4)× (5)×
二、填空题
1.在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是________.
答案:总体
2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号,29号,42号学生在样本中,那么样本中还有一个学生的学号是________.
答案:16
3.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.
答案:1 800
1.系统抽样的最基本特征是“等距性”,一般地,每组内所抽取的号码依据第一组抽取的号码和组距确定.每组抽取的号码依次构成一个以第一组抽取的号码m为首项、组距d为公差的等差数列{an},第k组抽取的号码为ak=m+(k-1)d.
2.分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,抽样比==.
1.(2018·河北石家庄二中三模)某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )
A.16 B.17
C.18 D.19
解析:选C ∵从1 000名学生中抽取一个容量为40的样本,∴系统抽样的分段间隔为=25,设第一组随机抽取的号码为x,则抽取的第18组的号码为x+17×25=443,∴x=18.故选C.
2.(2019·吉林通化模拟)分层抽样是将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,组成一个样本的抽样方法.在《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱.欲以钱多少衰出之,问各几何?”其译文为:今有甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,问三人各应付多少税?则下列说法错误的是( )
A.甲应付51钱
B.乙应付32钱
C.丙应付16钱
D.三者中甲付的钱最多,丙付的钱最少
解析:选B 依题意由分层抽样可知,100÷(560+350+180)=,
则甲应付:×560=51(钱);
乙应付:×350=32(钱);
丙应付:×180=16(钱).
系统抽样和分层抽样中的计算
(1)系统抽样
总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).
若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+,…,k+(n-1).
(2)分层抽样
按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.
1.(2019·唐山模拟)用简单随机抽样的方法从含有100个个体的总体中抽取一个容量为5的样本,则个体M被抽到的概率为( )
A. B.
C. D.
解析:选C 一个总体含有100个个体,每个个体被抽到的概率为,用简单随机抽样方法从该总体中抽取容量为5的样本,则每个个体被抽到的概率为×5=.
2.(2019·江西八校联考)从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )
A.480 B.481
C.482 D.483
解析:选C 根据系统抽样的定义可知样本的编号成等差数列,令a1=7,a2=32,则d=25,所以7+25(n-1)≤500,所以n≤20,最大编号为7+25×19=482.
3.(2019·陕西部分学校摸底检测)某单位有老年人27人,中年人54人,青年人81人,为了调查他们的身体状况的某项指标,需从他们中间抽取一个容量为42的样本,则应分别抽取老年人、中年人、青年人的人数是( )
A.7,11,18 B.6,12,18
C.6,13,17 D.7,14,21
解析:选D 因为该单位共有27+54+81=162(人),样本容量为42,所以应当按=的比例分别从老年人、中年人、青年人中抽取样本,且应分别抽取的人数是7,14,21.故选D.
4.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样.
答案:分层抽样
突破点二 用样本估计总体
1.频率分布直方图和茎叶图
(1)作频率分布直方图的步骤
①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组; ④列频率分布表;⑤画频率分布直方图.
(2)频率分布折线图和总体密度曲线
频率分布折线图
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图
总体密度曲线
随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线
(3)茎叶图的优点
茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.
2.众数、中位数、平均数
数字特征
定义与求法
优点与缺点
众数
一组数据中重复出现次数最多的数
众数体现了样本数据的最大集中点,不受极端值的影响.但显然它对其他数据信息的忽视使得无法客观地反映总体特征
中位数
把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)
中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数
如果有n个数据x1,x2,…,xn,那么这n个数的平均数=
平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
3.标准差、方差
(1)标准差:样本数据到平均数的一种平均距离,一般用s表示,s= .
(2)方差:标准差的平方s2=[(x1-)2+(x2-)2+…+(xn-)2],其中xi(i=1,2,3,…,n)是样本数据,n是样本容量,是样本平均数.
(3)方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.
4.平均数、方差公式的推广
若数据x1,x2,…,xn的平均数为,方差为s2,则数据mx1+a,mx2+a,…,mxn+a的平均数为m+a,方差为m2s2.
一、判断题(对的打“√”,错的打“×”)
(1)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( )
(2)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( )
(3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )
(5)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )
(6)一组数据的众数可以是一个或几个,中位数也具有相同的结论.( )
答案:(1)√ (2)× (3)√ (4)× (5)√ (6)×
二、填空题
1.在样本频率分布直方图中,共有9个小长方形.若中间一个小长方形的面积等于其他8个小长方形面积之和的,且样本容量为140,则中间一组的频数为________.
答案:40
2.某学校组织学生参加数学测试,成绩(单位:分)的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若低于60分的人数是15,则该班的学生人数是________.
答案:50
3.如图是某班8位学生诗词比赛得分的茎叶图,那么这8位学生得分的众数和中位数分别为________.
答案:93,92
4.已知一组正数x1,x2,x3的方差s2=(x+x+x-12),则数据x1+1,x2+1,x3+1的平均数为________.
答案:3
考法一 折线图、饼图的应用
[例1] (1)(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
(2)(2019·昆明市高三质检)“搜索指数”是网民通过搜索引擎,以每天搜索关键词的次数为基础所得到的统计指标.搜索指数越大,表示网民搜索该关键词的次数越多,对该关键词相关的信息关注度也越高.如图是2018年9月到2019年2月这半年来,某个关键词的搜索指数变化的统计图.
根据该统计图判断,下列结论正确的是( )
A.这半年来,网民对该关键词相关的信息关注度呈周期性变化
B.这半年来,网民对该关键词相关的信息关注度不断减弱
C.从该关键词的搜索指数来看,2018年10月的方差小于11月的方差
D.从该关键词的搜索指数来看,2018年12月的平均值大于2019年1月的平均值
[解析] (1)设新农村建设前,农村的经济收入为a,则新农村建设后,农村经济收入为2a.
新农村建设前后,各项收入的对比如下表:
新农村建设前
新农村建设后
新农村建设后变化情况
结论
种植收入
60%a
37%×2a=74%a
增加
A错
其他收入
4%a
5%×2a=10%a
增加一倍以上
B对
养殖收入
30%a
30%×2a=60%a
增加了一倍
C对
养殖收入+第三产业收入
(30%+6%)a=36%a
(30%+28%)×2a=116%a
超过经济收入2a的一半
D对
故选A.
(2)由统计图可知,这半年来,该关键词的搜索指数变化的周期性并不显著,排除A;由统计图可知,这半年来,该关键词的搜索指数的整体减弱趋势不显著,排除B;由统计图可知,2018年10月该关键词的搜索指数波动较大,11月的波动较小,所以2018年10月的方差大于11月的方差,排除C;由统计图可知,2018年12月该关键词的搜索指数大多高于10 000,该月平均值大于10 000,2019年1月该关键词的搜索指数大多低于10 000,该月平均值小于10 000,选D.
[答案] (1)A (2)D
利用饼图、折线图分析问题的关键是读懂图形,读准图形中给的数据,明确图形中的变化等.
考法二 频率分布直方图的应用
[例2] (2018·安徽黄山二模)全世界越来越关注环境保护问题,某监测站点于2018年8月某日起连续n天监测空气质量指数(AQI),数据统计如下表:
空气质量指数(μg/m3)
[0,50]
(50,100]
(100,150]
(150,200]
(200,250]
空气质量等级
优
良
轻度污染
中度污染
重度污染
天数
20
40
m
10
5
(1)根据所给统计表和频率分布直方图中的信息求出n,m的值,并完成频率分布 直方图;
(2)由频率分布直方图,求该组数据的平均数与中位数;
(3)在空气质量指数分别为(50,100]和(150,200]的监测数据中,用分层抽样的方法抽取5天,从中任意选取2天,求事件A“两天空气质量等级都为良”的概率.
[解] (1)∵0.004×50=,∴n=100,
∵20+40+m+10+5=100,∴m=25.
=0.008;=0.005;=0.002;=0.001.
由此完成频率分布直方图,如图:
(2)由频率分布直方图得该组数据的平均数为
25×0.004×50+75×0.008×50+125×0.005×50+175×0.002×50+225×0.001×50=95,
∵[0,50]的频率为0.004×50=0.2,(50,100]的频率为0.008×50=0.4,
∴中位数为50+×50=87.5.
(3)由题意知在空气质量指数为(50,100]和(150,200]的监测天数中分别抽取4天和1天,
在所抽取的5天中,将空气质量指数为(50,100]的4天分别记为a,b,c,d;
将空气质量指数为(150,200]的1天记为e,
从中任取2天的基本事件为(a,b),(a,c),(a,d),(a,e),(b,c),(b,d),(b,e),(c,d),(c,e),(d,e),共10个,
其中事件A“两天空气质量等级都为良”包含的基本事件为(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),共6个,
所以P(A)==.
1.由频率分布直方图进行相关计算时,需掌握的两个关系式
(1)×组距=频率.
(2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
2.利用频率分布直方图估计样本的数字特征的方法
(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.
(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和.
(3)众数:最高的矩形的中点的横坐标.
考法三 茎叶图的应用
[例3] 某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:
(1)分别估计该市的市民对甲、乙两部门评分的中位数;
(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;
(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.
[解] (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.
50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为=67,所以该市的市民对乙部门评分的中位数的估计值是67.
(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为=0.1,=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.
(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.
1.茎叶图的绘制需注意
(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;
(2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.
2.茎叶图的用途
(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.
(2)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.
考法四 样本的数字特征及其应用
[例4] (2019·河南周口上学期期末抽测调研)甲、乙两人在相同条件下各射击10次,每次中靶环数情况如图所示:
(1)请填写下表(写出计算过程):
平均数
方差
命中9环及9环以上的次数
甲
乙
(2)从下列三个不同的角度对这次测试结果进行分析:
①从平均数和方差相结合看(分析谁的成绩更稳定);
②从平均数和命中9环及9环以上的次数相结合看(分析谁的成绩好些);
③从折线图上两人射击命中环数的走势看(分析谁更有潜力).
[解] 由题图,知甲射击10次中靶环数分别为9,5,7,8,7,6,8,6,7,7.
将它们由小到大排列为5,6,6,7,7,7,7,8,8,9.
乙射击10次中靶环数分别为2,4,6,8,7,7,8,9,9,10.
将它们由小到大排列为2,4,6,7,7,8,8,9,9,10.
(1)甲=×(5+6×2+7×4+8×2+9)=7(环),
乙=×(2+4+6+7×2+8×2+9×2+10)=7(环),
s=×[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]
=×(4+2+0+2+4)=1.2,
s=×[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]
=×(25+9+1+0+2+8+9)=5.4.
填表如下:
平均数
方差
命中9环及9环以上的次数
甲
7
1.2
1
乙
7
5.4
3
(2)①∵平均数相同,s<s,
∴甲成绩比乙稳定.
②∵平均数相同,命中9环及9环以上的次数甲比乙少,
∴乙成绩比甲好些.
③甲成绩在平均数上下波动;而乙处于上升势头,从第三次以后就没有比甲少的情况发生,乙更有潜力.
利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
1.某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.
已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是( )
A.最低气温与最高气温为正相关
B.10月的最高气温不低于5月的最高气温
C.月温差(最高气温减最低气温)的最大值出现在1月
D.最低气温低于0 ℃的月份有4个
解析:选D 在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C正确;在D中,最低气温低于0 ℃的月份有3个,故D错误.故选D.
2.近年呼吁高校招生改革的呼声越来越高,在赞成高校招生改革的市民中按年龄分组,得到样本频率分布直方图如图所示,其中年龄在区间[30,40)内的有2 500人,在区间[20,30)内的有1 200人,则m的值为( )
A.0.013 B.0.13
C.0.012 D.0.12
解析:选C 由题意,得年龄在区间[30,40)内的频率为0.025×10=0.25,则赞成高校招生改革的市民有=10 000(人),因为年龄在区间[20,30)内的有1 200人,所以m==0.012.
3.一次数学考试后,某老师从甲、乙两个班级中各抽取5人,记录他们的考试成绩,得到如图所示的茎叶图,已知甲班5名同学成绩的平均数为81,乙班5名同学成绩的中位数为73,则x-y的值为( )
A.2 B.-2
C.3 D.-3
解析:选D 由茎叶图知
解得x=0,y=3,所以x-y=-3,故选D.
4.在某校科普知识竞赛前的模拟测试中,得到甲、乙两名学生的6次模拟测试成绩(百分制)的茎叶图.
若从甲、乙两名学生中选择一人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由.
解:学生甲的平均成绩甲==82,
学生乙的平均成绩乙==82,
又s=×[(68-82)2+(76-82)2+(79-82)2+(86-82)2+(88-82)2+(95-82)2]=77,
s=×[(71-82)2+(75-82)2+(82-82)2+(84-82)2+(86-82)2+(94-82)2]=,
则甲=乙,s>s,说明甲、乙的平均水平一样,但乙的方差小,即乙发挥更稳定,故可选择学生乙参加知识竞赛.
5.(2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
[0.6,0.7)
频数
1
3
2
4
9
26
5
使用了节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
频数
1
5
13
10
16
5
(1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图;
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)
解:(1)频率分布直方图如图所示.
(2)根据频率分布直方图知,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后,日用水量小于0.35 m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为
1=×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后50天日用水量的平均数为
2=×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
[课时跟踪检测]
1.(2019·福州质检)下面抽样方法是简单随机抽样的是( )
A.从平面直角坐标系中抽取5个点作为样本
B.可口可乐公司从仓库中的1 000箱可乐中一次性抽取20箱进行质量检查
C.某连队从200名战士中,挑选出50名最优秀的战士去参加抢险救灾活动
D.从10个手机中逐个不放回地随机抽取2个进行质量检验(假设10个手机已编号)
解析:选D 平面直角坐标系中有无数个点,这与简单随机抽样中要求总体中的个体数有限不相符,故A错误;一次性抽取不符合简单随机抽样逐个抽取的特点,故B错误;50名战士是最优秀的,不符合简单随机抽样的等可能性,故C错误.故选D.
2.(2019·北大附中期末)某学院A,B,C三个专业共有1 200名学生,为了调查这些学生勤工俭学的情况,拟采用分层抽样的方法抽取一个容量为120的样本,已知该学院的A专业有380名学生,B专业有420名学生,则应在该学院的C专业抽取的学生人数为( )
A.30 B.40
C.50 D.60
解析:选B C专业的学生有1 200-380-420=400名,
由分层抽样知应抽取120×=40名.故选B.
3.从2 015名学生中选取50名学生参加全国数学联赛,若采用下面的方法选取:先用简单随机抽样方法从2 015人中剔除15人,剩下的2 000人再按系统抽样的方法抽取,则每人入选的概率( )
A.不全相等 B.均不相等
C.都相等,且为 D.都相等,且为
解析:选C 因为简单随机抽样和系统抽样都是等可能抽样,从N个个体中抽取M个个体,则每个个体被抽到的概率都等于,故从2 015名学生中选取50名学生参加全国数学联赛,每人入选的概率都相等,且为.故选C.
4.(2019·广西南宁毕业班摸底)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.100,20 B.200,20
C.200,10 D.100,10
解析:选B 由题图甲可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图乙可知高中生的近视率为50%,所以高中生的近视人数为40×50%=20,故选B.
5.(2019·福州质检)某学校共有师生4 000人,现用分层抽样的方法从所有师生中抽取一个容量为200的样本,调查师生对学校食堂餐饮问题的建议,已知从学生中抽取的人数为190,那么该校的教师人数为( )
A.100 B.150
C.200 D.250
解析:选C 设教师人数为x,由题意知:=,解得x=200,故选C.
6.(2019·南昌模拟)我国古代数学名著《九章算术》有“米谷粒分”题:发仓募粮,所募粒中秕不百三则收之(不超过3%),现抽样取米一把,取得235粒米中夹秕n粒,若这批米合格,则n不超过( )
A.6 B.7
C.8 D.9
解析:选B 由题意得,×100%≤3%,解得n≤7.05,所以若这批米合格,
则n不超过7.故选B.
7.某校初三年级有400名学生,随机抽查了40名学生测试1分钟仰卧起坐的成绩(单位:次),将数据整理后绘制成如图所示的频率分布直方图.用样本估计总体,下列结论正确的是( )
A.该校初三学生1分钟仰卧起坐的次数的中位数为25
B.该校初三学生1分钟仰卧起坐的次数的众数为24
C.该校初三学生1分钟仰卧起坐的次数超过30的人数约有80
D.该校初三学生1分钟仰卧起坐的次数少于20的人数约为8
解析:选C 第一组数据的频率为0.02×5=0.1,第二组数据的频率为0.06×5=0.3,第三组数据的频率为0.08×5=0.4,∴中位数在第三组内,设中位数为25+x,则x×0.08=0.5-0.1-0.3=0.1,∴x=1.25,∴中位数为26.25,故A错误.第三组数据所在的矩形最高,第三组数据的中间值为27.5,∴众数为27.5,故B错误.1分钟仰卧起坐的次数超过30的频率为0.04×5=0.2,∴超过30次的人数为400×0.2=80,故C正确.1分钟仰卧起坐的次数少于20的频率为0.02×5=0.1,∴1分钟仰卧起坐的次数少于20的人数为400×0.1=40,故D错误.故选C.
8.(2019·黄陵中学期末)为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄在17~18岁的男生体重(kg),将他们的体重按[54.5,56.5),[56.5,58.5),…,[74.5,76.5]分组,得到的频率分布直方图如图所示.由图可知这100名学生中体重在[56.5,64.5)的学生人数是( )
A.20 B.30
C.40 D.50
解析:选C 由频率分布直方图可得体重在[56.5,64.5)的学生的频率为(0.03+0.05+0.05+0.07)×2=0.4,则这100名学生中体重在[56.5,64.5)的学生人数为100×0.4=40.故选C.
9.(2019·广西五市联考)如图是2018年第一季度五省GDP情况图,则下列陈述正确的是( )
①2018年第一季度GDP总量和增速均居同一位的省只有1个;
②与去年同期相比,2018年第一季度五个省的GDP总量均实现了增长;
③去年同期的GDP总量前三位是D省、B省、A省;
④2017年同期A省的GDP总量也是第三位.
A.①② B.②③④
C.②④ D.①③④
解析:选B ①2018年第一季度GDP总量和增速均居同一位的省有2个,B省和C省的GDP总量和增速分别居第一位和第四位,故①错误;由图知②正确;由图计算2017年同期五省的GDP总量,可知前三位为D省、B省、A省,故③正确;由③知2017年同期A省的GDP总量是第三位,故④正确.故选B.
10.如图是一容量为100的样本重量的频率分布直方图,则由图可估计样本重量的平均数与中位数分别为( )
A.13,12
B.12,12
C.11,11
D.12,11
解析:选B 平均重量为7.5×5×0.06+12.5×5×0.1+17.5×(1-5×0.06-5×0.1)=12,设中位数为x,则(x-10)×0.1=0.5-5×0.06,解得x=12.故选B.
11.(2019·榆林二中模拟)某学校为了调查学生在学科教辅书方面的支出情况,抽出了一个容量为n的样本,其频率分布直方图如图所示,其中支出的钱数在[30,40)的同学比支出的钱数在[10,20)的同学多26人,则n的值为________.
解析:由频率分布直方图可得支出的钱数在[30,40)的同学有0.038×10n=0.38n个,支出的钱数在[10,20)的同学有0.012×10n=0.12n个,又支出的钱数在[30,40)的同学比支出的钱数在[10,20)的同学多26人,所以0.38n-0.12n=0.26n=26,解得n=100.
答案:100
12.(2019·河南高三联考)某班学生A,B在高三8次月考的化学成绩用茎叶图表示如图,其中学生A的平均成绩与学生B的成绩的众数相等,则m=________.
解析:由题意,得=84,解得m=5.
答案:5
13.(2019·沈阳期末联考)为了了解2 000名学生的学习情况,计划采用系统抽样的方法从全体学生中抽取容量为100的样本,若第一组抽出的号码为11,则第五组抽出的号码为________.
解析:采用系统抽样的方法从2 000名学生中抽取容量为100的样本,则先分成100组,每组20人,即号码间隔为20,若第一组抽出的号码为11,则第五组抽出的号码为11+20×(5-1)=91.
答案:91
14.为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________.
解析:设5个数据分别为x1,x2,x3,x4,x5.∵平均数为7,∴=7.又∵样本方差为4,∴4=[(x1-7)2+(x2-7)2+…+(x5-7)2],∴20=x+x+x+x+x-2×7×(x1+x2+x3+x4+x5)+72×5,∴x+x+x+x+x=265.又∵42+62+72+82+102=265,∴样本数据中的最大值为10.
答案:10
15.(2019·湖南长郡中学选拔考试)据了解,大学英语四级改革的一项重要内容就是总分改为710分,每个考生会有一个成绩,不再颁发“合格证”,这也意味着,不再有“及格”一说.大学英语四级考试成绩在425分及以上的考生可以报考大学英语六级考试,英语四级成绩在550分及以上的考生可以报考口语考试.如图是从某大学数学专业40人的英语四级成绩中随机抽取8人的成绩的茎叶图.
(1)通过这8人的英语四级成绩估计该大学数学专业英语四级考试成绩的平均数和中位数;
(2)在这8人中,从可以报考大学英语六级考试的学生中任取2人,求这2人都可以报考口语考试的概率.
解:(1)这8人的英语四级成绩的平均数为(386+410+450+485+520+564+575+610)÷8=500(分),这8人的英语四级成绩的中位数为(485+520)÷2=502.5(分),由此可估计该大学数学专业英语四级考试成绩的平均数为500分,中位数为502.5分.
(2)设可以报考大学英语六级考试但不能报考口语的3人为A1,A2,A3,可以报考口语的3人为B1,B2,B3,从这6人中任取2人,全部情况为(A1,A2),(A1,A3),(A1,B1),(A1,B2),(A1,B3),(A2,A3),(A2,B1),(A2,B2),(A2,B3),(A3,B1),(A3,B2),(A3,B3),(B1,B2),(B1,B3),(B2,B3),共15种.这2人都可以报考口语考试的情况为(B1,B2),(B1,B3),(B2,B3),共3种,则这2人都可以报考口语考试的概率P==.
16.(2019·新乡一模)为了了解甲、乙两个工厂生产的轮胎的宽度是否达标,从两厂各随机选取了10个轮胎,将每个轮胎的宽度(单位:mm)记录下来并绘制出如下的折线图:
(1)分别计算甲、乙两厂提供的10个轮胎宽度的平均值;
(2)若轮胎的宽度在[194,196]内,则称这个轮胎是标准轮胎.试比较甲、乙两厂分别提供的10个轮胎中所有标准轮胎宽度的方差的大小,根据两厂的标准轮胎宽度的平均水平及其波动情况,判断这两个工厂哪个的轮胎相对更好.
解:(1)甲厂10个轮胎宽度的平均值:
甲=×(195+194+196+193+194+197+196+195+193+197)=195(mm),
乙厂10个轮胎宽度的平均值:
乙=×(195+196+193+192+195+194+195+192+195+193)=194(mm).
(2)甲厂10个轮胎中宽度在[194,196]内的数据为195,194,196,194,196,195,
平均数:1=×(195+194+196+194+196+195)=195,
方差:s=×[(195-195)2+(194-195)2+(196-195)2+(194-195)2+(196-195)2+(195-195)2]=,
乙厂10个轮胎中宽度在[194,196]内的数据为195,196,195,194,195,195,
平均数:2=×(195+196+195+194+195+195)=195,
方差:s=×[(195-195)2+(196-195)2+(195-195)2+(194-195)2+(195-195)2+(195-195)2]=,
∵两厂标准轮胎宽度的平均数相等,但乙厂的方差更小,
∴乙厂的轮胎相对更好.
第一节 统计
[考纲要求]
1.理解随机抽样的必要性和重要性.
2.会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.
3.了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.
4.理解样本数据标准差的意义和作用,会计算数据标准差.
5.能从样本数据中提取基本的数字特征(平均数、标准差),并作出合理的解释.
6.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.
7.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.
突破点一 随机抽样
1.简单随机抽样
(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法.
2.系统抽样
在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).
3.分层抽样
在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
4.三种抽样方法的比较
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
均为不放回抽样,且抽样过程中每个个体被抽取的机会相等
从总体中逐个抽取
是后两种方法的基础
总体中的个数较少
系统抽样
将总体均分成几部分,按事先确定的规则在各部分中抽取
在起始部分抽样时采用简单随机抽样
元素个数很多且均衡的总体抽样
分层抽样
将总体分成几层,分层按比例进行抽取
各层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
一、判断题(对的打“√”,错的打“×”)
(1)简单随机抽样是一种不放回抽样.( )
(2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( )
(3)系统抽样在起始部分抽样时采用简单随机抽样.( )
(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.( )
(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( )
答案:(1)√ (2)× (3)√ (4)× (5)×
二、填空题
1.在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是________.
答案:总体
2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号,29号,42号学生在样本中,那么样本中还有一个学生的学号是________.
答案:16
3.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.
答案:1 800
1.系统抽样的最基本特征是“等距性”,一般地,每组内所抽取的号码依据第一组抽取的号码和组距确定.每组抽取的号码依次构成一个以第一组抽取的号码m为首项、组距d为公差的等差数列{an},第k组抽取的号码为ak=m+(k-1)d.
2.分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,抽样比==.
1.(2018·河北石家庄二中三模)某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )
A.16 B.17
C.18 D.19
解析:选C ∵从1 000名学生中抽取一个容量为40的样本,∴系统抽样的分段间隔为=25,设第一组随机抽取的号码为x,则抽取的第18组的号码为x+17×25=443,∴x=18.故选C.
2.(2019·吉林通化模拟)分层抽样是将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,组成一个样本的抽样方法.在《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱.欲以钱多少衰出之,问各几何?”其译文为:今有甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,问三人各应付多少税?则下列说法错误的是( )
A.甲应付51钱
B.乙应付32钱
C.丙应付16钱
D.三者中甲付的钱最多,丙付的钱最少
解析:选B 依题意由分层抽样可知,100÷(560+350+180)=,
则甲应付:×560=51(钱);
乙应付:×350=32(钱);
丙应付:×180=16(钱).
系统抽样和分层抽样中的计算
(1)系统抽样
总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).
若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+,…,k+(n-1).
(2)分层抽样
按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.
1.(2019·唐山模拟)用简单随机抽样的方法从含有100个个体的总体中抽取一个容量为5的样本,则个体M被抽到的概率为( )
A. B.
C. D.
解析:选C 一个总体含有100个个体,每个个体被抽到的概率为,用简单随机抽样方法从该总体中抽取容量为5的样本,则每个个体被抽到的概率为×5=.
2.(2019·江西八校联考)从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )
A.480 B.481
C.482 D.483
解析:选C 根据系统抽样的定义可知样本的编号成等差数列,令a1=7,a2=32,则d=25,所以7+25(n-1)≤500,所以n≤20,最大编号为7+25×19=482.
3.(2019·陕西部分学校摸底检测)某单位有老年人27人,中年人54人,青年人81人,为了调查他们的身体状况的某项指标,需从他们中间抽取一个容量为42的样本,则应分别抽取老年人、中年人、青年人的人数是( )
A.7,11,18 B.6,12,18
C.6,13,17 D.7,14,21
解析:选D 因为该单位共有27+54+81=162(人),样本容量为42,所以应当按=的比例分别从老年人、中年人、青年人中抽取样本,且应分别抽取的人数是7,14,21.故选D.
4.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样.
答案:分层抽样
突破点二 用样本估计总体
1.频率分布直方图和茎叶图
(1)作频率分布直方图的步骤
①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组; ④列频率分布表;⑤画频率分布直方图.
(2)频率分布折线图和总体密度曲线
频率分布折线图
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图
总体密度曲线
随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线
(3)茎叶图的优点
茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.
2.众数、中位数、平均数
数字特征
定义与求法
优点与缺点
众数
一组数据中重复出现次数最多的数
众数体现了样本数据的最大集中点,不受极端值的影响.但显然它对其他数据信息的忽视使得无法客观地反映总体特征
中位数
把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)
中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数
如果有n个数据x1,x2,…,xn,那么这n个数的平均数=
平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
3.标准差、方差
(1)标准差:样本数据到平均数的一种平均距离,一般用s表示,s= .
(2)方差:标准差的平方s2=[(x1-)2+(x2-)2+…+(xn-)2],其中xi(i=1,2,3,…,n)是样本数据,n是样本容量,是样本平均数.
(3)方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.
4.平均数、方差公式的推广
若数据x1,x2,…,xn的平均数为,方差为s2,则数据mx1+a,mx2+a,…,mxn+a的平均数为m+a,方差为m2s2.
一、判断题(对的打“√”,错的打“×”)
(1)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( )
(2)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( )
(3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )
(5)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )
(6)一组数据的众数可以是一个或几个,中位数也具有相同的结论.( )
答案:(1)√ (2)× (3)√ (4)× (5)√ (6)×
二、填空题
1.在样本频率分布直方图中,共有9个小长方形.若中间一个小长方形的面积等于其他8个小长方形面积之和的,且样本容量为140,则中间一组的频数为________.
答案:40
2.某学校组织学生参加数学测试,成绩(单位:分)的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若低于60分的人数是15,则该班的学生人数是________.
答案:50
3.如图是某班8位学生诗词比赛得分的茎叶图,那么这8位学生得分的众数和中位数分别为________.
答案:93,92
4.已知一组正数x1,x2,x3的方差s2=(x+x+x-12),则数据x1+1,x2+1,x3+1的平均数为________.
答案:3
考法一 折线图、饼图的应用
[例1] (1)(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
(2)(2019·昆明市高三质检)“搜索指数”是网民通过搜索引擎,以每天搜索关键词的次数为基础所得到的统计指标.搜索指数越大,表示网民搜索该关键词的次数越多,对该关键词相关的信息关注度也越高.如图是2018年9月到2019年2月这半年来,某个关键词的搜索指数变化的统计图.
根据该统计图判断,下列结论正确的是( )
A.这半年来,网民对该关键词相关的信息关注度呈周期性变化
B.这半年来,网民对该关键词相关的信息关注度不断减弱
C.从该关键词的搜索指数来看,2018年10月的方差小于11月的方差
D.从该关键词的搜索指数来看,2018年12月的平均值大于2019年1月的平均值
[解析] (1)设新农村建设前,农村的经济收入为a,则新农村建设后,农村经济收入为2a.
新农村建设前后,各项收入的对比如下表:
新农村建设前
新农村建设后
新农村建设后变化情况
结论
种植收入
60%a
37%×2a=74%a
增加
A错
其他收入
4%a
5%×2a=10%a
增加一倍以上
B对
养殖收入
30%a
30%×2a=60%a
增加了一倍
C对
养殖收入+第三产业收入
(30%+6%)a=36%a
(30%+28%)×2a=116%a
超过经济收入2a的一半
D对
故选A.
(2)由统计图可知,这半年来,该关键词的搜索指数变化的周期性并不显著,排除A;由统计图可知,这半年来,该关键词的搜索指数的整体减弱趋势不显著,排除B;由统计图可知,2018年10月该关键词的搜索指数波动较大,11月的波动较小,所以2018年10月的方差大于11月的方差,排除C;由统计图可知,2018年12月该关键词的搜索指数大多高于10 000,该月平均值大于10 000,2019年1月该关键词的搜索指数大多低于10 000,该月平均值小于10 000,选D.
[答案] (1)A (2)D
利用饼图、折线图分析问题的关键是读懂图形,读准图形中给的数据,明确图形中的变化等.
考法二 频率分布直方图的应用
[例2] (2018·安徽黄山二模)全世界越来越关注环境保护问题,某监测站点于2018年8月某日起连续n天监测空气质量指数(AQI),数据统计如下表:
空气质量指数(μg/m3)
[0,50]
(50,100]
(100,150]
(150,200]
(200,250]
空气质量等级
优
良
轻度污染
中度污染
重度污染
天数
20
40
m
10
5
(1)根据所给统计表和频率分布直方图中的信息求出n,m的值,并完成频率分布 直方图;
(2)由频率分布直方图,求该组数据的平均数与中位数;
(3)在空气质量指数分别为(50,100]和(150,200]的监测数据中,用分层抽样的方法抽取5天,从中任意选取2天,求事件A“两天空气质量等级都为良”的概率.
[解] (1)∵0.004×50=,∴n=100,
∵20+40+m+10+5=100,∴m=25.
=0.008;=0.005;=0.002;=0.001.
由此完成频率分布直方图,如图:
(2)由频率分布直方图得该组数据的平均数为
25×0.004×50+75×0.008×50+125×0.005×50+175×0.002×50+225×0.001×50=95,
∵[0,50]的频率为0.004×50=0.2,(50,100]的频率为0.008×50=0.4,
∴中位数为50+×50=87.5.
(3)由题意知在空气质量指数为(50,100]和(150,200]的监测天数中分别抽取4天和1天,
在所抽取的5天中,将空气质量指数为(50,100]的4天分别记为a,b,c,d;
将空气质量指数为(150,200]的1天记为e,
从中任取2天的基本事件为(a,b),(a,c),(a,d),(a,e),(b,c),(b,d),(b,e),(c,d),(c,e),(d,e),共10个,
其中事件A“两天空气质量等级都为良”包含的基本事件为(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),共6个,
所以P(A)==.
1.由频率分布直方图进行相关计算时,需掌握的两个关系式
(1)×组距=频率.
(2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
2.利用频率分布直方图估计样本的数字特征的方法
(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.
(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和.
(3)众数:最高的矩形的中点的横坐标.
考法三 茎叶图的应用
[例3] 某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:
(1)分别估计该市的市民对甲、乙两部门评分的中位数;
(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;
(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.
[解] (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.
50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为=67,所以该市的市民对乙部门评分的中位数的估计值是67.
(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为=0.1,=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.
(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.
1.茎叶图的绘制需注意
(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;
(2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.
2.茎叶图的用途
(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.
(2)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.
考法四 样本的数字特征及其应用
[例4] (2019·河南周口上学期期末抽测调研)甲、乙两人在相同条件下各射击10次,每次中靶环数情况如图所示:
(1)请填写下表(写出计算过程):
平均数
方差
命中9环及9环以上的次数
甲
乙
(2)从下列三个不同的角度对这次测试结果进行分析:
①从平均数和方差相结合看(分析谁的成绩更稳定);
②从平均数和命中9环及9环以上的次数相结合看(分析谁的成绩好些);
③从折线图上两人射击命中环数的走势看(分析谁更有潜力).
[解] 由题图,知甲射击10次中靶环数分别为9,5,7,8,7,6,8,6,7,7.
将它们由小到大排列为5,6,6,7,7,7,7,8,8,9.
乙射击10次中靶环数分别为2,4,6,8,7,7,8,9,9,10.
将它们由小到大排列为2,4,6,7,7,8,8,9,9,10.
(1)甲=×(5+6×2+7×4+8×2+9)=7(环),
乙=×(2+4+6+7×2+8×2+9×2+10)=7(环),
s=×[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]
=×(4+2+0+2+4)=1.2,
s=×[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]
=×(25+9+1+0+2+8+9)=5.4.
填表如下:
平均数
方差
命中9环及9环以上的次数
甲
7
1.2
1
乙
7
5.4
3
(2)①∵平均数相同,s<s,
∴甲成绩比乙稳定.
②∵平均数相同,命中9环及9环以上的次数甲比乙少,
∴乙成绩比甲好些.
③甲成绩在平均数上下波动;而乙处于上升势头,从第三次以后就没有比甲少的情况发生,乙更有潜力.
利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
1.某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.
已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是( )
A.最低气温与最高气温为正相关
B.10月的最高气温不低于5月的最高气温
C.月温差(最高气温减最低气温)的最大值出现在1月
D.最低气温低于0 ℃的月份有4个
解析:选D 在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C正确;在D中,最低气温低于0 ℃的月份有3个,故D错误.故选D.
2.近年呼吁高校招生改革的呼声越来越高,在赞成高校招生改革的市民中按年龄分组,得到样本频率分布直方图如图所示,其中年龄在区间[30,40)内的有2 500人,在区间[20,30)内的有1 200人,则m的值为( )
A.0.013 B.0.13
C.0.012 D.0.12
解析:选C 由题意,得年龄在区间[30,40)内的频率为0.025×10=0.25,则赞成高校招生改革的市民有=10 000(人),因为年龄在区间[20,30)内的有1 200人,所以m==0.012.
3.一次数学考试后,某老师从甲、乙两个班级中各抽取5人,记录他们的考试成绩,得到如图所示的茎叶图,已知甲班5名同学成绩的平均数为81,乙班5名同学成绩的中位数为73,则x-y的值为( )
A.2 B.-2
C.3 D.-3
解析:选D 由茎叶图知
解得x=0,y=3,所以x-y=-3,故选D.
4.在某校科普知识竞赛前的模拟测试中,得到甲、乙两名学生的6次模拟测试成绩(百分制)的茎叶图.
若从甲、乙两名学生中选择一人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由.
解:学生甲的平均成绩甲==82,
学生乙的平均成绩乙==82,
又s=×[(68-82)2+(76-82)2+(79-82)2+(86-82)2+(88-82)2+(95-82)2]=77,
s=×[(71-82)2+(75-82)2+(82-82)2+(84-82)2+(86-82)2+(94-82)2]=,
则甲=乙,s>s,说明甲、乙的平均水平一样,但乙的方差小,即乙发挥更稳定,故可选择学生乙参加知识竞赛.
5.(2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
[0.6,0.7)
频数
1
3
2
4
9
26
5
使用了节水龙头50天的日用水量频数分布表
日用水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
频数
1
5
13
10
16
5
(1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图;
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)
解:(1)频率分布直方图如图所示.
(2)根据频率分布直方图知,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后,日用水量小于0.35 m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为
1=×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后50天日用水量的平均数为
2=×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
[课时跟踪检测]
1.(2019·福州质检)下面抽样方法是简单随机抽样的是( )
A.从平面直角坐标系中抽取5个点作为样本
B.可口可乐公司从仓库中的1 000箱可乐中一次性抽取20箱进行质量检查
C.某连队从200名战士中,挑选出50名最优秀的战士去参加抢险救灾活动
D.从10个手机中逐个不放回地随机抽取2个进行质量检验(假设10个手机已编号)
解析:选D 平面直角坐标系中有无数个点,这与简单随机抽样中要求总体中的个体数有限不相符,故A错误;一次性抽取不符合简单随机抽样逐个抽取的特点,故B错误;50名战士是最优秀的,不符合简单随机抽样的等可能性,故C错误.故选D.
2.(2019·北大附中期末)某学院A,B,C三个专业共有1 200名学生,为了调查这些学生勤工俭学的情况,拟采用分层抽样的方法抽取一个容量为120的样本,已知该学院的A专业有380名学生,B专业有420名学生,则应在该学院的C专业抽取的学生人数为( )
A.30 B.40
C.50 D.60
解析:选B C专业的学生有1 200-380-420=400名,
由分层抽样知应抽取120×=40名.故选B.
3.从2 015名学生中选取50名学生参加全国数学联赛,若采用下面的方法选取:先用简单随机抽样方法从2 015人中剔除15人,剩下的2 000人再按系统抽样的方法抽取,则每人入选的概率( )
A.不全相等 B.均不相等
C.都相等,且为 D.都相等,且为
解析:选C 因为简单随机抽样和系统抽样都是等可能抽样,从N个个体中抽取M个个体,则每个个体被抽到的概率都等于,故从2 015名学生中选取50名学生参加全国数学联赛,每人入选的概率都相等,且为.故选C.
4.(2019·广西南宁毕业班摸底)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.100,20 B.200,20
C.200,10 D.100,10
解析:选B 由题图甲可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图乙可知高中生的近视率为50%,所以高中生的近视人数为40×50%=20,故选B.
5.(2019·福州质检)某学校共有师生4 000人,现用分层抽样的方法从所有师生中抽取一个容量为200的样本,调查师生对学校食堂餐饮问题的建议,已知从学生中抽取的人数为190,那么该校的教师人数为( )
A.100 B.150
C.200 D.250
解析:选C 设教师人数为x,由题意知:=,解得x=200,故选C.
6.(2019·南昌模拟)我国古代数学名著《九章算术》有“米谷粒分”题:发仓募粮,所募粒中秕不百三则收之(不超过3%),现抽样取米一把,取得235粒米中夹秕n粒,若这批米合格,则n不超过( )
A.6 B.7
C.8 D.9
解析:选B 由题意得,×100%≤3%,解得n≤7.05,所以若这批米合格,
则n不超过7.故选B.
7.某校初三年级有400名学生,随机抽查了40名学生测试1分钟仰卧起坐的成绩(单位:次),将数据整理后绘制成如图所示的频率分布直方图.用样本估计总体,下列结论正确的是( )
A.该校初三学生1分钟仰卧起坐的次数的中位数为25
B.该校初三学生1分钟仰卧起坐的次数的众数为24
C.该校初三学生1分钟仰卧起坐的次数超过30的人数约有80
D.该校初三学生1分钟仰卧起坐的次数少于20的人数约为8
解析:选C 第一组数据的频率为0.02×5=0.1,第二组数据的频率为0.06×5=0.3,第三组数据的频率为0.08×5=0.4,∴中位数在第三组内,设中位数为25+x,则x×0.08=0.5-0.1-0.3=0.1,∴x=1.25,∴中位数为26.25,故A错误.第三组数据所在的矩形最高,第三组数据的中间值为27.5,∴众数为27.5,故B错误.1分钟仰卧起坐的次数超过30的频率为0.04×5=0.2,∴超过30次的人数为400×0.2=80,故C正确.1分钟仰卧起坐的次数少于20的频率为0.02×5=0.1,∴1分钟仰卧起坐的次数少于20的人数为400×0.1=40,故D错误.故选C.
8.(2019·黄陵中学期末)为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄在17~18岁的男生体重(kg),将他们的体重按[54.5,56.5),[56.5,58.5),…,[74.5,76.5]分组,得到的频率分布直方图如图所示.由图可知这100名学生中体重在[56.5,64.5)的学生人数是( )
A.20 B.30
C.40 D.50
解析:选C 由频率分布直方图可得体重在[56.5,64.5)的学生的频率为(0.03+0.05+0.05+0.07)×2=0.4,则这100名学生中体重在[56.5,64.5)的学生人数为100×0.4=40.故选C.
9.(2019·广西五市联考)如图是2018年第一季度五省GDP情况图,则下列陈述正确的是( )
①2018年第一季度GDP总量和增速均居同一位的省只有1个;
②与去年同期相比,2018年第一季度五个省的GDP总量均实现了增长;
③去年同期的GDP总量前三位是D省、B省、A省;
④2017年同期A省的GDP总量也是第三位.
A.①② B.②③④
C.②④ D.①③④
解析:选B ①2018年第一季度GDP总量和增速均居同一位的省有2个,B省和C省的GDP总量和增速分别居第一位和第四位,故①错误;由图知②正确;由图计算2017年同期五省的GDP总量,可知前三位为D省、B省、A省,故③正确;由③知2017年同期A省的GDP总量是第三位,故④正确.故选B.
10.如图是一容量为100的样本重量的频率分布直方图,则由图可估计样本重量的平均数与中位数分别为( )
A.13,12
B.12,12
C.11,11
D.12,11
解析:选B 平均重量为7.5×5×0.06+12.5×5×0.1+17.5×(1-5×0.06-5×0.1)=12,设中位数为x,则(x-10)×0.1=0.5-5×0.06,解得x=12.故选B.
11.(2019·榆林二中模拟)某学校为了调查学生在学科教辅书方面的支出情况,抽出了一个容量为n的样本,其频率分布直方图如图所示,其中支出的钱数在[30,40)的同学比支出的钱数在[10,20)的同学多26人,则n的值为________.
解析:由频率分布直方图可得支出的钱数在[30,40)的同学有0.038×10n=0.38n个,支出的钱数在[10,20)的同学有0.012×10n=0.12n个,又支出的钱数在[30,40)的同学比支出的钱数在[10,20)的同学多26人,所以0.38n-0.12n=0.26n=26,解得n=100.
答案:100
12.(2019·河南高三联考)某班学生A,B在高三8次月考的化学成绩用茎叶图表示如图,其中学生A的平均成绩与学生B的成绩的众数相等,则m=________.
解析:由题意,得=84,解得m=5.
答案:5
13.(2019·沈阳期末联考)为了了解2 000名学生的学习情况,计划采用系统抽样的方法从全体学生中抽取容量为100的样本,若第一组抽出的号码为11,则第五组抽出的号码为________.
解析:采用系统抽样的方法从2 000名学生中抽取容量为100的样本,则先分成100组,每组20人,即号码间隔为20,若第一组抽出的号码为11,则第五组抽出的号码为11+20×(5-1)=91.
答案:91
14.为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________.
解析:设5个数据分别为x1,x2,x3,x4,x5.∵平均数为7,∴=7.又∵样本方差为4,∴4=[(x1-7)2+(x2-7)2+…+(x5-7)2],∴20=x+x+x+x+x-2×7×(x1+x2+x3+x4+x5)+72×5,∴x+x+x+x+x=265.又∵42+62+72+82+102=265,∴样本数据中的最大值为10.
答案:10
15.(2019·湖南长郡中学选拔考试)据了解,大学英语四级改革的一项重要内容就是总分改为710分,每个考生会有一个成绩,不再颁发“合格证”,这也意味着,不再有“及格”一说.大学英语四级考试成绩在425分及以上的考生可以报考大学英语六级考试,英语四级成绩在550分及以上的考生可以报考口语考试.如图是从某大学数学专业40人的英语四级成绩中随机抽取8人的成绩的茎叶图.
(1)通过这8人的英语四级成绩估计该大学数学专业英语四级考试成绩的平均数和中位数;
(2)在这8人中,从可以报考大学英语六级考试的学生中任取2人,求这2人都可以报考口语考试的概率.
解:(1)这8人的英语四级成绩的平均数为(386+410+450+485+520+564+575+610)÷8=500(分),这8人的英语四级成绩的中位数为(485+520)÷2=502.5(分),由此可估计该大学数学专业英语四级考试成绩的平均数为500分,中位数为502.5分.
(2)设可以报考大学英语六级考试但不能报考口语的3人为A1,A2,A3,可以报考口语的3人为B1,B2,B3,从这6人中任取2人,全部情况为(A1,A2),(A1,A3),(A1,B1),(A1,B2),(A1,B3),(A2,A3),(A2,B1),(A2,B2),(A2,B3),(A3,B1),(A3,B2),(A3,B3),(B1,B2),(B1,B3),(B2,B3),共15种.这2人都可以报考口语考试的情况为(B1,B2),(B1,B3),(B2,B3),共3种,则这2人都可以报考口语考试的概率P==.
16.(2019·新乡一模)为了了解甲、乙两个工厂生产的轮胎的宽度是否达标,从两厂各随机选取了10个轮胎,将每个轮胎的宽度(单位:mm)记录下来并绘制出如下的折线图:
(1)分别计算甲、乙两厂提供的10个轮胎宽度的平均值;
(2)若轮胎的宽度在[194,196]内,则称这个轮胎是标准轮胎.试比较甲、乙两厂分别提供的10个轮胎中所有标准轮胎宽度的方差的大小,根据两厂的标准轮胎宽度的平均水平及其波动情况,判断这两个工厂哪个的轮胎相对更好.
解:(1)甲厂10个轮胎宽度的平均值:
甲=×(195+194+196+193+194+197+196+195+193+197)=195(mm),
乙厂10个轮胎宽度的平均值:
乙=×(195+196+193+192+195+194+195+192+195+193)=194(mm).
(2)甲厂10个轮胎中宽度在[194,196]内的数据为195,194,196,194,196,195,
平均数:1=×(195+194+196+194+196+195)=195,
方差:s=×[(195-195)2+(194-195)2+(196-195)2+(194-195)2+(196-195)2+(195-195)2]=,
乙厂10个轮胎中宽度在[194,196]内的数据为195,196,195,194,195,195,
平均数:2=×(195+196+195+194+195+195)=195,
方差:s=×[(195-195)2+(196-195)2+(195-195)2+(194-195)2+(195-195)2+(195-195)2]=,
∵两厂标准轮胎宽度的平均数相等,但乙厂的方差更小,
∴乙厂的轮胎相对更好.
相关资料
更多