


还剩15页未读,
继续阅读
所属成套资源:2020数学(文)二轮专题精品教案
成套系列资料,整套一键下载
2020数学(文)二轮教师用书:第2部分专题3第2讲 统计与统计案例
展开
第2讲 统计与统计案例
[做小题——激活思维]s
1.采用系统抽样的方法从800人中抽取40人参加某种测试,为此将800人随机编号为1,2,…,800,分组后在第一组采用简单随机抽样的方法抽到的号码为18,在抽到的40人中,编号落入区间[1,200]的人做试卷A,编号落入区间[201,560]的人做试卷B,其余的人做试卷C,则做试卷C的人数为( )
A.10 B.12 C.18 D.28
[答案] B
2.某校有高级教师26人,中级教师104人,其他教师若干人,现按分层抽样的方法从该校的所有教师中抽取56人进行某项调查,已知从其他教师中共抽取了16人,则该校共有教师人数为 ( )
A.81 B.152 C.182 D.202
[答案] C
3.为了参加端午节龙舟赛,某龙舟队进行了6次测试,测得最大速度(单位:m/s)的茎叶图如图所示,则6次测试的最大速度的平均数为________m/s,方差为________.
[答案] 33
4.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据,第i次试验零件个数xi(单位:个)与加工零件所花费时间yi(单位:小时)的数据资料,算得xi=80,yi=20,xiyi=184,x=720,那么加工零件所花费时间y对零件个数x的线性回归方程为________.
=0.3x-0.4 [由题意知
n=10,=xi==8,=yi==2,
又x-n =720-10×82=80,
xiyi-n =184-10×8×2=24,
由此得==0.3,=- =2-0.3×8=-0.4,
故所求回归方程为=0.3x-0.4.]
5.在西非“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:
感染
未感染
总计
服用
10
40
50
未服用
20
30
50
总计
30
70
100
附表:
P(K2≥k0)
0.10
0.05
0.025
k0
2.706
3.841
5.024
参照附表,在犯错误的概率不超过________的前提下,认为“小动物是否被感染与服用疫苗有关”.
0.05 [由题意算得,
K2=≈4.762>3.841,
参照附表,可得:
在犯错误的概率不超过0.05的前提下,认为“小动物是否被感染与服用疫苗有关”.]
[扣要点——查缺补漏]
1.随机抽样
简单随机抽样的特点是逐个抽取,适用于总体个数较少的情况;系统抽样也称等距抽样,适用总体个数较多的情况,如T1;分层抽样一定要注意按比例抽取,总体由差异明显的几部分组成,如T2.
2.统计图表和样本数字特征
(1)由频率分布直方图进行相关计算时,需掌握关系式:=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
(2)总体估计的方法:用样本的数字特征估计总体的数字特征.
(3)图表判断法:若根据统计图表比较样本数据的大小,可根据数据的分布情况直观分析,大致判断平均数的范围,并利用数据的波动性大小比较方差(标准差)的大小.如T3.
3.统计案例
(1)线性回归方程问题的两个要点:样本点的中心在回归直线上;由线性回归方程求出的数值是估计值.如T4.
(2)独立性检验的关键在于准确求出K2值,然后对比临界值表中的数据,最后下结论.如T5.
抽样方法(5年2考)
1.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
切入点:不同年龄段客户对其服务的评价有较大差异.
关键点:正确掌握三种抽样方法的特点及适用条件.
分层抽样 [因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价.]
2.(2019·全国卷Ⅰ)某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是( )
A.8号学生 B.200号学生
C.616号学生 D.815号学生
切入点:①系统抽样;②46号学生被抽到.
关键点:正确掌握系统抽样的概念.
C [根据题意,系统抽样是等距抽样,
所以抽样间隔为=10.
因为46除以10余6,所以抽到的号码都是除以10余6的数,结合选项知应为616.
故选C.]
系统抽样和分层抽样中的计算
(1)系统抽样
①总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).
②若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为.
(2)分层抽样
按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.
1.(系统抽样)某班共有52人,现根据学生的学号,用系统抽样的方法抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一名学生的学号是( )
A.10 B.11 C.12 D.16
D [从被抽中的3名学生的学号可以看出学号间距为13,所以样本中还有一名学生的学号是16,故选D.]
2.(分层抽样)某商场有四类食品,食品类别和种数见下表:
类别
粮食类
植物油类
动物性食品类
果蔬类
种数
40
10
30
20
现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样方法抽取样本,则抽取的植物油类与果蔬类食品种数之和为________.
6 [因为粮食类种数∶植物油类种数∶动物性食品类种数∶果蔬类种数=40∶10∶30∶20=4∶1∶3∶2,所以根据分层抽样的定义可知,抽取的植物油类食品种数为×20=2,抽取的果蔬类食品种数为×20=4,所以抽取的植物油类与果蔬类食品种数之和为2+4=6.]
3.(简单随机抽样)“双色球”彩票中红色球的号码由编号为01,02,…,33的33个个体组成,一位彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为________.
49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 64
57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
02 [从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02.]
4.(分层抽样与统计图表的综合)某企业三月中旬生产A、B、C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:
产品类别
A
B
C
产品数量(件)
1 300
样本容量(件)
130
由于不小心,表格中A、C产品的有关数据已被损坏,统计员记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C产品的数量是________.
800 [设样本的总容量为x,则×1 300=130,∴x=300.∴A产品和C产品在样本中共有300-130=170(件),设C产品的样本容量为y,则y+y+10=170,∴y=80,∴C产品的数量为×80=800.]
用样本估计总体(5年10考)
[高考解读] 高考对该部分内容的考查常涉及频率分布表、茎叶图、频率分布直方图等,是高考的重点和热点.涉及的样本数字特征主要有平均数、众数、中位数和方差,难度不大,多为基础题.
1.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
切入点:①建设前经济收入构成比例;
②建设后经济收入构成比例.
关键点:从图表中正确提取有用信息.
A [设新农村建设前经济收入的总量为x,则新农村建设后经济收入的总量为2x.
建设前种植收入为0.6x,建设后种植收入为0.74x,故A不正确;
建设前其他收入为0.04x,建设后其他收入为0.1x,故B正确;
建设前养殖收入为0.3x,建设后养殖收入为0.6x,故C正确;
建设后养殖收入与第三产业收入的总和占建设后经济收入总量的58%,故D正确.]
2.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
切入点:2014年1月至2016年12月期间月接待游客量的数据.
关键点:从折线图中准确提取信息.
A [对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;
对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;
对于选项C,D,由图可知显然正确.
故选A.]
3.(2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组
[-0.20,0)
[0,0.20)
[0.20,0.40)
[0.40,0.60)
[0.60,0.80)
企业数
2
24
53
14
7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:≈8.602.
切入点:频数分布表.
关键点:正确应用平均数与标准差的计算方法.
[解] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为=0.21.
产值负增长的企业频率为=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)=×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=ni(yi-)2
=×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]
=0.029 6,
s==0.02×≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
1.方差的计算与含义
(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.
(2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.
2.从频率分布直方图中得出有关数据的方法
频率
频率分布直方图中横轴表示组数,纵轴表示,频率=组距×
频率比
频率分布直方图中各小长方形的面积之和为1,各小长方形高的比也就是频率比
众数
最高小长方形底边中点的横坐标
中位数
平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标
平均数
频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和
1.(频率分布折线图、众数)某同学将全班某次数学考试成绩整理成频率分布直方图后,并将每个小矩形上方线段的中点连接起来得到频率分布折线图(如图所示).据此估计此次考试成绩的众数是( )
A.100 B.110 C.115 D.120
C [众数是一组数据出现次数最多的数,结合题中频率分布折线图可以看出,数据“115”对应的纵坐标最大,所以相应的频率最大,频数最大,据此估计此次考试成绩的众数是115.]
2.(频率分布直方图)某校为了解学生平均每周的上网时间(单位;h),从高一年级1 000名学生中随机抽取100名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1∶3∶5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为( )
A.200 B.240 C.400 D.480
C [设频率分布直方图中从左到右前3个小矩形的面积分别为P,3P,5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)×2=0.1.因为频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即P=0.1.所以平均每周上网时间少于4 h的学生所占比例为P+3P=0.4,人数为0.4×1 000=400.]
3.(茎叶图、平均数、方差)甲、乙两名学生在5次数学考试中的成绩统计如图所示,若甲,乙分别表示甲、乙两人的平均成绩,则下列结论正确的是( )
A.甲>乙,乙比甲稳定
B.甲>乙,甲比乙稳定
C.甲<乙,乙比甲稳定
D.甲<乙,甲比乙稳定
A [因为甲=×(74+82+88+91+95)=86,
乙=×(77+77+78+86+92)=82,所以甲>乙.
因为s=×[(-12)2+(-4)2+22+52+92]=54,
s=×[(-5)2+(-5)2+(-4)2+42+102]=36.4,所以s>s,故乙比甲稳定.故选A.]
4.(频率分布直方图、均值的应用)为检查某工厂所生产的8万台电风扇的质量,抽查了其中20台的无故障连续使用时限(单位:小时)如下:
248 256 232 243 188 268 278 266 289 312
274 296 288 302 295 228 287 217 329 283
(1)完成下面的频率分布表,并作出频率分布直方图;
(2)估计8万台电风扇中有多少台无故障连续使用时限不低于280小时;
(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时限.
分组
频数
频率
频率/组距
[180,200)
[200,220)
[220,240)
[240,260)
[260,280)
[280,300)
[300,320)
[320,340]
合计
0.05
[解] (1)频率分布表及频率分布直方图如下所示:
分组
频数
频率
频率/组距
[180,200)
1
0.05
0.002 5
[200,220)
1
0.05
0.002 5
[220,240)
2
0.10
0.005 0
[240,260)
3
0.15
0.007 5
[260,280)
4
0.20
0.010 0
[280,300)
6
0.30
0.015 0
[300,320)
2
0.10
0.005 0
[320,340)
1
0.05
0.002 5
合计
20
1.00
0.05
(2)由题意可得8×(0.30+0.10+0.05)=3.6,所以估计8万台电风扇中有3.6万台无故障持续使用时限不低于280小时.
(3)由频率分布直方图可知
=190×0.05+210×0.05+230×0.10+250×0.15+270×0.20+290×0.30+310×0.10+330×0.05=269(小时),所以样本的平均无故障连续使用时限为269小时.
统计案例(5年6考)
[高考解读] 应用回归分析与独立性检验思想方法解决简单实际问题的能力是高考考查的重点,试题强调应用性,以实际问题为背景,构建数学模型,突出考查考生的数据处理能力和应用意识.
角度一:回归分析的应用
1.(2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得=xi=9.97,s==≈0.212,≈18.439, (xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数r=,≈0.09.
切入点:相关系数r和标准差s的计算公式.
关键点:题意的理解及数据的准确计算.
[解] (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数
r=≈≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)(i)由于=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.
(ⅱ)剔除离群值,即第13个数据,剩下数据的平均数为
(16×9.97-9.22)=10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
x≈16×0.2122+16×9.972≈1 591.134,
剔除第13个数据,剩下数据的样本方差为
(1 591.134-9.222-15×10.022)≈0.008,
这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.
角度二:独立性检验的应用
2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
切入点:茎叶图中的数据.
关键点:根据茎叶图中的数据的集中程度作出效率高低的判断;通过茎叶图确定中位数,并完成2×2列联表,将数据代入公式计算.
[解] (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,答出其中任意一种或其他合理理由均可.)
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
1.求线性回归方程的步骤
(1)计算,;
(2)计算xiyi,x;
(3)计算==,=-;
(4)写出线性回归方程=x+.
注意:样本点的中心(,)必在回归直线上.
2.相关系数r
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验问题的常见类型及解题策略
(1)已知分类变量的数据,判断两个分类变量的相关性,可依据数据及公式计算K2,然后作出判断;
(2)独立性检验与概率统计的综合问题,关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解.
1.(线性回归分析)某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如表:
x
1
2
3
4
y
12
28
42
56
(1)在图中画出表中数据的散点图;
(2)根据散点图选择合适的回归模型拟合y与x的关系(不必说明理由);
(3)根据y关于x的回归方程,预测第5年的销售量.
参考公式:回归直线的斜率和截距的最小二乘法估计分别为
==,=- .
[解] (1)作出的散点图如图:
(2)根据散点图观察,可以用线性回归模型拟合y与x的关系.观察散点图可知各点大致分布在一条直线附近,列出表格:
x
y
x2
xy
1
1
12
1
12
2
2
28
4
56
3
3
42
9
126
4
4
56
16
224
∑
10
138
30
418
可得=,=,
所以===,
=-=-×=-2.
故回归直线方程为=x-2.
(3)当x=5时,=×5-2=71.
故预测第5年的销售量为71万件.
2.(直方图与统计案例的综合问题)“黄梅时节家家雨”“梅雨如烟暝村树”“梅雨暂收斜照明”……江南梅雨的点点滴滴都流润着浓烈的诗情.每年六、七月份,我国长江中下游地区进入持续25天左右的梅雨季节,如图是江南Q镇2009~2018年梅雨季节的降雨量(单位:mm)的频率分布直方图,试用样本频率估计总体概率,解答下列问题:
(1)“梅实初黄暮雨深”,请用样本平均数估计Q镇明年梅雨季节的降雨量;
(2)“江南梅雨无限愁”,Q镇的杨梅种植户老李也在犯愁,他过去种植的甲品种杨梅,亩产量受降雨量的影响较大(把握超过八成),而乙品种杨梅2009~2018年的亩产量(单位:kg)与降雨量的发生频数(年)如2×2列联表所示(部分数据缺失),请你帮助老李排解忧愁,他来年应该种植哪个品种的杨梅受降雨量影响更小?(完善列联表,并说明理由)
降雨量
亩产量
[200,400)
[100,200)∪[400,500]
合计
<600
2
≥600
1
合计
10
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
[解] (1)频率分布直方图中第四组的频率为1-100×(0.002+0.004+0.003)=0.1.
所以用样本平均数估计Q镇明年梅雨季节的降雨量为
150×0.2+250×0.4+350×0.3+450×0.1=30+100+105+45=280(mm).
(2)根据频率分布直方图可知,降雨量在[200,400)内的频数为10×100×(0.003+0.004)=7.
进而完善列联表如下.
降雨量
亩产量
[200,400)
[100,200)∪[400,500]
合计
<600
2
2
4
≥600
5
1
6
合计
7
3
10
K2==≈1.270<1.323.
故认为乙品种杨梅的亩产量与降雨量有关的把握不足75%.
而甲品种杨梅受降雨量影响的把握超过八成,故老李来年应该种植乙品种杨梅受降雨量影响更小.
第2讲 统计与统计案例
[做小题——激活思维]s
1.采用系统抽样的方法从800人中抽取40人参加某种测试,为此将800人随机编号为1,2,…,800,分组后在第一组采用简单随机抽样的方法抽到的号码为18,在抽到的40人中,编号落入区间[1,200]的人做试卷A,编号落入区间[201,560]的人做试卷B,其余的人做试卷C,则做试卷C的人数为( )
A.10 B.12 C.18 D.28
[答案] B
2.某校有高级教师26人,中级教师104人,其他教师若干人,现按分层抽样的方法从该校的所有教师中抽取56人进行某项调查,已知从其他教师中共抽取了16人,则该校共有教师人数为 ( )
A.81 B.152 C.182 D.202
[答案] C
3.为了参加端午节龙舟赛,某龙舟队进行了6次测试,测得最大速度(单位:m/s)的茎叶图如图所示,则6次测试的最大速度的平均数为________m/s,方差为________.
[答案] 33
4.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据,第i次试验零件个数xi(单位:个)与加工零件所花费时间yi(单位:小时)的数据资料,算得xi=80,yi=20,xiyi=184,x=720,那么加工零件所花费时间y对零件个数x的线性回归方程为________.
=0.3x-0.4 [由题意知
n=10,=xi==8,=yi==2,
又x-n =720-10×82=80,
xiyi-n =184-10×8×2=24,
由此得==0.3,=- =2-0.3×8=-0.4,
故所求回归方程为=0.3x-0.4.]
5.在西非“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:
感染
未感染
总计
服用
10
40
50
未服用
20
30
50
总计
30
70
100
附表:
P(K2≥k0)
0.10
0.05
0.025
k0
2.706
3.841
5.024
参照附表,在犯错误的概率不超过________的前提下,认为“小动物是否被感染与服用疫苗有关”.
0.05 [由题意算得,
K2=≈4.762>3.841,
参照附表,可得:
在犯错误的概率不超过0.05的前提下,认为“小动物是否被感染与服用疫苗有关”.]
[扣要点——查缺补漏]
1.随机抽样
简单随机抽样的特点是逐个抽取,适用于总体个数较少的情况;系统抽样也称等距抽样,适用总体个数较多的情况,如T1;分层抽样一定要注意按比例抽取,总体由差异明显的几部分组成,如T2.
2.统计图表和样本数字特征
(1)由频率分布直方图进行相关计算时,需掌握关系式:=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
(2)总体估计的方法:用样本的数字特征估计总体的数字特征.
(3)图表判断法:若根据统计图表比较样本数据的大小,可根据数据的分布情况直观分析,大致判断平均数的范围,并利用数据的波动性大小比较方差(标准差)的大小.如T3.
3.统计案例
(1)线性回归方程问题的两个要点:样本点的中心在回归直线上;由线性回归方程求出的数值是估计值.如T4.
(2)独立性检验的关键在于准确求出K2值,然后对比临界值表中的数据,最后下结论.如T5.
抽样方法(5年2考)
1.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
切入点:不同年龄段客户对其服务的评价有较大差异.
关键点:正确掌握三种抽样方法的特点及适用条件.
分层抽样 [因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价.]
2.(2019·全国卷Ⅰ)某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是( )
A.8号学生 B.200号学生
C.616号学生 D.815号学生
切入点:①系统抽样;②46号学生被抽到.
关键点:正确掌握系统抽样的概念.
C [根据题意,系统抽样是等距抽样,
所以抽样间隔为=10.
因为46除以10余6,所以抽到的号码都是除以10余6的数,结合选项知应为616.
故选C.]
系统抽样和分层抽样中的计算
(1)系统抽样
①总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).
②若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为.
(2)分层抽样
按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.
1.(系统抽样)某班共有52人,现根据学生的学号,用系统抽样的方法抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一名学生的学号是( )
A.10 B.11 C.12 D.16
D [从被抽中的3名学生的学号可以看出学号间距为13,所以样本中还有一名学生的学号是16,故选D.]
2.(分层抽样)某商场有四类食品,食品类别和种数见下表:
类别
粮食类
植物油类
动物性食品类
果蔬类
种数
40
10
30
20
现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样方法抽取样本,则抽取的植物油类与果蔬类食品种数之和为________.
6 [因为粮食类种数∶植物油类种数∶动物性食品类种数∶果蔬类种数=40∶10∶30∶20=4∶1∶3∶2,所以根据分层抽样的定义可知,抽取的植物油类食品种数为×20=2,抽取的果蔬类食品种数为×20=4,所以抽取的植物油类与果蔬类食品种数之和为2+4=6.]
3.(简单随机抽样)“双色球”彩票中红色球的号码由编号为01,02,…,33的33个个体组成,一位彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为________.
49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 64
57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
02 [从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02.]
4.(分层抽样与统计图表的综合)某企业三月中旬生产A、B、C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:
产品类别
A
B
C
产品数量(件)
1 300
样本容量(件)
130
由于不小心,表格中A、C产品的有关数据已被损坏,统计员记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C产品的数量是________.
800 [设样本的总容量为x,则×1 300=130,∴x=300.∴A产品和C产品在样本中共有300-130=170(件),设C产品的样本容量为y,则y+y+10=170,∴y=80,∴C产品的数量为×80=800.]
用样本估计总体(5年10考)
[高考解读] 高考对该部分内容的考查常涉及频率分布表、茎叶图、频率分布直方图等,是高考的重点和热点.涉及的样本数字特征主要有平均数、众数、中位数和方差,难度不大,多为基础题.
1.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
切入点:①建设前经济收入构成比例;
②建设后经济收入构成比例.
关键点:从图表中正确提取有用信息.
A [设新农村建设前经济收入的总量为x,则新农村建设后经济收入的总量为2x.
建设前种植收入为0.6x,建设后种植收入为0.74x,故A不正确;
建设前其他收入为0.04x,建设后其他收入为0.1x,故B正确;
建设前养殖收入为0.3x,建设后养殖收入为0.6x,故C正确;
建设后养殖收入与第三产业收入的总和占建设后经济收入总量的58%,故D正确.]
2.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
切入点:2014年1月至2016年12月期间月接待游客量的数据.
关键点:从折线图中准确提取信息.
A [对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;
对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;
对于选项C,D,由图可知显然正确.
故选A.]
3.(2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组
[-0.20,0)
[0,0.20)
[0.20,0.40)
[0.40,0.60)
[0.60,0.80)
企业数
2
24
53
14
7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:≈8.602.
切入点:频数分布表.
关键点:正确应用平均数与标准差的计算方法.
[解] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为=0.21.
产值负增长的企业频率为=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)=×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=ni(yi-)2
=×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]
=0.029 6,
s==0.02×≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
1.方差的计算与含义
(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.
(2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.
2.从频率分布直方图中得出有关数据的方法
频率
频率分布直方图中横轴表示组数,纵轴表示,频率=组距×
频率比
频率分布直方图中各小长方形的面积之和为1,各小长方形高的比也就是频率比
众数
最高小长方形底边中点的横坐标
中位数
平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标
平均数
频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和
1.(频率分布折线图、众数)某同学将全班某次数学考试成绩整理成频率分布直方图后,并将每个小矩形上方线段的中点连接起来得到频率分布折线图(如图所示).据此估计此次考试成绩的众数是( )
A.100 B.110 C.115 D.120
C [众数是一组数据出现次数最多的数,结合题中频率分布折线图可以看出,数据“115”对应的纵坐标最大,所以相应的频率最大,频数最大,据此估计此次考试成绩的众数是115.]
2.(频率分布直方图)某校为了解学生平均每周的上网时间(单位;h),从高一年级1 000名学生中随机抽取100名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1∶3∶5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为( )
A.200 B.240 C.400 D.480
C [设频率分布直方图中从左到右前3个小矩形的面积分别为P,3P,5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)×2=0.1.因为频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即P=0.1.所以平均每周上网时间少于4 h的学生所占比例为P+3P=0.4,人数为0.4×1 000=400.]
3.(茎叶图、平均数、方差)甲、乙两名学生在5次数学考试中的成绩统计如图所示,若甲,乙分别表示甲、乙两人的平均成绩,则下列结论正确的是( )
A.甲>乙,乙比甲稳定
B.甲>乙,甲比乙稳定
C.甲<乙,乙比甲稳定
D.甲<乙,甲比乙稳定
A [因为甲=×(74+82+88+91+95)=86,
乙=×(77+77+78+86+92)=82,所以甲>乙.
因为s=×[(-12)2+(-4)2+22+52+92]=54,
s=×[(-5)2+(-5)2+(-4)2+42+102]=36.4,所以s>s,故乙比甲稳定.故选A.]
4.(频率分布直方图、均值的应用)为检查某工厂所生产的8万台电风扇的质量,抽查了其中20台的无故障连续使用时限(单位:小时)如下:
248 256 232 243 188 268 278 266 289 312
274 296 288 302 295 228 287 217 329 283
(1)完成下面的频率分布表,并作出频率分布直方图;
(2)估计8万台电风扇中有多少台无故障连续使用时限不低于280小时;
(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时限.
分组
频数
频率
频率/组距
[180,200)
[200,220)
[220,240)
[240,260)
[260,280)
[280,300)
[300,320)
[320,340]
合计
0.05
[解] (1)频率分布表及频率分布直方图如下所示:
分组
频数
频率
频率/组距
[180,200)
1
0.05
0.002 5
[200,220)
1
0.05
0.002 5
[220,240)
2
0.10
0.005 0
[240,260)
3
0.15
0.007 5
[260,280)
4
0.20
0.010 0
[280,300)
6
0.30
0.015 0
[300,320)
2
0.10
0.005 0
[320,340)
1
0.05
0.002 5
合计
20
1.00
0.05
(2)由题意可得8×(0.30+0.10+0.05)=3.6,所以估计8万台电风扇中有3.6万台无故障持续使用时限不低于280小时.
(3)由频率分布直方图可知
=190×0.05+210×0.05+230×0.10+250×0.15+270×0.20+290×0.30+310×0.10+330×0.05=269(小时),所以样本的平均无故障连续使用时限为269小时.
统计案例(5年6考)
[高考解读] 应用回归分析与独立性检验思想方法解决简单实际问题的能力是高考考查的重点,试题强调应用性,以实际问题为背景,构建数学模型,突出考查考生的数据处理能力和应用意识.
角度一:回归分析的应用
1.(2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得=xi=9.97,s==≈0.212,≈18.439, (xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数r=,≈0.09.
切入点:相关系数r和标准差s的计算公式.
关键点:题意的理解及数据的准确计算.
[解] (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数
r=≈≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)(i)由于=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.
(ⅱ)剔除离群值,即第13个数据,剩下数据的平均数为
(16×9.97-9.22)=10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
x≈16×0.2122+16×9.972≈1 591.134,
剔除第13个数据,剩下数据的样本方差为
(1 591.134-9.222-15×10.022)≈0.008,
这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.
角度二:独立性检验的应用
2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
切入点:茎叶图中的数据.
关键点:根据茎叶图中的数据的集中程度作出效率高低的判断;通过茎叶图确定中位数,并完成2×2列联表,将数据代入公式计算.
[解] (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,答出其中任意一种或其他合理理由均可.)
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
1.求线性回归方程的步骤
(1)计算,;
(2)计算xiyi,x;
(3)计算==,=-;
(4)写出线性回归方程=x+.
注意:样本点的中心(,)必在回归直线上.
2.相关系数r
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验问题的常见类型及解题策略
(1)已知分类变量的数据,判断两个分类变量的相关性,可依据数据及公式计算K2,然后作出判断;
(2)独立性检验与概率统计的综合问题,关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解.
1.(线性回归分析)某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如表:
x
1
2
3
4
y
12
28
42
56
(1)在图中画出表中数据的散点图;
(2)根据散点图选择合适的回归模型拟合y与x的关系(不必说明理由);
(3)根据y关于x的回归方程,预测第5年的销售量.
参考公式:回归直线的斜率和截距的最小二乘法估计分别为
==,=- .
[解] (1)作出的散点图如图:
(2)根据散点图观察,可以用线性回归模型拟合y与x的关系.观察散点图可知各点大致分布在一条直线附近,列出表格:
x
y
x2
xy
1
1
12
1
12
2
2
28
4
56
3
3
42
9
126
4
4
56
16
224
∑
10
138
30
418
可得=,=,
所以===,
=-=-×=-2.
故回归直线方程为=x-2.
(3)当x=5时,=×5-2=71.
故预测第5年的销售量为71万件.
2.(直方图与统计案例的综合问题)“黄梅时节家家雨”“梅雨如烟暝村树”“梅雨暂收斜照明”……江南梅雨的点点滴滴都流润着浓烈的诗情.每年六、七月份,我国长江中下游地区进入持续25天左右的梅雨季节,如图是江南Q镇2009~2018年梅雨季节的降雨量(单位:mm)的频率分布直方图,试用样本频率估计总体概率,解答下列问题:
(1)“梅实初黄暮雨深”,请用样本平均数估计Q镇明年梅雨季节的降雨量;
(2)“江南梅雨无限愁”,Q镇的杨梅种植户老李也在犯愁,他过去种植的甲品种杨梅,亩产量受降雨量的影响较大(把握超过八成),而乙品种杨梅2009~2018年的亩产量(单位:kg)与降雨量的发生频数(年)如2×2列联表所示(部分数据缺失),请你帮助老李排解忧愁,他来年应该种植哪个品种的杨梅受降雨量影响更小?(完善列联表,并说明理由)
降雨量
亩产量
[200,400)
[100,200)∪[400,500]
合计
<600
2
≥600
1
合计
10
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
[解] (1)频率分布直方图中第四组的频率为1-100×(0.002+0.004+0.003)=0.1.
所以用样本平均数估计Q镇明年梅雨季节的降雨量为
150×0.2+250×0.4+350×0.3+450×0.1=30+100+105+45=280(mm).
(2)根据频率分布直方图可知,降雨量在[200,400)内的频数为10×100×(0.003+0.004)=7.
进而完善列联表如下.
降雨量
亩产量
[200,400)
[100,200)∪[400,500]
合计
<600
2
2
4
≥600
5
1
6
合计
7
3
10
K2==≈1.270<1.323.
故认为乙品种杨梅的亩产量与降雨量有关的把握不足75%.
而甲品种杨梅受降雨量影响的把握超过八成,故老李来年应该种植乙品种杨梅受降雨量影响更小.
相关资料
更多