2023北京高考数学一轮复习之:11.4统计
展开11.4 统计
基础篇 固本夯基
考点一 随机抽样
1.(2022届通州期中,4)某单位有男职工56人,女职工42人,按性别分层,用分层随机抽样的方法从全体职工中抽出一个样本,如果样本按比例分配,抽取的男职工人数为16,则抽取的女职工人数为( )
A.12 B.20 C.24 D.28
答案 A
2.(2015北京文,4,5分)某校老年、中年和青年教师的人数见下表.采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )
类别
人数
老年教师
900
中年教师
1 800
青年教师
1 600
合计
4 300
A.90 B.100
C.180 D.300
答案 C
3.(2022届房山开学考试,3)某中学高一、高二和高三各年级人数见下表.采用分层随机抽样的方法调查学生的视力状况,在抽取的样本中,高二年级有20人,那么该样本中高三年级的人数为( )
年级
人数
高一
550
高二
500
高三
m
合计
1 500
A.16 B.18 C.22 D.40
答案 B
4.(2017江苏,3,5分)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取 件.
答案 18
5.(2018天津文,15,13分)已知某校甲、乙、丙三个年级的学生志愿者人数分别为240,160,160.现采用分层抽样的方法从中抽取7名同学去某敬老院参加献爱心活动.
(1)应从甲、乙、丙三个年级的学生志愿者中分别抽取多少人?
(2)设抽出的7名同学分别用A,B,C,D,E,F,G表示,现从中随机抽取2名同学承担敬老院的卫生工作.
①试用所给字母列举出所有可能的抽取结果;
②设M为事件“抽取的2名同学来自同一年级”,求事件M发生的概率.
解析 (1)由已知,甲、乙、丙三个年级的学生志愿者人数之比为3∶2∶2,由于采用分层抽样的方法从中抽取7名同学,因此应从甲、乙、丙三个年级的学生志愿者中分别抽取3人,2人,2人.
(2)①从抽出的7名同学中随机抽取2名同学的所有可能结果为{A,B},{A,C},{A,D},{A,E},{A,F},{A,G},{B,C},{B,D},{B,E},{B,F},{B,G},{C,D},{C,E},{C,F},{C,G},{D,E},{D,F},{D,G},{E,F},{E,G},{F,G},共21种.
②由(1),不妨设抽出的7名同学中,来自甲年级的是A,B,C,来自乙年级的是D,E,来自丙年级的是F,G,则从抽出的7名同学中随机抽取的2名同学来自同一年级的所有可能结果为{A,B},{A,C},{B,C},{D,E},{F,G},共5种.所以,事件M发生的概率P(M)=521.
6.(2017北京文,17,13分)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
解析 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4.
所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.
(2)由题图,知样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,
分数在区间[40,50)内的人数为100-100×0.9-5=5.
所以总体中分数在区间[40,50)内的人数估计为400×5100=20.
(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为60×12=30.
所以样本中的男生人数为30×2=60,女生人数为100-60=40,故男生和女生人数的比例为60∶40=3∶2.
所以总体中男生和女生人数的比例估计为3∶2.
7.(2021东城期末,18)为了解果园某种水果产量情况,随机抽取10个水果测量质量(单位:克),样本数据分组为[100,150),[150,200),[200,250),[250,300),[300,350),[350,400],其频率分布直方图如图所示:
(1)用分层随机抽样的方法从样本中质量(单位:克)在[250,300),[300,350)的水果中抽取6个,求质量(单位:克)在[250,300)的水果数量;
(2)从(1)中得到的6个水果中随机抽取3个,记X为质量(单位:克)在[300,350)的水果数量,求X的分布列和数学期望;
(3)果园现有该种水果约20 000个,其等级规格及销售价格如表所示,试估计果园该种水果的销售收入.
质量m(单位:克)
m<200
200≤m<300
m≥300
等级规格
二等
一等
特等
销售价格(元/个)
4
7
10
解析 (1)质量(单位:克)在[250,300),[300,350)的水果的频率分别为0.008×50=0.4,0.004×50=0.2,其比为2∶1,
所以用分层随机抽样的方法从质量(单位:克)在[250,300),[300,350)的这种水果中随机抽取6个,质量(单位:克)在[250,300)的水果有4个.
(2)由(1)可知,抽取的6个水果中有2个质量(单位:克)在[300,350)内,所以X的所有可能取值为0,1,2,
P(X=0)=C43C63=15,P(X=1)=C42C21C63=35,P(X=2)=C41C22C63=15,
所以X的分布列为
X
0
1
2
P
15
35
15
所以E(X)=0×15+1×35+2×15=1.
(3)二等品的频率为(0.002+0.002)×50=0.2,一等品的频率为(0.003+0.008)×50=0.55,特等品的频率为(0.004+0.001)×50=0.25,则20 000个水果中共有二等品4 000个,一等品11 000个,特等品5 000个,则销售收入约为4 000×4+11 000×7+5 000×10=143 000元.
8.(2021海淀一模,18)每年的4月23日是联合国教科文组织确定的“世界读书日”,又称“世界图书与版权日”.为了解某地区高一学生阅读时间的分配情况,从该地区随机抽取了500名高一学生进行在线调查,得到了这500名学生的日平均阅读时间(单位:小时),并将样本数据分成[0,2],(2,4],(4,6],(6,8],(8,10],(10,12],(12,14],(14,16],(16,18]九组,绘制成如图所示的频率分布直方图.
(1)求a的值;
(2)为进一步了解这500名学生数字媒体阅读时间和纸质图书阅读时间的分配情况,从日平均阅读时间在(12,14],(14,16],(16,18]三组内的学生中,采用分层随机抽样的方法抽取了10人,现从这10人中随机抽取3人,记日平均阅读时间在(14,16]内的学生人数为X,求X的分布列;
(3)以调查结果的频率估计概率,从该地区所有高一学生中随机抽取20名学生,用P20(k)表示这20名学生中恰有k名学生日平均阅读时间在(10,12](单位:小时)内的概率,其中k=0,1,2,…,20.当P20(k)最大时,写出k的值.(只需写出结论)
解析 (1)由频率分布直方图可得:2×(0.02+0.03+0.05+0.05+0.15+a+0.05+0.04+0.01)=1,解得a=0.10.
(2)由频率分布直方图可知,这500名学生中日平均阅读时间在(12,14],(14,16],(16,18]三组内的学生人数分别为500×0.05×2=50,500×0.04×2=40,500×0.01×2=10.
若采用分层随机抽样的方法抽取10人,则从日平均阅读时间在(14,16]内的学生中抽取4050+40+10×10=4人.
现从这10人中随机抽取3人,则X的所有可能取值为0,1,2,3.
P(X=0)=C63C103=16,P(X=1)=C41C62C103=12,
P(X=2)=C42C61C103=310,P(X=3)=C43C103=130.
所以X的分布列为
X
0
1
2
3
P
16
12
310
130
(3)k=4.
考点二 统计图表与样本的数字特征
1.(2022届北京一六六中学10月月考,2)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数
C.方差 D.极差
答案 A
2.(2022届北京十五中10月月考,10)A,B,C,D四名工人一天中生产零件的情况如图所示,每个点的横、纵坐标分别表示该工人一天中生产的Ⅰ型、Ⅱ型零件数,则下列说法错误的是( )
A.四个工人中,D的日生产零件总数最大
B.A,B日生产零件总数之和小于C,D日生产零件总数之和
C.A,B日生产Ⅰ型零件总数之和小于Ⅱ型零件总数之和
D.A,B,C,D日生产Ⅰ型零件总数之和小于Ⅱ型零件总数之和
答案 D
3.(2018课标Ⅰ文,3,5分)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
答案 A
4.(2021房山一模,5)“十三五”期间,我国大力实施就业优先政策,促进居民人均收入持续增长.下面统计图反映了2016—2020年全国居民人均可支配收入(单位:元)情况.根据图中提供的信息,下列判断不正确的是( )
A.2016—2020年,全国居民人均可支配收入每年都超过20 000元
B.2017—2020年,全国居民人均可支配收入均逐年增加
C.根据图中数据估计,2015年全国居民人均可支配收入可能高于20 000元
D.根据图中数据预测,2021年全国居民人均可支配收入一定大于30 000元
答案 D
5.(2020课标Ⅲ文,3,5分)设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为( )
A.0.01 B.0.1
C.1 D.10
答案 C
6.(2020天津,4,5分)从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )
A.10 B.18 C.20 D.36
答案 B
7.(2017课标Ⅰ文,2,5分)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数
B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值
D.x1,x2,…,xn的中位数
答案 B
8.(2021北京十三中开学测试,6)在一段时间内有2 000辆车通过高速公路上的某处,随机抽取其中的200辆进行车速统计,统计结果如下面的频率分布直方图所示.若该处规定正常行驶速度为90 km/h~120 km/h,试估计2 000辆车中,在这段时间内以正常速度通过该处的汽车有( )
A.30辆 B.1 700辆
C.170辆 D.300辆
答案 B
9.(2020江苏,3,5分)已知一组数据4,2a,3-a,5,6的平均数为4,则a的值是 .
答案 2
10.(2018江苏,3,5分)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为 .
8
9 9
9
0 1 1
答案 90
11.(2019江苏,5,5分)已知一组数据6,7,8,8,9,10,则该组数据的方差是 .
答案 53
12.(2022届北京市中关村中学开学测试,12)为了解某校学生的视力情况,现采用随机抽样的方式从该校的A,B两班中各抽4名学生进行视力检测.检测的数据如下:
A班:4.1,4.6,4.4,4.9;
B班:4.9,4.6,4.2,4.5.
(1)分别计算两组数据的平均数,从计算结果看, 班的4名学生视力较好;
(2) 班的4名学生视力方差较大.
答案 (1)B (2)A
13.(2021平谷质量监控,15)从2008年京津城际铁路通车运营开始,高铁在过去几年里快速发展,并在国民经济和日常生活中扮演着日益重要的角色.下图是2009年至2016年高铁运营总里程数的折线图(图中的数据均是每年12月31日的统计结果).
根据上述信息,有下列结论:
①2015年这一年,高铁运营里程数超过0.5万公里;
②2013年到2016年高铁运营里程平均增长率大于2010年到2013年高铁运营里程平均增长率;
③从2010年至2016年,新增高铁运营里程数最多的一年是2014年;
④从2010年至2016年,新增高铁运营里程数逐年递增.
其中所有正确结论的序号是 .
答案 ②③
14.(2022届北京十三中期中,17)某学校组织高一、高二年级学生进行了“庆祝建党100周年”的知识竞赛.从这两个年级各随机抽取了40名学生,对其成绩进行分析,得到了高一年级成绩的频率分布直方图和高二年级成绩的频数分布表.(规定成绩不低于90分为“优秀”)
高一
成绩分组
频数
[75,80)
2
[80,85)
6
[85,90)
16
[90,95)
14
[95,100]
2
高二
(1)估计高一年级知识竞赛成绩的优秀率;
(2)将成绩位于某区间的频率作为成绩位于该区间的概率.在高一、高二年级学生中各选出1名学生,记这2名学生中成绩优秀的人数为ξ,求随机变量ξ的分布列;
(3)在高一、高二年级各随机选取1名学生,用X,Y分别表示所选高一、高二年级学生成绩优秀的人数.写出方差DX,DY的大小关系.(只需写出结论)
解析 (1)由频率分布直方图可得这40名高一年级学生的成绩的优秀率为(0.04+0.02)×5=0.3,
所以估计高一年级知识竞赛成绩的优秀率为30%.
(2)由题意知,在高一年级学生中选中成绩优秀学生的概率为0.3,选中成绩不优秀学生的概率为1-0.3=0.7.
在高二年级学生中选中成绩优秀学生的概率为14+240=0.4,选中成绩不优秀学生的概率为1-0.4=0.6.
ξ的所有可能取值为0,1,2,
P(ξ=0)=0.7×0.6=0.42;P(ξ=1)=0.3×0.6+0.7×0.4=0.46;P(ξ=2)=0.3×0.4=0.12.
所以随机变量ξ的分布列为
ξ
0
1
2
P
0.42
0.46
0.12
(3)DX
∴DX=0.3×0.7=0.21,DY=0.6×0.4=0.24,∴DX
单位:元
指标名称
全市居民
城镇居民
2019年一季度
增速(%)
2019年一季度
增速(%)
人均消费支出
10 637
7.4
11 440
7.4
食品烟酒
2 292
8.2
2 401
8.2
衣着
628
0.0
670
-1.0
居住
3 846
5.7
4 200
5.6
生活用品及服务
546
6.8
588
8.3
交通和通信
1 219
11.0
1 303
10.5
教育文化和娱乐
927
10.5
1 020
11.0
医疗保健
874
14.2
920
13.6
其他用品及服务
305
1.0
338
2.7
(1)从全市居民的8类人均消费支出中随机选取1类,求这类人均消费支出超过1 000元的概率;
(2)从城镇居民的8类人均消费支出中随机选取3类,记X表示其中不超过2 000元的类数,求X的分布列及数学期望;
(3)请直接写出这8类人均消费支出中,农村居民人均消费支出增速大于城镇居民人均消费支出增速的类别.
解析 (1)记事件A为从“全市居民的8类人均消费支出中随机选取1类,这类人均消费支出超过1 000元”.
从全市居民的8类人均消费支出中随机选取1类,共有8种等可能的选法,其中有3类人均消费支出超过1 000元,所以P(A)=38.
(2)X的所有可能取值为1,2,3.
P(X=1)=C22C61C83=328,P(X=2)=C21C62C83=1528,
P(X=3)=C63C83=514.
则X的分布列为
X
1
2
3
P
328
1528
514
E(X)=1×328+2×1528+3×514=94.
(3)衣着、居住、交通和通信、医疗保健.
16.(2019课标Ⅱ文,19,12分)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组
[-0.20,0)
[0,0.20)
[0.20,0.40)
[0.40,0.60)
[0.60,0.80)
企业数
2
24
53
14
7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:74≈8.602.
解析 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.
产值负增长的企业频率为2100=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)y=1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=1100∑i=15ni(yi-y)2=1100[2×(-0.40)2+24×(-0.20)2+53×02+14×0.202+7×0.402]=0.029 6,
s=0.029 6=0.02×74≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.
17.(2016北京理,16,13分)A,B,C三个班共有100名学生,为调查他们的体育锻炼情况,通过分层抽样获得了部分学生一周的锻炼时间,数据如下表(单位:小时):
A班
6
6.5
7
7.5
8
B班
6
7
8
9
10
11
12
C班
3
4.5
6
7.5
9
10.5
12
13.5
(1)试估计C班的学生人数;
(2)从A班和C班抽出的学生中,各随机选取一人,A班选出的人记为甲,C班选出的人记为乙.假设所有学生的锻炼时间相互独立,求该周甲的锻炼时间比乙的锻炼时间长的概率;
(3)再从A,B,C三个班中各随机抽取一名学生,他们该周的锻炼时间分别是7,9,8.25(单位:小时).这3个新数据与表格中的数据构成的新样本的平均数记为μ1,表格中数据的平均数记为μ0,试判断μ0和μ1的大小.(结论不要求证明)
解析 (1)由题意知,抽出的20名学生中,来自C班的学生有8名.根据分层抽样方法知,C班的学生人数估计为100×820=40.
(2)设事件Ai为“甲是现有样本中A班的第i个人”,i=1,2,…,5,
事件Cj为“乙是现有样本中C班的第j个人”, j=1,2,…,8.
由题意可知,P(Ai)=15,i=1,2,…,5;
P(Cj)=18, j=1,2,…,8.
P(AiCj)=P(Ai)P(Cj)=15×18=140,i=1,2,…,5, j=1,2,…,8.
设事件E为“该周甲的锻炼时间比乙的锻炼时间长”.由题意知,E=A1C1∪A1C2∪A2C1∪A2C2∪A2C3∪A3C1∪A3C2∪A3C3∪A4C1∪A4C2∪A4C3∪A5C1∪A5C2∪A5C3∪A5C4.
因此P(E)=P(A1C1)+P(A1C2)+P(A2C1)+P(A2C2)+P(A2C3)+P(A3C1)+P(A3C2)+P(A3C3)+P(A4C1)+P(A4C2)+P(A4C3)+P(A5C1)+P(A5C2)+P(A5C3)+P(A5C4)=15×140=38.
(3)μ1<μ0.
思路分析 (1)利用分层抽样的特征求出C班的学生人数;(2)先找出甲、乙所有可能的搭配方式,再找出符合条件的搭配方式,其实质是古典概型;(3)将从A,B,C三个班中抽取的样本数据分别与该班的平均数比较,进而作判断.
18.(2016北京文,17,13分)某市居民用水拟实行阶梯水价.每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到频率分布直方图如图:
(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?
(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.
解析 (1)由频率分布直方图知,
该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.
所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.
依题意,可得w至少定为3.
(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表:
组号
1
2
3
4
5
6
7
8
分组
[2,4]
(4,6]
(6,8]
(8,10]
(10,12]
(12,17]
(17,22]
(22,27]
频率
0.1
0.15
0.2
0.25
0.15
0.05
0.05
0.05
该市居民该月的人均水费估计为
4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).
19.(2014北京文,18,13分)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:
组号
分组
频数
1
[0,2)
6
2
[2,4)
8
3
[4,6)
17
4
[6,8)
22
5
[8,10)
25
6
[10,12)
12
7
[12,14)
6
8
[14,16)
2
9
[16,18)
2
合计
100
(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;
(2)求频率分布直方图中的a,b的值;
(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组.(只需写出结论)
解析 (1)根据频数分布表知,100名学生中一周课外阅读时间不少于12小时的学生共有6+2+2=10名,所以样本中的学生一周课外阅读时间少于12小时的频率是1-10100=0.9.
故从该校随机选取一名学生,估计其该周课外阅读时间少于12小时的概率为0.9.
(2)课外阅读时间落在[4,6)内的有17人,频率为0.17,所以a=频率组距=0.172=0.085.
课外阅读时间落在[8,10)内的有25人,频率为0.25,所以b=频率组距=0.252=0.125.
(3)样本中的100名学生该周课外阅读时间的平均数在第4组.
综合篇 知能转换
考法一 用频率分布直方图估计样本的数字特征
1.(2021全国甲理,2,5分)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是 ( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
答案 C
2.(2019课标Ⅲ理,17,12分)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
解析 (1)由已知得0.70=a+0.20+0.15,故a=0.35.b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
方法总结 由频率分布直方图估计样本的数字特征:(xi表示第i个小矩形底边中点的横坐标,Si表示第i个小矩形的面积)
①平均数x=x1S1+x2S2+…+xiSi+…+xnSn;
②方差s2=(x1-x)2S1+(x2-x)2S2+…+(xn-x)2Sn;
③中位数:从左到右(或从右到左)小矩形面积之和等于0.5时对应点的横坐标;
④众数:最高小矩形底边中点的横坐标.
3.(2021朝阳期末,17)某公司为了解用户对其产品的满意程度,从A地区随机抽取了400名用户,从B地区随机抽取了100名用户,请用户根据满意程度对该公司产品评分.该公司将收集到的数据按照[20,40),[40,60),[60,80),[80,100]分组,绘制成评分频率分布直方图如图:
A地区用户满意程度评分频率分布直方图
B地区用户满意程度评分频率分布直方图
(1)从A地区抽取的400名用户中随机选取一名,求这名用户对该公司产品的评分不低于60分的概率;
(2)从B地区抽取的100名用户中随机选取两名,记这两名用户中评分不低于80分的个数为X,求X的分布列和数学期望;
(3)根据频率分布直方图,假设同组中的每个数据用该组区间的中点值代替,估计A地区抽取的400名用户对该公司产品的评分的平均值为μ1,B地区抽取的100名用户对该公司产品的评分的平均值为μ2,以及A,B两个地区抽取的500名用户对该公司产品的评分的平均值为μ0,试比较μ0和μ1+μ22的大小.(结论不要求证明)
解析 (1)从A地区抽取的400名用户中随机选取一名,这名用户对该公司产品的评分不低于60分的概率为(0.02+0.01)×20=0.6.
(2)从B地区抽取的100名用户中,评分不低于80分的用户有100×(0.005×20)=10名.由题可知X的所有可能取值为0,1,2.
P(X=0)=C902C1002=89110;P(X=1)=C901C101C1002=211;P(X=2)=C102C1002=1110.
所以X的分布列为
X
0
1
2
P
89110
211
1110
数学期望E(X)=0×89110+1×211+2×1110=15.
(3)μ0>μ1+μ22.
4.(2021通州一模,18)我国探月工程嫦娥五号探测器于2020年12月1日23时11分降落在月球表面预选着陆区,在顺利完成月面自动采样之后,成功将携带样品的上升器送入预定环月轨道,这是我国首次实现月球无人采样和地外天体起飞,对我国航天事业具有重大而深远的影响.某校为了解高中生的航空航天知识情况,设计了一份调查问卷,从该校高中生中随机抽取部分学生参加测试,记录了他们的分数,将收集到的学生测试的得分数据按照[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]分组,绘制成频率分布直方图,如图:
(1)从该校高中生中随机抽取的学生测试得分不低于80分的有9人,求此次抽取的学生人数;
(2)在测试得分不低于80分的9名学生中随机选取3人作为航空航天知识宣传大使,记这3名学生中测试得分不低于90分的人数为X,求X的分布列和数学期望;
(3)观察频率分布直方图,判断该校高中生测试得分的均值a和中位数b的大小关系.(直接写出结论)
解析 (1)由题图知,测试得分不低于80分的学生频率为(0.030+0.015)×10=0.45.
设抽取的学生人数为n,所以0.45n=9,解得n=20.所以此次抽取的学生人数为20.
(2)由题图知,测试得分在[80,90)的频率为0.030×10=0.3,在[90,100]的频率为0.015×10=0.15,所以20×0.3=6,20×0.15=3.
所以测试得分不低于80分的9名学生中,得分在[80,90)的有6人,在[90,100]的有3人,
所以X的所有可能取值为0,1,2,3.
P(X=0)=C63C93=521;P(X=1)=C62C31C93=1528;
P(X=2)=C61C32C93=314;P(X=3)=C33C93=184.
所以X的分布列为
X
0
1
2
3
P
521
1528
314
184
E(X)=0×521+1×1528+2×314+3×184=1.
(3)a
1.(多选)(2021新高考Ⅱ,9,5分)下列统计量中可用于度量样本x1,x2,…,xn离散程度的有( )
A.x1,x2,…,xn的标准差
B.x1,x2,…,xn的中位数
C.x1,x2,…,xn的极差
D.x1,x2,…,xn的平均数
答案 AC
2.(2020人大附中8月练习,10)气象意义上从春季进入夏季的标志为连续5天的日平均温度均不低于22 ℃,现有甲、乙、丙三地连续5天的日平均温度(都是正整数,单位:℃)的相关数据如下:
①甲地5个数据的中位数为26,众数为22;
②乙地5个数据的平均数为26,方差为5.2;
③丙地5个数据的中位数为26,平均数为26.4,极差为8.
现从气象意义上肯定进入夏季的地区是( )
A.甲乙 B.甲丙 C.乙丙 D.甲乙丙
答案 D
3.(2022届北京一六一中学开学考试,18)已知表1和表2是某年部分日期天安门广场升旗时刻表.
表1:某年部分日期的天安门广场升旗时刻表
日期
升旗时刻
日期
升旗时刻
1月1日
7:36
7月9日
4:53
1月21日
7:31
7月27日
5:07
2月10日
7:14
8月14日
5:24
3月2日
6:47
9月2日
5:42
3月22日
6:16
9月20日
5:59
4月9日
5:46
10月8日
6:17
4月28日
5:19
10月26日
6:36
5月16日
4:59
11月13日
6:56
6月3日
4:47
12月1日
7:16
6月22日
4:46
12月20日
7:31
表2:某年2月部分日期的天安门广场升旗时刻表
日期
升旗时刻
日期
升旗时刻
日期
升旗时刻
2月1日
7:23
2月11日
7:13
2月21日
6:59
2月3日
7:22
2月13日
7:11
2月23日
6:57
2月5日
7:20
2月15日
7:08
2月25日
6:55
2月7日
7:17
2月17日
7:05
2月27日
6:52
2月9日
7:15
2月19日
7:02
2月28日
6:49
(1)从表1的日期中随机选出一天,试估计这一天的升旗时刻早于7:00的概率;
(2)甲,乙两人各自从表2的日期中随机选择一天观看升旗,且两人的选择相互独立.记X为这两个人中观看升旗的时刻早于7:00的人数,求X的分布列和数学期望E(X);
(3)将表1和表2中的升旗时刻化为分数后作为样本数据如7:31化为73160.记表2中所有升旗时刻对应数据的方差为s2,表1和表2中所有升旗时刻对应数据的方差为s*2,判断s2与s*2的大小.(只需写出结论)
解析 (1)记事件A为“从表1的日期中随机选出一天,这一天的升旗时刻早于7:00”,在表1的20个日期中,有15个日期的升旗时刻早于7:00,所以P(A)=1520=34.
(2)X的可能取值为0,1,2.
记事件B为“从表2的日期中随机选出一天,这天的升旗时刻早于7:00”,则P(B)=515=13,P(B)=1-P(B)=1-13=23.
所以P(X=0)=P(B)·P(B)=23×23=49,
P(X=1)=C21×13×23=49,
P(X=2)=P(B)·P(B)=13×13=19.
所以X的分布列为
X
0
1
2
P
49
49
19
E(X)=0×49+1×49+2×19=23.
(3)s2
旧设备
9.8
10.3
10.0
10.2
9.9
新设备
10.1
10.4
10.1
10.0
10.1
旧设备
9.8
10.0
10.1
10.2
9.7
新设备
10.3
10.6
10.5
10.4
10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为 x和 y,样本方差分别记为s12和s22.
(1)求x,y,s12,s22;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高如果y-x≥2s12+s2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高.
解析 (1)x=110×(9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.7)=10.
y=110×(10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.5)=10.3.
s12=110×(0.22+0.32+02+0.22+0.12+0.22+02+0.12+0.22+0.32)=0.036.
s22=110×(0.22+0.12+0.22+0.32+0.22+02+0.32+0.22+0.12+0.22)=0.04.
(2)∵y-x=10.3-10=0.3=310=1550,2s12+s2210=20.036+0.0410=2×0.007 6=7650,且1550=22550>7650,∴y-x≥2s12+s2210成立,∴认为新设备生产产品的该项指标的均值较旧设备有显著提高.
5.(2020课标Ⅰ文,17,12分)某厂接受了一项加工业务,加工出来的产品(单位:件)按标准分为A,B,C,D四个等级.加工业务约定:对于A级品、B级品、C级品,厂家每件分别收取加工费90元,50元,20元;对于D级品,厂家每件要赔偿原料损失费50元.该厂有甲、乙两个分厂可承接加工业务.甲分厂加工成本费为25元/件,乙分厂加工成本费为20元/件.厂家为决定由哪个分厂承接加工业务,在两个分厂各试加工了100件这种产品,并统计了这些产品的等级,整理如下:
甲分厂产品等级的频数分布表
等级
A
B
C
D
频数
40
20
20
20
乙分厂产品等级的频数分布表
等级
A
B
C
D
频数
28
17
34
21
(1)分别估计甲、乙两分厂加工出来的一件产品为A级品的概率;
(2)分别求甲、乙两分厂加工出来的100件产品的平均利润,以平均利润为依据,厂家应选哪个分厂承接加工业务?
解析 (1)由试加工产品等级的频数分布表知,
甲分厂加工出来的一件产品为A级品的概率的估计值为40100=0.4;
乙分厂加工出来的一件产品为A级品的概率的估计值为28100=0.28.
(2)由数据知甲分厂加工出来的100件产品利润的频数分布表为
利润
65
25
-5
-75
频数
40
20
20
20
因此甲分厂加工出来的100件产品的平均利润为65×40+25×20-5×20-75×20100=15元.
由数据知乙分厂加工出来的100件产品利润的频数分布表为
利润
70
30
0
-70
频数
28
17
34
21
因此乙分厂加工出来的100件产品的平均利润为70×28+30×17+0×34-70×21100=10元.
比较甲、乙两分厂加工的产品的平均利润,应选甲分厂承接加工业务.
总结归纳 概率问题要分清事件之间的关系,以样本的数字特征为决策依据.
6.(2022届北京师大附中10月月考,17)防洪工程对防洪减灾起着重要作用,水库是我国广泛采用的防洪工程之一,既有滞洪作用又有蓄洪作用.北京地区2010年至2019年每年汛末(10月1日)水库的蓄水量数据如下:
年份
2010
2011
2012
2013
2014
蓄水量(亿立方米)
11.25
13.25
13.58
17.4
12.4
年份
2015
2016
2017
2018
2019
蓄水量(亿立方米)
12.1
18.3
26.5
34.3
34.1
(1)从2010年至2019年的样本数据中随机选取连续两年的数据,求这两年蓄水量数据之差的绝对值小于1亿立方米的概率;
(2)从2014年至2019年的样本数据中随机选取两年的数据,设X为蓄水量超过33亿立方米的年份个数,求随机变量X的分布列和数学期望;
(3)由表中数据判断从哪年开始连续三年的水库蓄水量方差最大.(结论不要求证明)
解析 (1)设事件A为“连续两年的蓄水量数据之差的绝对值小于1亿立方米”,
从2010年至2019年的样本数据中随机选取连续两年共有9种可能,
由题表可知,事件A包含“2011年和2012年”“2014年和2015年”“2018年和2019年”.
所以P(A)=39=13.
(2)由题表可知,2014年至2019年的样本数据中,蓄水量超过33亿立方米的年份有2年,蓄水量不超过33亿立方米的年份有4年.故随机变量X的所有可能取值为0,1,2.
P(X=0)=C20·C42C62=25,P(X=1)=C21·C41C62=815,P(X=2)=C22·C40C62=115.
所以随机变量X的分布列为
X
0
1
2
P
25
815
115
所以E(X)=0×25+1×815+2×115=23.
(3)从2016年开始连续三年的水库蓄水量方差最大.
7.(2021顺义二模,18)某学校食堂为了解师生对某种新推出的菜品的满意度,从品尝过该菜品的学生和老师中分别随机调查了20人,得到师生对该菜品的满意度评分如下:
教师:60 63 65 67 69 75 77 77 79
79 82 83 86 87 89 92 93 96 96 96
学生:47 49 52 54 55 57 63 65 66
66 74 74 75 77 80 82 83 84 95 96
根据师生对该菜品的满意度评分,将满意度从低到高分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
假设教师和学生对该菜品的评价结果相互独立,根据所给数据,用事件发生的频率估计相应事件发生的概率.
(1)设数据中教师和学生评分的平均值分别为μ1和μ2,方差分别为η1和η2,试比较μ1和μ2,η1和η2的大小(结论不要求证明);
(2)从全校教师中随机抽取3人,设X为3人中对该菜品非常满意的人数,求随机变量X的分布列及数学期望;
(3)求教师的满意度等级高于学生的满意度等级的概率.
解析 (1)μ1>μ2,η1<η2.
(2)由题意可知,随机抽取的教师对该菜品非常满意的概率为520=14.则X~B3,14,
X的所有可能取值为0,1,2,3,P(X=k)=C3k14k·343-k(k=0,1,2,3).
所以P(X=0)=C30140×343=2764,
P(X=1)=C31·14×342=2764,
P(X=2)=C32142×34=964,
P(X=3)=C33143×340=164.
所以X的分布列为
X
0
1
2
3
P
2764
2764
964
164
故X的期望E(X)=3×14=34.
(3)设事件A为“教师对该菜品满意”,事件B为“教师对该菜品非常满意”,事件C为“学生对该菜品不满意”,事件D为“学生对该菜品满意”,事件E为“教师的满意度等级高于学生的满意度等级”,则E=AC∪BC∪BD.
易知P(A)=12,P(B)=14,P(C)=12,P(D)=25.因为事件A,B,C,D彼此独立,
所以P(E)=P(AC)+P(BC)+P(BD)
=P(A)P(C)+P(B)P(C)+P(B)P(D)
=12×12+14×12+14×25=1940.
所以教师的满意度等级高于学生的满意度等级的概率为1940.
8.(2021石景山统练一,18)某大型连锁超市的市场部为了比较线下、线上这两种模式的销售情况,从某地区众多门店中随机抽取8家门店,对其线下和线上这两种销售模式下的日营业额(单位:万元)进行调查.调查结果如下:
线下日营业额
线上日营业额
门店1
9
11.5
门店2
6.5
9
门店3
19
12
门店4
9.5
17
门店5
14.5
19
门店6
16.5
23
门店7
20.5
21.5
门店8
12.5
15
若某门店一种销售模式下的日营业额不低于15万元,则称该门店在这种销售模式下的日营业额达标;否则就称该门店在此种销售模式下的日营业额不达标.若某门店的日营业总额(线上和线下两种销售模式下的日营业额之和)不低于30万元,则称该门店的日营业总额达标;否则就称该门店的日营业总额不达标.(各门店的营业额之间互不影响)
(1)从8个样本门店中随机抽取3个,求抽取的3个门店的线下日营业额均达标的概率;
(2)若从8个样本门店中随机抽取3个门店,记随机变量X表示抽到的日营业总额达标的门店个数.以样本门店的日营业总额达标的频率作为一个门店的日营业总额达标的概率,求X的分布列和数学期望;
(3)线下日营业额和线上日营业额的样本平均数分别记为μ1和μ2,线下日营业额和线上日营业额的样本方差分别记为s12和s22.试判断μ1和μ2的大小,以及s12和s22的大小.(结论不要求证明)
解析 (1)由题意知,线下日营业额达标的有3家,分别是门店3,门店6,门店7,所以所求的概率为C33C83=156.
(2)日营业总额达标的门店有4家,分别是门店3,门店5,门店6,门店7,
X的所有可能取值为0,1,2,3,
所以P(X=0)=C40C43C83=114,P(X=1)=C41C42C83=37,P(X=2)=C42C41C83=37,P(X=3)=C43C40C83=114,
所以X的分布列为
X
0
1
2
3
P
114
37
37
114
所以E(X)=0×114+1×37+2×37+3×114=32.
(3)μ1<μ2,s12=s22.
μ1=9+6.5+19+9.5+14.5+16.5+20.5+12.58=13.5,μ2=11.5+9+12+17+19+23+21.5+158=16,
s12=18×[(9-13.5)2+(6.5-13.5)2+(19-13.5)2+(9.5-13.5)2+(14.5-13.5)2+(16.5-13.5)2+(20.5-13.5)2+(12.5-13.5)2]=175.58,
s22=18×[(11.5-16)2+(9-16)2+(12-16)2+(17-16)2+(19-16)2+(23-16)2+(21.5-16)2+(15-16)2]=175.58,
所以μ1<μ2,s12=s22.
9.(2020西城二模,18)随着科技的进步,视频会议系统的前景愈加广阔,其中,小型视频会议软件格外受人青睐.根据调查统计,小型视频会议软件下载量前6名依次为A,B,C,D,E,F.在实际中,存在很多软件下载后但并未使用的情况.为此,某调查公司对有视频会议需求的人群进行抽样调查,统计得到这6款软件的下载量W(单位:人次)与使用量U(单位:人次),数据用柱状图表示如下:
定义软件的使用率t=UW,当t>0.9时,称该款软件为有效下载软件.调查公司以调查得到的使用率t作为实际中该款软件的使用率.
(1)在这6款软件中任取1款,求该款软件是有效下载软件的概率;
(2)从这6款软件中随机抽取4款,记其中有效下载软件的数量为X,求X的分布列与数学期望;
(3)将(1)中概率记为x%.对于市场上所有小型视频会议软件,能否认为这些软件中大约有x%的软件为有效下载软件?说明理由.
解析 (1)根据题图可得软件A,B,C,D,E,F的使用率tA=9196>0.9,tB=8491>0.9,tC=6985<0.9,tD=5474<0.9,tE=6469>0.9,tF=6365>0.9.所以软件A,B,E,F为有效下载软件.
记事件M为“在6款软件中任取1款,该款软件是有效下载软件”,则P(M)=46=23.
(2)随机变量X的可能取值为2,3,4.
则P(X=2)=C42C22C64=25,P(X=3)=C43C21C64=815,P(X=4)=C44C64=115.
所以随机变量X的分布列为
X
2
3
4
P
25
815
115
数学期望EX=2×25+3×815+4×115=83.
(3)不能认为大约有x%的软件为有效下载软件.理由如下:
若根据这6款软件中有效下载软件的概率来估计所有软件中有效下载软件的使用率,即是用样本估计总体.用样本估计总体应保证总体中的每个个体被等可能抽取.但此次调查是“从有视频会议需求的人群”中进行抽样调查,且有针对性地只选取“下载量排名前6名”的软件,不是从所有软件中随机抽取6款作为样本.故不能认为大约有x%的软件为有效下载软件.
2024年数学高考大一轮复习第十一章 §11.4 回归分析: 这是一份2024年数学高考大一轮复习第十一章 §11.4 回归分析,共9页。试卷主要包含了82 B.0,606,eq \r≈3,25,48,16等内容,欢迎下载使用。
2023年高考数学考前20天终极冲刺之统计: 这是一份2023年高考数学考前20天终极冲刺之统计,共46页。
2023年高考数学考前20天终极冲刺之统计: 这是一份2023年高考数学考前20天终极冲刺之统计,共46页。