还剩17页未读,
继续阅读
2020届数学(理)二轮复习第2部分专题3第2讲 统计与统计案例学案
展开
第2讲 统计与统计案例
[做小题——激活思维]
1.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数
C.方差 D.极差
A [记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.]
2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,计算得K2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( )
P(K2≥k)
0.10
0.05
0.025
0.010
0.005
0.001
k
2.706
3.841
5.024
6.635
7.879
10.828
A.0.1% B.1%
C.99.5% D.99.9%
C [因为K2=8.01>7.879,观测值同临界值进行比较可知,有99.5%的把握认为“喜欢乡村音乐与性别有关系”,故选C.]
3.已知某赛季甲、乙两名篮球运动员每场比赛得分的茎叶图如图所示,则( )
A.甲篮球运动员比赛得分更稳定,中位数为26
B.甲篮球运动员比赛得分更稳定,中位数为27
C.乙篮球运动员比赛得分更稳定,中位数为31
D.乙篮球运动员比赛得分更稳定,中位数为36
D [由茎叶图可知,乙运动员的得分大部分集中在30~40分之间,而甲运动员的得分相对比较分散,故乙篮球运动员比赛得分更稳定.乙篮球运动员共有13个得分,由茎叶图由小到大排列后处于中间第7位的是36,故选D.]
4.已知某地区中小学生人数和近视情况分别如图1和图2所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
图1 图2
A.100,20 B.200,20
C.200,10 D.100,10
B [由题图1可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图2可知高中生的近视率为50%,所以高中生的近视人数为40×50%=20,故选B.]
5.已知x,y的取值如下表所示:
x
2
3
4
y
5
4
6
若y与x呈线性相关,且回归方程为=x+,则等于________.
[由题意,得=3,=5.因为线性回归方程必过样本的中心点(3,5),所以5=3+,解得=.]
6.数据1,3,5,7的方差为________.
5 [==4,
∴方差s2=[(1-4)2+(3-4)2+(5-4)2+(7-4)2]=5.]
[扣要点——查缺补漏]
1.三种抽样方法
(1)简单随机抽样;
(2)系统抽样(等间隔抽样);
(3)分层抽样(按比例抽样).如T4.
2.样本数据x1,x2,…,xn的数字特征
(1)样本平均数:=(x1+x2+x3+…+xn)=xi;
(2)样本方差:s2=[(x1-)2+(x2-)2+…+(xn-)2]= (xi-)2=(x+x+x+…+x-n2);如T6.
(3)样本标准差:
s=
=;
(4)样本数据的性质:若x1,x2,…,xn的平均数为,方差为s2,则ax1+b,ax2+b,…,axn+b的平均数为a+b,方差为a2s2.
3.茎叶图
样本数据越集中越稳定,越分散越不稳定,如T3.
4.在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即是众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
5.线性回归方程=x+一定过样本点的中心(,).如T5.
6.独立性检验的关键在于准确求出K2值,K2=的观测值k越大,说明“两个分类变量有关系”的可能性越大.如T2.
变量的相关性及回归分析(5年4考)
[高考解读] 高考对该点的考查主要立足两点:一是考查学生的数据提取,数据分析能力;二是考查学生的数学建模能力,因此学会从数据中获取有效信息并给予正确的处理是解答此类问题的关键.在备考中,要重视以茎叶图、散点图、折线图、饼状图为载体的题目.
(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[解](1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年
至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(以上给出了2种理由,答出其中任意一种或其他合理理由均可)
[教师备选题]
(2015·全国Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,w]=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为
[解](1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
=- =563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
求线性回归直线方程的步骤
1.[重视题](结合散点图分析问题)某青少年成长关爱机构为了调研所在地区青少年的年龄与身高状况,随机抽取6岁,9岁,12岁,15岁,18岁的青少年身高数据各1 000个,根据各年龄段平均身高作出如下图所示的散点图和回归直线l.根据图中数据,下列对该样本描述错误的是( )
A.根据样本数据估计,该地区青少年身高与年龄成正相关
B.所抽取数据中,5 000名青少年平均身高约为145 cm
C.直线l的斜率的值近似等于样本中青少年平均身高每年的增量
D.从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线l上
D [在给定范围内,随着年龄增加,年龄越大身高越高,故该地区青少年身高与年龄成正相关,故A项正确;用样本数据估计总体可得平均数大约是145 cm,故B项正确;根据直线斜率的意义可知斜率的值近似等于样本中青少年平均身高每年的增量,故C项正确;各取一人具有随机性,根据数据作出的点只能在直线附近,不一定在直线上,故D项错误.]
2.(回归分析与函数交汇)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:吨)和年利润z(单位:千元)的影响,对近13年的年宣传费xi和年销售量yi(i=1,2,…,13)数据作了初步处理,得到如下图所示的散点图及一些统计量的值.
由散点图知,按y=a+b,y=c+建立y关于x的回归方程是合理的.令s=,t=, 经计算得如下数据:
10.15
109.94
3.04
0.16
siyi-13
tiyi-13
s-132
t-132
y-132
13.94
-2.10
11.67
0.21
21.22
且(si,yi)与(ti,yi)(i=1,2,…,13)的相关系数分别为r1=0.886与r2=-0.995.
(1)从以上模型中选择更优的回归方程,并用相关系数加以说明;
(2)根据(1)的选择结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=10y-x.根据(2)的结果回答下列问题:
①年宣传费x=20时,年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(ui,vi)(i=1,2,…,n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=-.
[解](1)由于|r1|<|r2|<1,故y=c+更优.
(2)===-10,
=-=109.94+10×0.16=111.54.
则y关于x的回归方程为=111.54-.
(3)由题意,年利润z=10y-x=1 115.4-,
①当x=20时,年利润的预报值是=1 115.4-=1 090.4.
②由基本不等式得,年利润的预报值=1 115.4-,
由于x+≥20,当且仅当x=,即x=10时等号成立,此时max=1 115.4-20=1 095.4.
独立性检验(5年2考)
[高考解读] 该类问题常以统计图、表为载体,以生活题材为背景,借助独立性检验中的K2公式对两类分类变量的相关性作出判断.
(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
[解](1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
独立性检验的方法步骤
(1)根据数据列出2×2列联表;
(2)根据公式计算K2找观测值k;
(3)比较观测值k与临界值表中相应的检验水平,作出统计判断.
1.(柱形图与独立性检验)一家大型超市委托某机构调查该超市的顾客使用移动支付的情况.调查人员从年龄在20至60的顾客中,随机抽取了200人,调查结果如图:
(1)为推广移动支付,超市准备对使用移动支付的每位顾客赠送1个环保购物袋.若某日该超市预计有10 000人购物,试根据上述数据估计,该超市当天应准备多少个环保购物袋?
(2)填写下面列联表,并根据列联表判断是否有99.9%的把握认为使用移动支付与年龄有关?
年龄<40
年龄≥40
总计
使用移动支付
不使用移动支付
总计
200
(3)现从该超市这200位顾客年龄在[55,60]的人中,随机抽取2人,记这两人中使用移动支付的顾客为X人,求X的分布列.
附:K2=
P(K2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
[解](1)根据图中数据,由频率估计概率,根据已知可预计该超市顾客使用移动支付的概率为:
=,所以超市当天应准备的环保购物袋个数为:10 000×=6 250.
(2)由(1)知列联表为:
年龄<40
年龄≥40
总计
使用移动支付
85
40
125
不使用移动支付
10
65
75
总计
95
105
200
则K2=≈56.17,
因为56.17>10.828,所以有99.9%的把握认为使用移动支付与年龄有关.
(3)X可能取值为0,1,2,
P(X=0)==,P(X=1)==,
P(X=2)==,
所以X的分布列为:
X
0
1
2
P
2.(频率分布直方图与独立性检验)某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取100件产品作为样本称出它们的质量(单位:毫克),质量值落在(175,225]的产品为合格品,否则为不合格品.如表是甲流水线样本频数分布表,如图是乙流水线样本的频率分布直方图.
产品质量/毫克
频数
(165,175]
3
(175,185]
9
(185,195]
19
(195,205]
35
(205,215]
22
(215,225]
7
(225,235]
5
(1)由以上统计数据完成下面2×2列联表,能否在犯错误的概率不超过0.15的前提下认为产品的包装合格与两条自动包装流水线的选择有关?
甲流水线
乙流水线
总计
合格品
不合格品
总计
附表:
P(K2>k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(参考公式:K2=,n=a+b+c+d)
(2)由乙流水线的频率分布直方图可以认为乙流水线生产的产品质量指标z服从正态分布N(200,12.22),求质量指标z落在(187.8,224.4)上的概率;
参考公式:P(μ-σ<z<μ+σ)=0.682 7,P(μ-2σ<z<μ+2σ)=0.954 5.
(3)若以频率作为概率,从甲流水线任取2件产品,求至少有一件产品是合格品的概率.
[解](1)由甲流水线样本频数分布表可知,合格品的个数为100-(3+5)=92,由乙流水线样本的频率分布直方图可知,合格品的个数为100×(1-0.04)=96,
所以,2×2列联表是:
甲流水线
乙流水线
总计
合格品
92
96
188
不合格品
8
4
12
总计
100
100
200
所以K2=≈1.418<2.072,
所以在犯错误的概率不超过0.15的前提下不能认为产品的包装合格与两条自动包装流水线的选择有关.
(2)因为乙流水线的产品生产质量指标z服从正态分布N(200,12.22),P(μ-σ<z<μ+σ)=0.682 7,
P(μ-2σ<z<μ+2σ)=0.954 5,所以P(μ-σ<z<μ+2σ)=P(μ-σ<z<0)+P(0≤z<μ+2σ)=P(μ-σ<z<μ+σ)+P(μ-2σ<z<μ+2σ)
=×(0.682 7+0.954 5)=0.818 6,即P(200-12.2<z<200+12.2×2)=P(187.8<z<224.4)=0.818 6,所以质量指标落在(187.8,224.4)的概率是0.818 6.
(3)若以频率作概率,则从甲流水线任取一件产品是不合格品的概率p=0.08,
设“任取两件产品,至少有一件合格品”为事件A,
则为“任取两件产品,两件均为不合格品”,且P()=p2=0.082=0.006 4,
所以P(A)=1-P()=1-0.0064=0.993 6,
所以任取两件产品至少有一件为合格品的概率为0.993 6.
概率与统计的综合问题(5年2考)
[高考解读] 以实际问题为背景,以统计图表为载体考查样本数据的数字特征、概率的求法及分布列的相关知识,处理的关键是仔细阅读题目,准确获取信息,将实际问题转化为统计概率问题.
(2017·全国卷Ⅲ)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:
最高气温
[10,15)
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
天数
2
16
36
25
7
4
以最高气温位于各区间的频率代替最高气温位于该区间的概率.
(1)求六月份这种酸奶一天的需求量X(单位:瓶)的分布列;
(2)设六月份一天销售这种酸奶的利润为Y(单位:元).当六月份这种酸奶一天的进货量n(单位:瓶)为多少时,Y的数学期望达到最大值?
切入点:由于n∈[200,500],对n分类讨论,且同时计算在不同温度下的期望的表达式.
[解](1)由题意知,X所有可能取值为200,300,500,由表格数据知P(X=200)==0.2,
P(X=300)==0.4,
P(X=500)==0.4.
因此X的分布列为
X
200
300
500
P
0.2
0.4
0.4
(2)由题意知,这种酸奶一天的需求量至多为500,至少为200,因此只需考虑200≤n≤500.
当300≤n≤500时,
若最高气温不低于25,则Y=6n-4n=2n;
若最高气温位于区间[20,25),则Y=6×300+2(n-300)-4n=1 200-2n;
若最高气温低于20,则Y=6×200+2(n-200)-4n=800-2n.
因此E(Y)=2n×0.4+(1 200-2n)×0.4+(800-2n)×0.2=640-0.4n.
当200≤n<300时,
若最高气温不低于20,则Y=6n-4n=2n;
若最高气温低于20,则Y=6×200+2(n-200)-4n=800-2n,
因此E(Y)=2n×(0.4+0.4)+(800-2n)×0.2=160+1.2n.
所以n=300时,Y的数学期望达到最大值,最大值为520元.
[教师备选题]
(2015·全国卷Ⅱ)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:
A地区:62 73 81 92 95 85 74 64 53
76 78 86 95 66 97 78 88 82
76 89
B地区:73 83 62 51 91 46 53 73 64
82 93 48 65 81 74 56 54 76
65 79
(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
记事件C:“A地区用户的满意度等级高于B地区用户的满意度等级”.假设两地区用户的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C的概率.
[解](1)两地区用户满意度评分的茎叶图如下:
通过茎叶图可以看出,A地区用户满意度评分的平均值高于B地区用户满意度评分的平均值;A地区用户满意度评分比较集中,B地区用户满意度评分比较分散.
(2)记CA1表示事件:“A地区用户的满意度等级为满意或非常满意”;
CA2表示事件:“A地区用户的满意度等级为非常满意”;
CB1表示事件:“B地区用户的满意度等级为不满意”;
CB2表示事件:“B地区用户的满意度等级为满意”,
则CA1与CB1独立,CA2与CB2独立,CB1与CB2互斥,
C=CB1CA1∪CB2CA2.
P(C)=P(CB1CA1∪CB2CA2)
=P(CB1CA1)+P(CB2CA2)
=P(CB1)P(CA1)+P(CB2)P(CA2).
由所给数据得CA1,CA2,CB1,CB2发生的频率分别为,,,,故P(CA1)=,P(CA2)=,P(CB1)=,P(CB2)=,P(C)=×+×=0.48.
解决概率与统计综合问题的一般步骤
1.(统计图表与正态分布、期望交汇)(2019·济宁一模)某学校为了了解全校学生的体重情况,从全校学生中随机抽取了100人的体重数据,结果这100人的体重全部介于45公斤到75公斤之间,现将结果按如下方式分为6组:第一组[45,50),第二组[50,55),…,第六组[70,75],得到如图1所示的频率分布直方图,并发现这100人中,其体重低于55公斤的有15人,这15人体重数据的茎叶图如图2所示,以样本的频率作为总体的概率.
(1)求频率分布直方图中a,b,c的值;
(2)从全校学生中随机抽取3名学生,记X为体重在[55,65)的人数,求X的概率分布列和数学期望;
(3)由频率分布直方图可以认为,该校学生的体重ξ近似服从正态分布N(μ,σ2),其中μ=60,σ2=25,若P(μ-2σ≤ξ<μ+2σ)>0.954 5,则认为该校学生的体重是正常的.试判断该校学生的体重是否正常?并说明理由.
图1 图2
[解](1)由题图2知,100名样本中体重低于50公斤的有2人,用样本的频率估计总体的频率,可得体重低于50公斤的概率为=0.02,所以a==0.004.
在[50,55)上有13人,该组的频率为0.13,则b==0.026,所以2c==0.14,即c=0.07.
(2)用样本的频率估计总体的频率,可知从全校学生中随机抽取1人,体重在[55,65)的概率为0.07×10=0.7,随机抽取3人,相当于3次独立重复实验,随机变量X服从二项分布B(3,0.7),
则P(X=0)=C·0.70·0.33=0.027,
P(X=1)=C·0.7·0.32=0.189,
P(X=2)=C·0.72·0.3=0.441,
P(X=3)=C·0.73·0.30=0.343,
所以X的概率分布列为:
X
0
1
2
3
P
0.027
0.189
0.441
0.343
数学期望为E(X)=3×0.7=2.1.
(3)由题意知ξ服从正态分布N(60,25),其中σ=5,
则P(μ-2σ≤ξ<μ+2σ)=P(50≤ξ<70)=0.96>0.954 5,
所以可以认为该校学生的体重是正常的.
2.(统计图表与二项分布交汇)某校为了解甲、乙两班学生的学业水平,从两班中各随机抽取20人参加学业水平等级考试,得到学生的学业成绩茎叶图如图:
(1)通过茎叶图比较甲、乙两班学生的学业成绩平均值甲与乙及方差s与s的大小;(只需写出结论)
(2)根据学生的学业成绩,将学业水平分为三个等级:
学业成绩
低于70分
70分到89分
不低于90分
学业水平
一般
良好
优秀
根据所给数据,频率可以视为相应的概率.
①从甲、乙两班中各随机抽取1人,记事件C:“抽到的甲班学生的学业水平高于乙班学生的学业水平等级”,求C发生的概率;
②从甲班中随机抽取2人,记X为学业水平优秀的人数,求X的分布列和数学期望.
[解](1)由茎叶图能得到甲>乙,s<s.
(2)①记A1,A2,A3分别表示事件:甲班学生学业水平成绩为一般,良好,优秀;
记B1,B2,B3分别表示事件:乙班学生学业水平成绩为一般,良好,优秀,则
P(C)=P(A2B1∪A3B1∪A3B2)=P(A2B1)+P(A3B1)+P(A3B2)=P(A2)P(B1)+P(A3)P(B1)+P(A3)P(B2)
=×+×+×=.
②从甲班随机抽取1人,其学业水平优秀的概率为,
所以,随机变量X的所有可能取值为0,1,2,且X~B.
P(X=0)=C=,
P(X=1)=C··=,
P(X=2)=C=.
随机变量X的分布列是:
X
0
1
2
P
数学期望E(X)=2×=.
[做小题——激活思维]
1.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数
C.方差 D.极差
A [记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.]
2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,计算得K2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( )
P(K2≥k)
0.10
0.05
0.025
0.010
0.005
0.001
k
2.706
3.841
5.024
6.635
7.879
10.828
A.0.1% B.1%
C.99.5% D.99.9%
C [因为K2=8.01>7.879,观测值同临界值进行比较可知,有99.5%的把握认为“喜欢乡村音乐与性别有关系”,故选C.]
3.已知某赛季甲、乙两名篮球运动员每场比赛得分的茎叶图如图所示,则( )
A.甲篮球运动员比赛得分更稳定,中位数为26
B.甲篮球运动员比赛得分更稳定,中位数为27
C.乙篮球运动员比赛得分更稳定,中位数为31
D.乙篮球运动员比赛得分更稳定,中位数为36
D [由茎叶图可知,乙运动员的得分大部分集中在30~40分之间,而甲运动员的得分相对比较分散,故乙篮球运动员比赛得分更稳定.乙篮球运动员共有13个得分,由茎叶图由小到大排列后处于中间第7位的是36,故选D.]
4.已知某地区中小学生人数和近视情况分别如图1和图2所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
图1 图2
A.100,20 B.200,20
C.200,10 D.100,10
B [由题图1可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图2可知高中生的近视率为50%,所以高中生的近视人数为40×50%=20,故选B.]
5.已知x,y的取值如下表所示:
x
2
3
4
y
5
4
6
若y与x呈线性相关,且回归方程为=x+,则等于________.
[由题意,得=3,=5.因为线性回归方程必过样本的中心点(3,5),所以5=3+,解得=.]
6.数据1,3,5,7的方差为________.
5 [==4,
∴方差s2=[(1-4)2+(3-4)2+(5-4)2+(7-4)2]=5.]
[扣要点——查缺补漏]
1.三种抽样方法
(1)简单随机抽样;
(2)系统抽样(等间隔抽样);
(3)分层抽样(按比例抽样).如T4.
2.样本数据x1,x2,…,xn的数字特征
(1)样本平均数:=(x1+x2+x3+…+xn)=xi;
(2)样本方差:s2=[(x1-)2+(x2-)2+…+(xn-)2]= (xi-)2=(x+x+x+…+x-n2);如T6.
(3)样本标准差:
s=
=;
(4)样本数据的性质:若x1,x2,…,xn的平均数为,方差为s2,则ax1+b,ax2+b,…,axn+b的平均数为a+b,方差为a2s2.
3.茎叶图
样本数据越集中越稳定,越分散越不稳定,如T3.
4.在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即是众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
5.线性回归方程=x+一定过样本点的中心(,).如T5.
6.独立性检验的关键在于准确求出K2值,K2=的观测值k越大,说明“两个分类变量有关系”的可能性越大.如T2.
变量的相关性及回归分析(5年4考)
[高考解读] 高考对该点的考查主要立足两点:一是考查学生的数据提取,数据分析能力;二是考查学生的数学建模能力,因此学会从数据中获取有效信息并给予正确的处理是解答此类问题的关键.在备考中,要重视以茎叶图、散点图、折线图、饼状图为载体的题目.
(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[解](1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年
至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(以上给出了2种理由,答出其中任意一种或其他合理理由均可)
[教师备选题]
(2015·全国Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,w]=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为
[解](1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
=- =563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
求线性回归直线方程的步骤
1.[重视题](结合散点图分析问题)某青少年成长关爱机构为了调研所在地区青少年的年龄与身高状况,随机抽取6岁,9岁,12岁,15岁,18岁的青少年身高数据各1 000个,根据各年龄段平均身高作出如下图所示的散点图和回归直线l.根据图中数据,下列对该样本描述错误的是( )
A.根据样本数据估计,该地区青少年身高与年龄成正相关
B.所抽取数据中,5 000名青少年平均身高约为145 cm
C.直线l的斜率的值近似等于样本中青少年平均身高每年的增量
D.从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线l上
D [在给定范围内,随着年龄增加,年龄越大身高越高,故该地区青少年身高与年龄成正相关,故A项正确;用样本数据估计总体可得平均数大约是145 cm,故B项正确;根据直线斜率的意义可知斜率的值近似等于样本中青少年平均身高每年的增量,故C项正确;各取一人具有随机性,根据数据作出的点只能在直线附近,不一定在直线上,故D项错误.]
2.(回归分析与函数交汇)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:吨)和年利润z(单位:千元)的影响,对近13年的年宣传费xi和年销售量yi(i=1,2,…,13)数据作了初步处理,得到如下图所示的散点图及一些统计量的值.
由散点图知,按y=a+b,y=c+建立y关于x的回归方程是合理的.令s=,t=, 经计算得如下数据:
10.15
109.94
3.04
0.16
siyi-13
tiyi-13
s-132
t-132
y-132
13.94
-2.10
11.67
0.21
21.22
且(si,yi)与(ti,yi)(i=1,2,…,13)的相关系数分别为r1=0.886与r2=-0.995.
(1)从以上模型中选择更优的回归方程,并用相关系数加以说明;
(2)根据(1)的选择结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=10y-x.根据(2)的结果回答下列问题:
①年宣传费x=20时,年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(ui,vi)(i=1,2,…,n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=-.
[解](1)由于|r1|<|r2|<1,故y=c+更优.
(2)===-10,
=-=109.94+10×0.16=111.54.
则y关于x的回归方程为=111.54-.
(3)由题意,年利润z=10y-x=1 115.4-,
①当x=20时,年利润的预报值是=1 115.4-=1 090.4.
②由基本不等式得,年利润的预报值=1 115.4-,
由于x+≥20,当且仅当x=,即x=10时等号成立,此时max=1 115.4-20=1 095.4.
独立性检验(5年2考)
[高考解读] 该类问题常以统计图、表为载体,以生活题材为背景,借助独立性检验中的K2公式对两类分类变量的相关性作出判断.
(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
[解](1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
独立性检验的方法步骤
(1)根据数据列出2×2列联表;
(2)根据公式计算K2找观测值k;
(3)比较观测值k与临界值表中相应的检验水平,作出统计判断.
1.(柱形图与独立性检验)一家大型超市委托某机构调查该超市的顾客使用移动支付的情况.调查人员从年龄在20至60的顾客中,随机抽取了200人,调查结果如图:
(1)为推广移动支付,超市准备对使用移动支付的每位顾客赠送1个环保购物袋.若某日该超市预计有10 000人购物,试根据上述数据估计,该超市当天应准备多少个环保购物袋?
(2)填写下面列联表,并根据列联表判断是否有99.9%的把握认为使用移动支付与年龄有关?
年龄<40
年龄≥40
总计
使用移动支付
不使用移动支付
总计
200
(3)现从该超市这200位顾客年龄在[55,60]的人中,随机抽取2人,记这两人中使用移动支付的顾客为X人,求X的分布列.
附:K2=
P(K2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
[解](1)根据图中数据,由频率估计概率,根据已知可预计该超市顾客使用移动支付的概率为:
=,所以超市当天应准备的环保购物袋个数为:10 000×=6 250.
(2)由(1)知列联表为:
年龄<40
年龄≥40
总计
使用移动支付
85
40
125
不使用移动支付
10
65
75
总计
95
105
200
则K2=≈56.17,
因为56.17>10.828,所以有99.9%的把握认为使用移动支付与年龄有关.
(3)X可能取值为0,1,2,
P(X=0)==,P(X=1)==,
P(X=2)==,
所以X的分布列为:
X
0
1
2
P
2.(频率分布直方图与独立性检验)某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取100件产品作为样本称出它们的质量(单位:毫克),质量值落在(175,225]的产品为合格品,否则为不合格品.如表是甲流水线样本频数分布表,如图是乙流水线样本的频率分布直方图.
产品质量/毫克
频数
(165,175]
3
(175,185]
9
(185,195]
19
(195,205]
35
(205,215]
22
(215,225]
7
(225,235]
5
(1)由以上统计数据完成下面2×2列联表,能否在犯错误的概率不超过0.15的前提下认为产品的包装合格与两条自动包装流水线的选择有关?
甲流水线
乙流水线
总计
合格品
不合格品
总计
附表:
P(K2>k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(参考公式:K2=,n=a+b+c+d)
(2)由乙流水线的频率分布直方图可以认为乙流水线生产的产品质量指标z服从正态分布N(200,12.22),求质量指标z落在(187.8,224.4)上的概率;
参考公式:P(μ-σ<z<μ+σ)=0.682 7,P(μ-2σ<z<μ+2σ)=0.954 5.
(3)若以频率作为概率,从甲流水线任取2件产品,求至少有一件产品是合格品的概率.
[解](1)由甲流水线样本频数分布表可知,合格品的个数为100-(3+5)=92,由乙流水线样本的频率分布直方图可知,合格品的个数为100×(1-0.04)=96,
所以,2×2列联表是:
甲流水线
乙流水线
总计
合格品
92
96
188
不合格品
8
4
12
总计
100
100
200
所以K2=≈1.418<2.072,
所以在犯错误的概率不超过0.15的前提下不能认为产品的包装合格与两条自动包装流水线的选择有关.
(2)因为乙流水线的产品生产质量指标z服从正态分布N(200,12.22),P(μ-σ<z<μ+σ)=0.682 7,
P(μ-2σ<z<μ+2σ)=0.954 5,所以P(μ-σ<z<μ+2σ)=P(μ-σ<z<0)+P(0≤z<μ+2σ)=P(μ-σ<z<μ+σ)+P(μ-2σ<z<μ+2σ)
=×(0.682 7+0.954 5)=0.818 6,即P(200-12.2<z<200+12.2×2)=P(187.8<z<224.4)=0.818 6,所以质量指标落在(187.8,224.4)的概率是0.818 6.
(3)若以频率作概率,则从甲流水线任取一件产品是不合格品的概率p=0.08,
设“任取两件产品,至少有一件合格品”为事件A,
则为“任取两件产品,两件均为不合格品”,且P()=p2=0.082=0.006 4,
所以P(A)=1-P()=1-0.0064=0.993 6,
所以任取两件产品至少有一件为合格品的概率为0.993 6.
概率与统计的综合问题(5年2考)
[高考解读] 以实际问题为背景,以统计图表为载体考查样本数据的数字特征、概率的求法及分布列的相关知识,处理的关键是仔细阅读题目,准确获取信息,将实际问题转化为统计概率问题.
(2017·全国卷Ⅲ)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:
最高气温
[10,15)
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
天数
2
16
36
25
7
4
以最高气温位于各区间的频率代替最高气温位于该区间的概率.
(1)求六月份这种酸奶一天的需求量X(单位:瓶)的分布列;
(2)设六月份一天销售这种酸奶的利润为Y(单位:元).当六月份这种酸奶一天的进货量n(单位:瓶)为多少时,Y的数学期望达到最大值?
切入点:由于n∈[200,500],对n分类讨论,且同时计算在不同温度下的期望的表达式.
[解](1)由题意知,X所有可能取值为200,300,500,由表格数据知P(X=200)==0.2,
P(X=300)==0.4,
P(X=500)==0.4.
因此X的分布列为
X
200
300
500
P
0.2
0.4
0.4
(2)由题意知,这种酸奶一天的需求量至多为500,至少为200,因此只需考虑200≤n≤500.
当300≤n≤500时,
若最高气温不低于25,则Y=6n-4n=2n;
若最高气温位于区间[20,25),则Y=6×300+2(n-300)-4n=1 200-2n;
若最高气温低于20,则Y=6×200+2(n-200)-4n=800-2n.
因此E(Y)=2n×0.4+(1 200-2n)×0.4+(800-2n)×0.2=640-0.4n.
当200≤n<300时,
若最高气温不低于20,则Y=6n-4n=2n;
若最高气温低于20,则Y=6×200+2(n-200)-4n=800-2n,
因此E(Y)=2n×(0.4+0.4)+(800-2n)×0.2=160+1.2n.
所以n=300时,Y的数学期望达到最大值,最大值为520元.
[教师备选题]
(2015·全国卷Ⅱ)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:
A地区:62 73 81 92 95 85 74 64 53
76 78 86 95 66 97 78 88 82
76 89
B地区:73 83 62 51 91 46 53 73 64
82 93 48 65 81 74 56 54 76
65 79
(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
记事件C:“A地区用户的满意度等级高于B地区用户的满意度等级”.假设两地区用户的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C的概率.
[解](1)两地区用户满意度评分的茎叶图如下:
通过茎叶图可以看出,A地区用户满意度评分的平均值高于B地区用户满意度评分的平均值;A地区用户满意度评分比较集中,B地区用户满意度评分比较分散.
(2)记CA1表示事件:“A地区用户的满意度等级为满意或非常满意”;
CA2表示事件:“A地区用户的满意度等级为非常满意”;
CB1表示事件:“B地区用户的满意度等级为不满意”;
CB2表示事件:“B地区用户的满意度等级为满意”,
则CA1与CB1独立,CA2与CB2独立,CB1与CB2互斥,
C=CB1CA1∪CB2CA2.
P(C)=P(CB1CA1∪CB2CA2)
=P(CB1CA1)+P(CB2CA2)
=P(CB1)P(CA1)+P(CB2)P(CA2).
由所给数据得CA1,CA2,CB1,CB2发生的频率分别为,,,,故P(CA1)=,P(CA2)=,P(CB1)=,P(CB2)=,P(C)=×+×=0.48.
解决概率与统计综合问题的一般步骤
1.(统计图表与正态分布、期望交汇)(2019·济宁一模)某学校为了了解全校学生的体重情况,从全校学生中随机抽取了100人的体重数据,结果这100人的体重全部介于45公斤到75公斤之间,现将结果按如下方式分为6组:第一组[45,50),第二组[50,55),…,第六组[70,75],得到如图1所示的频率分布直方图,并发现这100人中,其体重低于55公斤的有15人,这15人体重数据的茎叶图如图2所示,以样本的频率作为总体的概率.
(1)求频率分布直方图中a,b,c的值;
(2)从全校学生中随机抽取3名学生,记X为体重在[55,65)的人数,求X的概率分布列和数学期望;
(3)由频率分布直方图可以认为,该校学生的体重ξ近似服从正态分布N(μ,σ2),其中μ=60,σ2=25,若P(μ-2σ≤ξ<μ+2σ)>0.954 5,则认为该校学生的体重是正常的.试判断该校学生的体重是否正常?并说明理由.
图1 图2
[解](1)由题图2知,100名样本中体重低于50公斤的有2人,用样本的频率估计总体的频率,可得体重低于50公斤的概率为=0.02,所以a==0.004.
在[50,55)上有13人,该组的频率为0.13,则b==0.026,所以2c==0.14,即c=0.07.
(2)用样本的频率估计总体的频率,可知从全校学生中随机抽取1人,体重在[55,65)的概率为0.07×10=0.7,随机抽取3人,相当于3次独立重复实验,随机变量X服从二项分布B(3,0.7),
则P(X=0)=C·0.70·0.33=0.027,
P(X=1)=C·0.7·0.32=0.189,
P(X=2)=C·0.72·0.3=0.441,
P(X=3)=C·0.73·0.30=0.343,
所以X的概率分布列为:
X
0
1
2
3
P
0.027
0.189
0.441
0.343
数学期望为E(X)=3×0.7=2.1.
(3)由题意知ξ服从正态分布N(60,25),其中σ=5,
则P(μ-2σ≤ξ<μ+2σ)=P(50≤ξ<70)=0.96>0.954 5,
所以可以认为该校学生的体重是正常的.
2.(统计图表与二项分布交汇)某校为了解甲、乙两班学生的学业水平,从两班中各随机抽取20人参加学业水平等级考试,得到学生的学业成绩茎叶图如图:
(1)通过茎叶图比较甲、乙两班学生的学业成绩平均值甲与乙及方差s与s的大小;(只需写出结论)
(2)根据学生的学业成绩,将学业水平分为三个等级:
学业成绩
低于70分
70分到89分
不低于90分
学业水平
一般
良好
优秀
根据所给数据,频率可以视为相应的概率.
①从甲、乙两班中各随机抽取1人,记事件C:“抽到的甲班学生的学业水平高于乙班学生的学业水平等级”,求C发生的概率;
②从甲班中随机抽取2人,记X为学业水平优秀的人数,求X的分布列和数学期望.
[解](1)由茎叶图能得到甲>乙,s<s.
(2)①记A1,A2,A3分别表示事件:甲班学生学业水平成绩为一般,良好,优秀;
记B1,B2,B3分别表示事件:乙班学生学业水平成绩为一般,良好,优秀,则
P(C)=P(A2B1∪A3B1∪A3B2)=P(A2B1)+P(A3B1)+P(A3B2)=P(A2)P(B1)+P(A3)P(B1)+P(A3)P(B2)
=×+×+×=.
②从甲班随机抽取1人,其学业水平优秀的概率为,
所以,随机变量X的所有可能取值为0,1,2,且X~B.
P(X=0)=C=,
P(X=1)=C··=,
P(X=2)=C=.
随机变量X的分布列是:
X
0
1
2
P
数学期望E(X)=2×=.
相关资料
更多