还剩20页未读,
继续阅读
所属成套资源:2021高考数学人教版一轮创新教学案
成套系列资料,整套一键下载
2021届高考数学人教版一轮创新教学案:第9章第2讲 用样本估计总体
展开
第2讲 用样本估计总体
[考纲解读] 1.了解频率分布直方图的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,并体会它们各自的特点.(重点)
2.理解样本数据标准差的意义和作用,会计算数据标准差;能从样本数据中提取基本的数字特征,并作出合理的解释.
3.会用样本的频率分布估计总体分布,用样本的基本数字特征估计总体的基本数字特征.(难点)
4.会用随机抽样的基本方法和样本估计总体的思想解决实际问题.
[考向预测] 从近三年高考情况来看,本讲是高考中的一个热点.预测2021年将会考查用样本估计总体,主要体现在利用频率分布直方图或茎叶图估计总体,利用样本数字特征估计总体.题型以客观题呈现,试题难度不大,属中、低档题型.频率分布直方图与茎叶图也可能出现于解答题中,与概率等知识综合命题.
1.作频率分布直方图的步骤
2.频率分布折线图和总体密度曲线
(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图就会越来越接近于一条光滑曲线,即总体密度曲线.
3.茎叶图
(1)茎叶图的概念:统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.
(2)茎叶图的优点:一是所有的信息都可以从这个茎叶图中得到;二是茎叶图便于记录和表示,能够展示数据的分布情况.
4.样本的数字特征
(1)众数、中位数、平均数
数字特征
样本数据
频率分布直方图
优点与缺点
众数
出现次数最多的数据
取最高的小长方形底边中点的横坐标
通常用于描述变量的值出现次数最多的数,但显然它对其他数据信息的忽视使得无法客观地反映总体特征
中位数
将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)
把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标
是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数
样本数据的算术平均数
每个小矩形的面积乘以小矩形底边中点的横坐标之和
平均数和每一个数据有关,可以反映样本数据全体的信息,但平均数受数据中极端值的影响较大,使平均数在估计总体时可靠性降低
(2)方差和标准差
方差:s2=[(x1-)2+(x2-)2+…+(xn-)2],
标准差:
s= .
(3)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越波动;标准差、方差越小,数据的离散程度越小,越稳定.
1.概念辨析
(1)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.( )
(2)从频率分布直方图中得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( )
(3)在频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间内的频率越高.( )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )
答案 (1)× (2)√ (3)√ (4)×
2.小题热身
(1)(2017·全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数
答案 B
解析 因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差.故选B.
(2)若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )
A.91.5和91.5 B.91.5和92
C.91和91.5 D.92和92
答案 A
解析 由茎叶图可知,这组数据的中位数是×(91+92)=91.5,平均数是×(87+89+90+91+92+93+94+96)=91.5.
(3)港珠澳大桥于2018年10月2日正式通车,它是中国境内一座连接香港、珠海和澳门的桥隧工程,桥隧全长55千米.桥面为双向六车道高速公路,大桥通行限速100 km/h,现对大桥某路段上1000辆汽车的行驶速度进行抽样调查.画出频率分布直方图(如图),根据直方图估计在此路段上汽车行驶速度在区间[85,90)的车辆数和行驶速度超过90 km/h的频率分别为( )
A.300 0.25 B.300 0.35
C.60 0.25 D.60 0.35
答案 B
解析 由频率分布直方图,得在此路段上汽车行驶速度在区间[85,90)的频率为0.06×5=0.3,∴在此路段上汽车行驶速度在区间[85,90)的车辆数为0.3×1000=300,行驶速度超过90 km/h的频率为(0.05+0.02)×5=0.35.故选B.
(4)(2019·江苏高考)已知一组数据6,7,8,8,9,10,则该组数据的方差是________.
答案
解析 这组数据的平均数为8,故方差为s2=×[(6-8)2+(7-8)2+(8-8)2+(8-8)2+(9-8)2+(10-8)2]=.
题型一 样本数字特征的计算及应用
1.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数
C.方差 D.极差
答案 A
解析 中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.故选A.
2.(2019·长沙二模)高铁、扫码支付、共享单车、网购并称中国“新四大发明”,近日对全国100个城市的共享单车和扫码支付的使用人数进行大数据分析,其中共享单车使用的人数分别为x1,x2,x3,…,x100,它们的平均数为,方差为s2;其中扫码支付使用的人数分别为3x1+2,3x2+2,3x3+2,…,3x100+2,它们的平均数为′,方差为s′2,则′,s′2分别为( )
A.3+2,3s2+2 B.3,3s2
C.3+2,9s2 D.3+2,9s2+2
答案 C
解析 根据题意,数据x1,x2,…x100的平均数为,方差为s2;则=(x1+x2+x3+…+x100),s2=[(x1-)2+(x2-)2+…+(x100-)2],若3x1+2,3x2+2,3x3+2,…,3x100+2的平均数为′,则′=[(3x1+2)+(3x2+2)+…+(3x100+2)]=3+2,方差s′2=[(3x1+2-3-2)2+(3x2+2-3-2)2+…+(3x100+2-3-2)2]=9s2.
3.一组数据1,10,5,2,x,2,且2
答案 9
解析 根据题意知,该组数据的众数是2,则中位数是2÷=3,把这组数据从小到大排列为1,2,2,x,5,10,则=3,解得x=4,所以这组数据的平均数为=×(1+2+2+4+5+10)=4,方差为s2=×[(1-4)2+(2-4)2×2+(4-4)2+(5-4)2+(10-4)2]=9.
众数、中位数、平均数、方差的意义及常用结论
(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.
(2)方差的简化计算公式:s2=[(x+x+…+x)-n2]或写成s2=(x+x+…+x)-2,即方差等于原数据平方的平均数减去平均数的平方.
(3)平均数、方差的公式推广
①若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.见举例说明2.
②数据x1,x2,…,xn的方差为s2.
a.数据x1+a,x2+a,…,xn+a的方差也为s2;
b.数据ax1,ax2,…,axn的方差为a2s2.见举例说明2.
1.(2019·六安模拟)某样本中共有5个个体,其中4个值分别为0,1,2,3,第5个值丢失,但该样本的平均值为1,则样本方差为( )
A.2 B.
C. D.
答案 A
解析 设第5个值为x,则由题意,得×(0+1+2+3+x)=1,解得x=-1,所以样本方差s2=×[(0-1)2+(1-1)2+(2-1)2+(3-1)2+(-1-1)2]=2.
2.(2019·全国卷Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.
答案 0.98
解析 ==0.98.
则经停该站高铁列车所有车次的平均正点率的估计值为0.98.
题型二 扇形图、折线图
1.(2020·株洲市高三摸底)某市2019年12个月的PM2.5的平均浓度指数如图所示.由图判断,四个季度中PM2.5的平均浓度指数方差最小的是( )
A.第一季度 B.第二季度
C.第三季度 D.第四季度
答案 B
解析 根据图中数据,知第一季度的数据是72.15,43.96,93.13;第二季度的数据是66.5,55.25,58.67;第三季度的数据是59.16,38.67,51.6;第四季度的数据是82.09,104.6,168.05;观察得出第二季度的数据波动性最小,所以第二季度的PM2.5的平均浓度指数方差最小.故选B.
2.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
答案 A
解析 设新农村建设前的收入为M,而新农村建设后的收入为2M,则新农村建设前种植收入为0.6M,而新农村建设后的种植收入为0.74M,所以种植收入增加了,所以A不正确;新农村建设前其他收入为0.04M,新农村建设后其他收入为0.1M,故增加了一倍以上,所以B正确;新农村建设前,养殖收入为0.3M,新农村建设后为0.6M,增加了一倍,所以C正确;新农村建设后,养殖收入与第三产业收入的总和占经济收入的30%+28%=58%>50%,所以超过了经济收入的一半,所以D正确.故选A.
(1)通过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系.
(2)折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.
(2019·东北三省四市教研联合体模拟)“科技引领,布局未来”,科技研发是企业发展的驱动力量.2007年至2018年,某企业连续12年累计研发投入达4100亿元.我们将研发投入与经营收入的比值记为研发投入占营收比.这12年间的研发投入(单位:十亿元)用如图中的条形图表示,研发投入占营收比用如图中的折线图表示.根据折线图和条形图,下列结论错误的是( )
A.2012年至2013年研发投入占营收比增量相比2017年至2018年增量大
B.2013年至2014年研发投入数量相比2015年至2016年增量小
C.该企业连续12年研发投入逐年增加
D.该企业连续12年研发投入占营收比逐年增加
答案 D
解析 由题图可知,该企业在2008年至2009年、2013年至2014年和2016年至2017年研发投入占营收比是下降的,所以D错误.故选D.
题型三 茎叶图及其应用
1.(2019·郑州三模)某同学10次测评成绩的数据如茎叶图所示,总体的中位数为12.若要使该总体的标准差最小,则4x+2y的值是( )
A.12 B.14
C.16 D.18
答案 A
解析 因为总体的中位数为12,所以=12,即x+y=4,所以总体的平均数为×(2+2+3+4+10+x+10+y+19+19+20+21)=11.4.要使总体的标准差最小,只要(10+x-11.4)2+(10+y-11.4)2最小.因为(10+x-11.4)2+(10+y-11.4)2≥2×()2=0.72,当且仅当x=y=2时等号成立,所以4x+2y=12.故选A.
2.某良种培育基地正在培育一小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:
品种A:
357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.
品种B:
363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.
(1)作出数据的茎叶图;
(2)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.
解 (1)画出茎叶图如图所示:
(2)通过观察茎叶图可以看出:①品种A的亩产平均数(或均值)比品种B高;②品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.
1.茎叶图的画法步骤
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将最小茎与最大茎之间的数按大小次序排成一列,写在左(右)侧;有两组数据时,写在中间;
第三步:将各个数据的叶依次写在其茎的右(左)侧.
茎叶图的绘制需注意:①“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;②重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.
2.茎叶图的应用
茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.
1.甲、乙两位射击运动员的5次比赛成绩(单位:环)如茎叶图所示,若两位运动员平均成绩相同,则成绩较稳定(方差较小)的那位运动员成绩的方差为( )
A.2 B.4
C.6 D.8
答案 A
解析 根据茎叶图中的数据知,甲、乙二人的平均成绩相同,即×(87+89+90+91+93)=×(88+89+90+91+90+x),解得x=2,所以平均数为=90;
根据茎叶图中的数据知甲的成绩波动性小,较为稳定(方差较小),所以甲成绩的方差为s2=×[(88-90)2+(89-90)2+(90-90)2+(91-90)2+(92-90)2]=2.故选A.
2.如图茎叶图记录了甲、乙两组各6名学生在一次数学测试中的成绩(单位:分).已知甲组数据的众数为124,乙组数据的平均数为甲组数据的中位数,则x,y的值分别为( )
A.4,5 B.5,4
C.4,4 D.5,5
答案 A
解析 由已知,甲组数据的众数是124,则x=4,即甲组数据的中位数为124.所以×(116+116+125+120+y+128+134)=124,解得y=5.故选A.
题型四 频率分布直方图
角度1 求频率或频数
1.党的十九大报告指出:“脱贫攻坚战取得决定性进展,六千多万贫困人口稳定脱贫,贫困发生率从百分之十点二下降到百分之四以下.”2019年各地根据实际进行创新,精准、高效地完成了脱贫任务.某地区对当地3000户家庭的2019年所得年收入情况调查统计,年收入的频率分布直方图如图所示,数据(单位:千元)的分组依次为[20,40),[40,60),[60,80),[80,100],则年收入不超过6万的家庭大约为( )
A.900户 B.600户
C.300户 D.150户
答案 A
解析 由频率分布直方图得:年收入不超过6万的家庭所占频率为:(0.005+0.010)×20=0.3,∴年收入不超过6万的家庭大约为0.3×3000=900.
角度2 求数字特征
2.某市在对两千多名出租车司机的年龄进行的调查中,从两千多名出租车司机中随机抽选100名司机,已知这100名司机的年龄都在20岁至50岁之间,且根据调查结果得出的年龄情况频率分布直方图如图所示(部分图表污损).利用这个残缺的频率分布直方图,可估计该市出租车司机年龄的中位数大约是( )
A.31.4岁 B.32.4岁
C.33.4岁 D.36.4岁
答案 A
解析 由频率分布直方图可知[20,25)的频率为0.1,[25,30)的频率为0.3,[30,35)的频率为0.35,因为0.1+0.3<0.5<0.1+0.3+0.35,所以中位数x0∈[30,35),由0.1+0.3+(x0-30)×0.07=0.5,得x0≈31.4.故选A.
3.(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
解 (1)由已知得0.70=a+0.20+0.15,
故a=0.35,b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
1.频率分布直方图的性质
(1)小长方形的面积=组距×=频率.见举例说明1.
(2)各小长方形的面积之和等于1.
2.频率分布直方图中的众数、中位数与平均数
(1)最高的小长方形底边中点的横坐标即是众数;
(2)平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标是中位数;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.见举例说明3.
1.(2019·湘潭三模)统计某校n名学生的某次数学同步练习成绩(满分150分),根据成绩分数分成如下6组:[90,100),[100,110),[110,120),[120,130),[130,140),[140,150],并绘制频率分布直方图如图所示,若已知不低于140分的人数为110,则n的值是( )
A.800 B.900
C.1200 D.1000
答案 D
解析 由频率分布直方图的性质,得10×(0.031+0.020+0.016×2+m+0.006)=1,解得m=0.011,∵不低于140分的频率为0.011×10=0.11,∴n==1000.
2.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标
值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125]
频数
6
26
38
22
8
(1)作出这些数据的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?
解 (1)频率分布直方图如图.
(2)质量指标值的样本平均数为
=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
质量指标值的样本方差为
s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.
所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.
(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.
由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.
组 基础关
1.一个频数分布表(样本容量为30)不小心被损坏了一部分,只记得样本中数据在[20,60)上的频率为0.8,则估计样本在[40,60)内的数据个数为( )
A.14 B.15
C.16 D.17
答案 B
解析 由频数分布表可知,样本中数据在[20,40)上的频率为=0.3,又因为样本数据在[20,60)上的频率为0.8,所以样本在[40,60)内的频率为0.8-0.3=0.5,数据个数为30×0.5=15.
2.甲、乙、丙、丁四人参加国际奥林匹克数学竞赛选拔赛,四人的平均成绩和方差如表:
甲
乙
丙
丁
平均成绩
86
89
89
85
方差s2
2.1
3.5
2.1
5.6
从这四人中选择一人参加国际奥林匹克数学竞赛,最佳人选是( )
A.甲 B.乙
C.丙 D.丁
答案 C
解析 丙平均成绩高,方差s2小(稳定),故最佳人选是丙.
3.(2019·全国卷Ⅲ)《西游记》 《三国演义》 《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )
A.0.5 B.0.6
C.0.7 D.0.8
答案 C
解析 解法一:设调查的100位学生中阅读过《西游记》的学生人数为x,则x+80-60=90,解得x=70,所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为=0.7.故选C.
解法二:用Venn图表示调查的100位学生中阅读过《西游记》和《红楼梦》的人数之间的关系如图:
易知调查的100位学生中阅读过《西游记》的学生人数为70,所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为=0.7.故选C.
4.(2019·钦州模拟)某仪器厂从新生产的一批零件中随机抽取40个检测,如图是根据抽样检测后零件的质量(单位:克)绘制的频率分布直方图,样本数据分8组,分别为[80,82),[82,84),[84,86),[86,88),[88,90),[90,92),[92,94),[94,96],则样本的中位数在( )
A.第三组 B.第四组
C.第五组 D.第六组
答案 B
解析 由图可得,前四组的频率为(0.0375+0.0625+0.075+0.1)×2=0.55,则其频数为40×0.55=22,且第四组的频数为40×0.1×2=8,故中位数落在第四组,所以B正确.
5.如图所示,样本A和B分别取自两个不同的总体,它们的样本平均数分别为A和B,样本标准差分别为sA和sB,则( )
A.A>B,sA>sB B.AsB
C.A>B,sA
答案 B
解析 由图可知A组的6个数为2.5,10,5,7.5,2.5,10,B组的6个数为15,10,12.5,10,12.5,10,
所以A==6.25,
B=≈11.67.显然AsB,故选B.
6.(2019·合肥一模)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图和90后从事互联网行业岗位分布条形图,则下列结论中不一定正确的是( )
注:90后指1990年及以后出生,80后指1980~1989年之间出生,80前指1979年及以前出生.
A.互联网行业从业人员中90后占一半以上
B.互联网行业中从事技术岗位的人数超过总人数的20%
C.90后从事运营岗位的人数比80前从事互联网行业的人数多
D.互联网行业中90后从事技术岗位的人数比80后从事技术岗位的人数多
答案 D
解析 对于A,由饼状图可知互联网行业从业人员中90后占了56%,故A正确.对于B,由条形图可知互联网行业中从事技术岗位的人数占总人数的比例为39.6%,故B正确.对于C,由两图数据可计算出整个互联网行业从事运营岗位的90后占56%×17%=9.52%,大于互联网行业中的80前总人数,故C正确.对于D,因为80后从事技术岗位的人数所占比例不清楚,所以互联网行业中从事技术岗位的90后人数不一定比80后的人数多,故D错误.故选D.
7.(2020·重庆名校联盟调研)在样本频率分布直方图中共有9个小矩形,若其中1个小矩形的面积等于其他8个小矩形面积和的,且样本容量为210,则该组的频数为( )
A.28 B.40
C.56 D.60
答案 D
解析 设该小矩形的面积为x,9个小矩形的总面积为1,则其他8个小矩形的面积和为x,所以x+x=1,所以x=,所以该组的频数为×210=60.
8.(2020·贵阳模拟)某地的中小学办学条件在政府的教育督导下,迅速得到改善.教育督导一年后,分别随机抽查了初中(用A表示)与小学(用B表示)各10所学校,得到相关指标的综合评价得分(百分制)的茎叶图如图所示,则从茎叶图可得出正确的信息为(80分及以上为优秀)( )
①初中得分与小学得分的优秀率相同
②初中得分与小学得分的中位数相同
③初中得分的方差比小学得分的方差大
④初中得分与小学得分的平均值相同
A.①② B.①③
C.②④ D.③④
答案 B
解析 从茎叶图可知抽查的初中得分的优秀率为×100%=30%,小学得分的优秀率为×100%=30%,故①正确;初中得分的中位数为75.5,小学得分的中位数为72.5,故②不正确;从茎叶图可知初中得分比小学得分分散,所以初中得分的方差比小学得分的方差大,故③正确;初中得分的平均值为75.7,小学得分的平均值为75,故④不正确.所以正确的信息为①③,故选B.
9.已知一组数据x1,x2,…,xn的方差为2,若数据ax1+b,ax2+b,…,axn+b(a>0)的方差为8,则a的值为________.
答案 2
解析 根据方差的性质,知a2×2=8,解得a=2.
10.某学校随机抽取了部分学生,对他们每周使用手机的时间进行统计,得到如下的频率分布直方图.若从每周使用时间在[15,20),[20,25),[25,30]三组内的学生中用分层抽样的方法选取8人进行访谈,则应从使用时间在[20,25)内的学生中应选取的人数为________.
答案 3
解析 由频率分布直方图,知5×(0.01+0.02+a+0.04+0.04+0.06)=1,解得a=0.03,即使用时间在[15,20),[20,25),[25,30]三组内的学生人数之比为4∶3∶1,则从每周使用时间在[15,20),[20,25),[25,30]三组内的学生中用分层抽样的方法选取8人进行访谈,则应从使用时间在[20,25)内的学生中应选取的人数为×8=3.
组 能力关
1.某校高二(1)班一次阶段考试数学成绩的茎叶图和频率分布直方图可见部分如图,根据图中的信息,可确定被抽测的人数及分数在[90,100]内的人数分别为( )
A.20,2 B.24,4
C.25,2 D.25,4
答案 C
解析 由频率分布直方图可知,组距为10,所以[50,60)的频率为0.008×10=0.08,由茎叶图可知[50,60)的人数为2,设参加本次考试的总人数为N,则N==25,根据频率分布直方图可知[90,100]内的人数与[50,60)的人数一样,都是2.故选C.
2.(2019·葫芦岛一模)一个样本容量为10的样本数据,它们组成一个公差为2的等差数列{an},若a1,a3,a7成等比数列,则此样本的平均数和中位数分别是( )
A.12,13 B.13,13
C.13,12 D.12,14
答案 B
解析 依题意a=a1a7,∴(a1+4)2=a1(a1+6×2),解得a1=4,所以此样本的平均数为=13,中位数为=13.
3.(2019·马鞍山模拟)某养猪场定购了一批仔猪,从中随机抽查了100头仔猪的体重(单位:斤),经数据处理得到如图1的频率分布直方图,其中体重最轻的14头仔猪的体重的茎叶图如图2,为了将这批仔猪分栏喂养,需计算频率分布直方图中的一些数据,其中a+b的值为( )
A.0.144 B.0.152
C.0.76 D.0.076
答案 B
解析 由题意得2(c+d)×5==0.24,∴a+b==0.152.
4.某车间将10名技工平均分成甲、乙两组加工某种零件,在单位时间内每个技工加工的合格零件数的统计数据的茎叶图如图所示,已知两组技工在单位时间内加工的合格零件的平均数都为10.
(1)求出m,n的值;
(2)求出甲、乙两组技工在单位时间内加工的合格零件的方差s和s,并由此分析两组技工的加工水平.
解 (1)根据题意可知:甲=×(7+8+10+12+10+m)=10,乙=×(9+n+10+11+12)=10,所以m=3,n=8.
(2)s=×[(7-10)2+(8-10)2+(10-10)2+(12-10)2+(13-10)2]=5.2,
s=×[(8-10)2+(9-10)2+(10-10)2+(11-10)2+(12-10)2]=2,因为甲=乙,s>s,所以甲、乙两组的整体水平相当,乙组更稳定一些.
组 素养关
(2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组
企业数
[-0.20,0)
2
[0,0.20)
24
[0.20,0.40)
53
[0.40,0.60)
14
[0.60,0.80)
7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:≈8.602.
解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为
=0.21.
产值负增长的企业频率为=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)=×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,s2=i(yi-)2=×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.0296,s==0.02×≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
第2讲 用样本估计总体
[考纲解读] 1.了解频率分布直方图的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,并体会它们各自的特点.(重点)
2.理解样本数据标准差的意义和作用,会计算数据标准差;能从样本数据中提取基本的数字特征,并作出合理的解释.
3.会用样本的频率分布估计总体分布,用样本的基本数字特征估计总体的基本数字特征.(难点)
4.会用随机抽样的基本方法和样本估计总体的思想解决实际问题.
[考向预测] 从近三年高考情况来看,本讲是高考中的一个热点.预测2021年将会考查用样本估计总体,主要体现在利用频率分布直方图或茎叶图估计总体,利用样本数字特征估计总体.题型以客观题呈现,试题难度不大,属中、低档题型.频率分布直方图与茎叶图也可能出现于解答题中,与概率等知识综合命题.
1.作频率分布直方图的步骤
2.频率分布折线图和总体密度曲线
(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图就会越来越接近于一条光滑曲线,即总体密度曲线.
3.茎叶图
(1)茎叶图的概念:统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.
(2)茎叶图的优点:一是所有的信息都可以从这个茎叶图中得到;二是茎叶图便于记录和表示,能够展示数据的分布情况.
4.样本的数字特征
(1)众数、中位数、平均数
数字特征
样本数据
频率分布直方图
优点与缺点
众数
出现次数最多的数据
取最高的小长方形底边中点的横坐标
通常用于描述变量的值出现次数最多的数,但显然它对其他数据信息的忽视使得无法客观地反映总体特征
中位数
将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)
把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标
是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数
样本数据的算术平均数
每个小矩形的面积乘以小矩形底边中点的横坐标之和
平均数和每一个数据有关,可以反映样本数据全体的信息,但平均数受数据中极端值的影响较大,使平均数在估计总体时可靠性降低
(2)方差和标准差
方差:s2=[(x1-)2+(x2-)2+…+(xn-)2],
标准差:
s= .
(3)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越波动;标准差、方差越小,数据的离散程度越小,越稳定.
1.概念辨析
(1)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.( )
(2)从频率分布直方图中得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( )
(3)在频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间内的频率越高.( )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )
答案 (1)× (2)√ (3)√ (4)×
2.小题热身
(1)(2017·全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数
答案 B
解析 因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差.故选B.
(2)若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )
A.91.5和91.5 B.91.5和92
C.91和91.5 D.92和92
答案 A
解析 由茎叶图可知,这组数据的中位数是×(91+92)=91.5,平均数是×(87+89+90+91+92+93+94+96)=91.5.
(3)港珠澳大桥于2018年10月2日正式通车,它是中国境内一座连接香港、珠海和澳门的桥隧工程,桥隧全长55千米.桥面为双向六车道高速公路,大桥通行限速100 km/h,现对大桥某路段上1000辆汽车的行驶速度进行抽样调查.画出频率分布直方图(如图),根据直方图估计在此路段上汽车行驶速度在区间[85,90)的车辆数和行驶速度超过90 km/h的频率分别为( )
A.300 0.25 B.300 0.35
C.60 0.25 D.60 0.35
答案 B
解析 由频率分布直方图,得在此路段上汽车行驶速度在区间[85,90)的频率为0.06×5=0.3,∴在此路段上汽车行驶速度在区间[85,90)的车辆数为0.3×1000=300,行驶速度超过90 km/h的频率为(0.05+0.02)×5=0.35.故选B.
(4)(2019·江苏高考)已知一组数据6,7,8,8,9,10,则该组数据的方差是________.
答案
解析 这组数据的平均数为8,故方差为s2=×[(6-8)2+(7-8)2+(8-8)2+(8-8)2+(9-8)2+(10-8)2]=.
题型一 样本数字特征的计算及应用
1.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数
C.方差 D.极差
答案 A
解析 中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.故选A.
2.(2019·长沙二模)高铁、扫码支付、共享单车、网购并称中国“新四大发明”,近日对全国100个城市的共享单车和扫码支付的使用人数进行大数据分析,其中共享单车使用的人数分别为x1,x2,x3,…,x100,它们的平均数为,方差为s2;其中扫码支付使用的人数分别为3x1+2,3x2+2,3x3+2,…,3x100+2,它们的平均数为′,方差为s′2,则′,s′2分别为( )
A.3+2,3s2+2 B.3,3s2
C.3+2,9s2 D.3+2,9s2+2
答案 C
解析 根据题意,数据x1,x2,…x100的平均数为,方差为s2;则=(x1+x2+x3+…+x100),s2=[(x1-)2+(x2-)2+…+(x100-)2],若3x1+2,3x2+2,3x3+2,…,3x100+2的平均数为′,则′=[(3x1+2)+(3x2+2)+…+(3x100+2)]=3+2,方差s′2=[(3x1+2-3-2)2+(3x2+2-3-2)2+…+(3x100+2-3-2)2]=9s2.
3.一组数据1,10,5,2,x,2,且2
解析 根据题意知,该组数据的众数是2,则中位数是2÷=3,把这组数据从小到大排列为1,2,2,x,5,10,则=3,解得x=4,所以这组数据的平均数为=×(1+2+2+4+5+10)=4,方差为s2=×[(1-4)2+(2-4)2×2+(4-4)2+(5-4)2+(10-4)2]=9.
众数、中位数、平均数、方差的意义及常用结论
(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.
(2)方差的简化计算公式:s2=[(x+x+…+x)-n2]或写成s2=(x+x+…+x)-2,即方差等于原数据平方的平均数减去平均数的平方.
(3)平均数、方差的公式推广
①若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.见举例说明2.
②数据x1,x2,…,xn的方差为s2.
a.数据x1+a,x2+a,…,xn+a的方差也为s2;
b.数据ax1,ax2,…,axn的方差为a2s2.见举例说明2.
1.(2019·六安模拟)某样本中共有5个个体,其中4个值分别为0,1,2,3,第5个值丢失,但该样本的平均值为1,则样本方差为( )
A.2 B.
C. D.
答案 A
解析 设第5个值为x,则由题意,得×(0+1+2+3+x)=1,解得x=-1,所以样本方差s2=×[(0-1)2+(1-1)2+(2-1)2+(3-1)2+(-1-1)2]=2.
2.(2019·全国卷Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.
答案 0.98
解析 ==0.98.
则经停该站高铁列车所有车次的平均正点率的估计值为0.98.
题型二 扇形图、折线图
1.(2020·株洲市高三摸底)某市2019年12个月的PM2.5的平均浓度指数如图所示.由图判断,四个季度中PM2.5的平均浓度指数方差最小的是( )
A.第一季度 B.第二季度
C.第三季度 D.第四季度
答案 B
解析 根据图中数据,知第一季度的数据是72.15,43.96,93.13;第二季度的数据是66.5,55.25,58.67;第三季度的数据是59.16,38.67,51.6;第四季度的数据是82.09,104.6,168.05;观察得出第二季度的数据波动性最小,所以第二季度的PM2.5的平均浓度指数方差最小.故选B.
2.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
答案 A
解析 设新农村建设前的收入为M,而新农村建设后的收入为2M,则新农村建设前种植收入为0.6M,而新农村建设后的种植收入为0.74M,所以种植收入增加了,所以A不正确;新农村建设前其他收入为0.04M,新农村建设后其他收入为0.1M,故增加了一倍以上,所以B正确;新农村建设前,养殖收入为0.3M,新农村建设后为0.6M,增加了一倍,所以C正确;新农村建设后,养殖收入与第三产业收入的总和占经济收入的30%+28%=58%>50%,所以超过了经济收入的一半,所以D正确.故选A.
(1)通过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系.
(2)折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.
(2019·东北三省四市教研联合体模拟)“科技引领,布局未来”,科技研发是企业发展的驱动力量.2007年至2018年,某企业连续12年累计研发投入达4100亿元.我们将研发投入与经营收入的比值记为研发投入占营收比.这12年间的研发投入(单位:十亿元)用如图中的条形图表示,研发投入占营收比用如图中的折线图表示.根据折线图和条形图,下列结论错误的是( )
A.2012年至2013年研发投入占营收比增量相比2017年至2018年增量大
B.2013年至2014年研发投入数量相比2015年至2016年增量小
C.该企业连续12年研发投入逐年增加
D.该企业连续12年研发投入占营收比逐年增加
答案 D
解析 由题图可知,该企业在2008年至2009年、2013年至2014年和2016年至2017年研发投入占营收比是下降的,所以D错误.故选D.
题型三 茎叶图及其应用
1.(2019·郑州三模)某同学10次测评成绩的数据如茎叶图所示,总体的中位数为12.若要使该总体的标准差最小,则4x+2y的值是( )
A.12 B.14
C.16 D.18
答案 A
解析 因为总体的中位数为12,所以=12,即x+y=4,所以总体的平均数为×(2+2+3+4+10+x+10+y+19+19+20+21)=11.4.要使总体的标准差最小,只要(10+x-11.4)2+(10+y-11.4)2最小.因为(10+x-11.4)2+(10+y-11.4)2≥2×()2=0.72,当且仅当x=y=2时等号成立,所以4x+2y=12.故选A.
2.某良种培育基地正在培育一小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:
品种A:
357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.
品种B:
363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.
(1)作出数据的茎叶图;
(2)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.
解 (1)画出茎叶图如图所示:
(2)通过观察茎叶图可以看出:①品种A的亩产平均数(或均值)比品种B高;②品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.
1.茎叶图的画法步骤
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将最小茎与最大茎之间的数按大小次序排成一列,写在左(右)侧;有两组数据时,写在中间;
第三步:将各个数据的叶依次写在其茎的右(左)侧.
茎叶图的绘制需注意:①“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;②重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.
2.茎叶图的应用
茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.
1.甲、乙两位射击运动员的5次比赛成绩(单位:环)如茎叶图所示,若两位运动员平均成绩相同,则成绩较稳定(方差较小)的那位运动员成绩的方差为( )
A.2 B.4
C.6 D.8
答案 A
解析 根据茎叶图中的数据知,甲、乙二人的平均成绩相同,即×(87+89+90+91+93)=×(88+89+90+91+90+x),解得x=2,所以平均数为=90;
根据茎叶图中的数据知甲的成绩波动性小,较为稳定(方差较小),所以甲成绩的方差为s2=×[(88-90)2+(89-90)2+(90-90)2+(91-90)2+(92-90)2]=2.故选A.
2.如图茎叶图记录了甲、乙两组各6名学生在一次数学测试中的成绩(单位:分).已知甲组数据的众数为124,乙组数据的平均数为甲组数据的中位数,则x,y的值分别为( )
A.4,5 B.5,4
C.4,4 D.5,5
答案 A
解析 由已知,甲组数据的众数是124,则x=4,即甲组数据的中位数为124.所以×(116+116+125+120+y+128+134)=124,解得y=5.故选A.
题型四 频率分布直方图
角度1 求频率或频数
1.党的十九大报告指出:“脱贫攻坚战取得决定性进展,六千多万贫困人口稳定脱贫,贫困发生率从百分之十点二下降到百分之四以下.”2019年各地根据实际进行创新,精准、高效地完成了脱贫任务.某地区对当地3000户家庭的2019年所得年收入情况调查统计,年收入的频率分布直方图如图所示,数据(单位:千元)的分组依次为[20,40),[40,60),[60,80),[80,100],则年收入不超过6万的家庭大约为( )
A.900户 B.600户
C.300户 D.150户
答案 A
解析 由频率分布直方图得:年收入不超过6万的家庭所占频率为:(0.005+0.010)×20=0.3,∴年收入不超过6万的家庭大约为0.3×3000=900.
角度2 求数字特征
2.某市在对两千多名出租车司机的年龄进行的调查中,从两千多名出租车司机中随机抽选100名司机,已知这100名司机的年龄都在20岁至50岁之间,且根据调查结果得出的年龄情况频率分布直方图如图所示(部分图表污损).利用这个残缺的频率分布直方图,可估计该市出租车司机年龄的中位数大约是( )
A.31.4岁 B.32.4岁
C.33.4岁 D.36.4岁
答案 A
解析 由频率分布直方图可知[20,25)的频率为0.1,[25,30)的频率为0.3,[30,35)的频率为0.35,因为0.1+0.3<0.5<0.1+0.3+0.35,所以中位数x0∈[30,35),由0.1+0.3+(x0-30)×0.07=0.5,得x0≈31.4.故选A.
3.(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
解 (1)由已知得0.70=a+0.20+0.15,
故a=0.35,b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
1.频率分布直方图的性质
(1)小长方形的面积=组距×=频率.见举例说明1.
(2)各小长方形的面积之和等于1.
2.频率分布直方图中的众数、中位数与平均数
(1)最高的小长方形底边中点的横坐标即是众数;
(2)平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标是中位数;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.见举例说明3.
1.(2019·湘潭三模)统计某校n名学生的某次数学同步练习成绩(满分150分),根据成绩分数分成如下6组:[90,100),[100,110),[110,120),[120,130),[130,140),[140,150],并绘制频率分布直方图如图所示,若已知不低于140分的人数为110,则n的值是( )
A.800 B.900
C.1200 D.1000
答案 D
解析 由频率分布直方图的性质,得10×(0.031+0.020+0.016×2+m+0.006)=1,解得m=0.011,∵不低于140分的频率为0.011×10=0.11,∴n==1000.
2.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标
值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125]
频数
6
26
38
22
8
(1)作出这些数据的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?
解 (1)频率分布直方图如图.
(2)质量指标值的样本平均数为
=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
质量指标值的样本方差为
s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.
所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.
(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.
由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.
组 基础关
1.一个频数分布表(样本容量为30)不小心被损坏了一部分,只记得样本中数据在[20,60)上的频率为0.8,则估计样本在[40,60)内的数据个数为( )
A.14 B.15
C.16 D.17
答案 B
解析 由频数分布表可知,样本中数据在[20,40)上的频率为=0.3,又因为样本数据在[20,60)上的频率为0.8,所以样本在[40,60)内的频率为0.8-0.3=0.5,数据个数为30×0.5=15.
2.甲、乙、丙、丁四人参加国际奥林匹克数学竞赛选拔赛,四人的平均成绩和方差如表:
甲
乙
丙
丁
平均成绩
86
89
89
85
方差s2
2.1
3.5
2.1
5.6
从这四人中选择一人参加国际奥林匹克数学竞赛,最佳人选是( )
A.甲 B.乙
C.丙 D.丁
答案 C
解析 丙平均成绩高,方差s2小(稳定),故最佳人选是丙.
3.(2019·全国卷Ⅲ)《西游记》 《三国演义》 《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )
A.0.5 B.0.6
C.0.7 D.0.8
答案 C
解析 解法一:设调查的100位学生中阅读过《西游记》的学生人数为x,则x+80-60=90,解得x=70,所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为=0.7.故选C.
解法二:用Venn图表示调查的100位学生中阅读过《西游记》和《红楼梦》的人数之间的关系如图:
易知调查的100位学生中阅读过《西游记》的学生人数为70,所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为=0.7.故选C.
4.(2019·钦州模拟)某仪器厂从新生产的一批零件中随机抽取40个检测,如图是根据抽样检测后零件的质量(单位:克)绘制的频率分布直方图,样本数据分8组,分别为[80,82),[82,84),[84,86),[86,88),[88,90),[90,92),[92,94),[94,96],则样本的中位数在( )
A.第三组 B.第四组
C.第五组 D.第六组
答案 B
解析 由图可得,前四组的频率为(0.0375+0.0625+0.075+0.1)×2=0.55,则其频数为40×0.55=22,且第四组的频数为40×0.1×2=8,故中位数落在第四组,所以B正确.
5.如图所示,样本A和B分别取自两个不同的总体,它们的样本平均数分别为A和B,样本标准差分别为sA和sB,则( )
A.A>B,sA>sB B.AsB
C.A>B,sA
解析 由图可知A组的6个数为2.5,10,5,7.5,2.5,10,B组的6个数为15,10,12.5,10,12.5,10,
所以A==6.25,
B=≈11.67.显然A
6.(2019·合肥一模)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图和90后从事互联网行业岗位分布条形图,则下列结论中不一定正确的是( )
注:90后指1990年及以后出生,80后指1980~1989年之间出生,80前指1979年及以前出生.
A.互联网行业从业人员中90后占一半以上
B.互联网行业中从事技术岗位的人数超过总人数的20%
C.90后从事运营岗位的人数比80前从事互联网行业的人数多
D.互联网行业中90后从事技术岗位的人数比80后从事技术岗位的人数多
答案 D
解析 对于A,由饼状图可知互联网行业从业人员中90后占了56%,故A正确.对于B,由条形图可知互联网行业中从事技术岗位的人数占总人数的比例为39.6%,故B正确.对于C,由两图数据可计算出整个互联网行业从事运营岗位的90后占56%×17%=9.52%,大于互联网行业中的80前总人数,故C正确.对于D,因为80后从事技术岗位的人数所占比例不清楚,所以互联网行业中从事技术岗位的90后人数不一定比80后的人数多,故D错误.故选D.
7.(2020·重庆名校联盟调研)在样本频率分布直方图中共有9个小矩形,若其中1个小矩形的面积等于其他8个小矩形面积和的,且样本容量为210,则该组的频数为( )
A.28 B.40
C.56 D.60
答案 D
解析 设该小矩形的面积为x,9个小矩形的总面积为1,则其他8个小矩形的面积和为x,所以x+x=1,所以x=,所以该组的频数为×210=60.
8.(2020·贵阳模拟)某地的中小学办学条件在政府的教育督导下,迅速得到改善.教育督导一年后,分别随机抽查了初中(用A表示)与小学(用B表示)各10所学校,得到相关指标的综合评价得分(百分制)的茎叶图如图所示,则从茎叶图可得出正确的信息为(80分及以上为优秀)( )
①初中得分与小学得分的优秀率相同
②初中得分与小学得分的中位数相同
③初中得分的方差比小学得分的方差大
④初中得分与小学得分的平均值相同
A.①② B.①③
C.②④ D.③④
答案 B
解析 从茎叶图可知抽查的初中得分的优秀率为×100%=30%,小学得分的优秀率为×100%=30%,故①正确;初中得分的中位数为75.5,小学得分的中位数为72.5,故②不正确;从茎叶图可知初中得分比小学得分分散,所以初中得分的方差比小学得分的方差大,故③正确;初中得分的平均值为75.7,小学得分的平均值为75,故④不正确.所以正确的信息为①③,故选B.
9.已知一组数据x1,x2,…,xn的方差为2,若数据ax1+b,ax2+b,…,axn+b(a>0)的方差为8,则a的值为________.
答案 2
解析 根据方差的性质,知a2×2=8,解得a=2.
10.某学校随机抽取了部分学生,对他们每周使用手机的时间进行统计,得到如下的频率分布直方图.若从每周使用时间在[15,20),[20,25),[25,30]三组内的学生中用分层抽样的方法选取8人进行访谈,则应从使用时间在[20,25)内的学生中应选取的人数为________.
答案 3
解析 由频率分布直方图,知5×(0.01+0.02+a+0.04+0.04+0.06)=1,解得a=0.03,即使用时间在[15,20),[20,25),[25,30]三组内的学生人数之比为4∶3∶1,则从每周使用时间在[15,20),[20,25),[25,30]三组内的学生中用分层抽样的方法选取8人进行访谈,则应从使用时间在[20,25)内的学生中应选取的人数为×8=3.
组 能力关
1.某校高二(1)班一次阶段考试数学成绩的茎叶图和频率分布直方图可见部分如图,根据图中的信息,可确定被抽测的人数及分数在[90,100]内的人数分别为( )
A.20,2 B.24,4
C.25,2 D.25,4
答案 C
解析 由频率分布直方图可知,组距为10,所以[50,60)的频率为0.008×10=0.08,由茎叶图可知[50,60)的人数为2,设参加本次考试的总人数为N,则N==25,根据频率分布直方图可知[90,100]内的人数与[50,60)的人数一样,都是2.故选C.
2.(2019·葫芦岛一模)一个样本容量为10的样本数据,它们组成一个公差为2的等差数列{an},若a1,a3,a7成等比数列,则此样本的平均数和中位数分别是( )
A.12,13 B.13,13
C.13,12 D.12,14
答案 B
解析 依题意a=a1a7,∴(a1+4)2=a1(a1+6×2),解得a1=4,所以此样本的平均数为=13,中位数为=13.
3.(2019·马鞍山模拟)某养猪场定购了一批仔猪,从中随机抽查了100头仔猪的体重(单位:斤),经数据处理得到如图1的频率分布直方图,其中体重最轻的14头仔猪的体重的茎叶图如图2,为了将这批仔猪分栏喂养,需计算频率分布直方图中的一些数据,其中a+b的值为( )
A.0.144 B.0.152
C.0.76 D.0.076
答案 B
解析 由题意得2(c+d)×5==0.24,∴a+b==0.152.
4.某车间将10名技工平均分成甲、乙两组加工某种零件,在单位时间内每个技工加工的合格零件数的统计数据的茎叶图如图所示,已知两组技工在单位时间内加工的合格零件的平均数都为10.
(1)求出m,n的值;
(2)求出甲、乙两组技工在单位时间内加工的合格零件的方差s和s,并由此分析两组技工的加工水平.
解 (1)根据题意可知:甲=×(7+8+10+12+10+m)=10,乙=×(9+n+10+11+12)=10,所以m=3,n=8.
(2)s=×[(7-10)2+(8-10)2+(10-10)2+(12-10)2+(13-10)2]=5.2,
s=×[(8-10)2+(9-10)2+(10-10)2+(11-10)2+(12-10)2]=2,因为甲=乙,s>s,所以甲、乙两组的整体水平相当,乙组更稳定一些.
组 素养关
(2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组
企业数
[-0.20,0)
2
[0,0.20)
24
[0.20,0.40)
53
[0.40,0.60)
14
[0.60,0.80)
7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:≈8.602.
解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为
=0.21.
产值负增长的企业频率为=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)=×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,s2=i(yi-)2=×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.0296,s==0.02×≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
相关资料
更多