所属成套资源:2020高考数学理科一轮复习导学案
2020高考数学理科大一轮复习导学案:第九章算法初步、统计、统计案例9.3
展开知识点一 用样本的频率分布估计总体分布1.通常我们对总体作出的估计一般分成两种,一种是用样本的频率分布估计总体的频率分布,另一种是用样本的数字特征估计总体的数字特征.2.在频率分布直方图中,纵轴表示,数据落在各小组内的频率用各小长方形的面积表示,各小长方形的面积总和等于1.3.连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑的曲线,统计中称之为总体密度曲线,它能够更加精细的反映出总体在各个范围内取值的百分比.4.当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留所有信息,而且可以随时记录,给数据的记录和表示都带来方便.1.判断正误(1)在频率分布直方图中,小矩形的高表示频率.( × )(2)频率分布直方图中各个长方形的面积之和为1.( √ )2.(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( A )A.91.5和91.5 B.91.5和92C.91和91.5 D.92和92解析:这组数据由小到大排列为87,89,90,91,92,93,94,96,∴中位数是=91.5,平均数==91.5.3.(2019·长沙一中质检)某雷达测速区规定:凡车速大于或等于70 km/h的汽车视为“超速”,并将受到处罚.如图是某路段的一个检测点对200辆汽车的车速进行检测后所作的频率分布直方图,则从图中可以看出被处罚的汽车大约有( B )A.30辆 B.40辆C.60辆 D.80辆解析:从频率分布直方图知,车速大于或等于70 km/h的频率为0.02×10=0.2.由于样本容量为200,故“超速”被罚的汽车约有200×0.2=40(辆).知识点二 用样本的数字特征估计总体的数字特征1.众数、中位数、平均数(1)众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.(2)中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:样本数据的算术平均数,即=(x1+x2+…+xn).在频率分布直方图中,中位数左边和右边的直方图的面积相等.2.样本方差、标准差标准差s=.其中xn是样本数据的第n项,n是样本容量,是平均数.标准差是反映总体波动大小的特征数,样本方差是标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差.4.为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( B )A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数解析:标准差能反映一组数据的稳定程度.故选B.5.(2019·武汉市调研考试)从某选手的7个得分中去掉1个最高分,去掉1个最低分后,剩余5个得分的平均数为91分,如图所示是该选手得分的茎叶图,其中有一个数字模糊,无法辨认,在图中用x表示,则剩余5个得分的方差为6.解析:去掉一个最高分99分,一个最低分87分,剩余的得分为93分,90分,(90+x)分,91分,87分,则=91,解得x=4,所以这5个数的方差s2=[(91-93)2+(91-90)2+(91-94)2+(91-91)2+(91-87)2]=6.1.频率分布直方图的特点(1)频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示,频率=组距×.(2)在频率分布直方图中,各小长方形的面积总和等于1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.2.平均数、方差的公式推广(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.(2)数据x1,x2,…,xn的方差为s2.①数据x1+a,x2+a,…,xn+a的方差也为s2;②数据ax1,ax2,…,axn的方差为a2s2. 考向一 频率分布直方图【例1】 (2019·贵阳市监测考试)A市某校学生社团针对“A市的发展环境”对男、女各10名学生进行问卷调查,每名学生给出评分(满分100分),得到如图(1)所示的茎叶图.(1)计算女生打分的平均分,并根据茎叶图判断男生、女生打分谁更分散(不必说明理由);(2)如图(2)是按该20名学生的评分绘制的频率分布直方图(每个分组包含左端点,不包含右端点),求a的值;(3)从打分在70分以下(不含70分)的学生中抽取2人,求有女生被抽中的概率.【解】 (1)女生打分的平均数为×(68+69+76+75+70+78+79+82+87+96)=78;男生打分比较分散.(2)由茎叶图可知,20名学生中评分在[70,80)内的有9人,则a=÷10=0.045.(3)设“有女生被抽中”为事件A,由茎叶图可知,有4名男生,2名女生的打分在70分以下(不含70分),其中4名男生分别记为a,b,c,d,2名女生分别记为m,n,从中抽取2人的基本事件有ab,ac,ad,am,an,bc,bd,bm,bn,cd,cm,cn,dm,dn,mn,共15种,其中有女生被抽中的事件有am,an,bm,bn,cm,cn,dm,dn,mn,共9种,所以P(A)==. 某电子商务公司对10 000名网络购物者2017年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.(1)直方图中的a=3.0;(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为6_000.解析:(1)0.1×1.5+0.1×2.5+0.1×a+0.1×2.0+0.1×0.8+0.1×0.2=1,解得a=3.0.(2)区间[0.5,0.9]内的频率为1-0.1×1.5-0.1×2.5=0.6,则该区间内购物者的人数为10 000×0.6=6 000.考向二 茎叶图【例2】 某良种培育基地正在培育一小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下.品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.(1)作出数据的茎叶图;(2)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.【解】 (1)画出茎叶图如图所示:(2)通过观察茎叶图可以看出:①品种A的亩产平均数(或均值)比品种B高;②品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差. 1.茎叶图的三个关注点1“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一.2重复出现的数据要重复记录,不能遗漏.3给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.2.利用茎叶图解题的关键是抓住“叶”的分布特征,准确从中提炼信息. 某生产车间的甲、乙两位工人生产同一种零件,这种零件的标准尺寸为85 mm,现分别从他们生产的零件中各随机抽取8件进行检测,其尺寸(单位:mm)用茎叶图表示如图所示,则估计( D )A.甲、乙生产的零件尺寸的中位数相等B.甲、乙生产的零件质量相当C.甲生产的零件质量比乙生产的零件质量好D.乙生产的零件质量比甲生产的零件质量好解析:甲生产的零件尺寸是93,89,88,85,84,82,79,78;乙生产的零件尺寸是90,88,86,85,85,84,84,78.故甲生产的零件尺寸的中位数是=84.5,乙生产的零件尺寸的中位数是=85,故A错误;根据数据分析,乙的数据较稳定,故乙生产的零件质量比甲生产的零件质量好,故B,C错误.故选D.考向三 样本的数字特征【例3】 (2019·福州高三考试)随着“互联网+交通”模式的迅猛发展,“共享自行车”在很多城市相继出现.某“共享自行车”运营公司为了了解某地区用户对该公司所提供的服务的满意度,随机调查了40名用户,得到用户的满意度评分如下:用户编号评分用户编号评分用户编号评分用户编号评分1234567891078738192958579846386111213141516171819208886957697788882768921222324252627282930798372749166808374823132333435363738394093787581847781768589用系统抽样法从40名用户中抽取容量为10的样本,且在第一分段里随机抽到的评分数据为92.(1)请你列出抽到的10个样本的评分数据;(2)计算所抽到的10个样本的均值和方差s2;(3)在(2)的条件下,若用户的满意度评分在(-s,+s)之间,则满意度等级为“A级”.试应用样本估计总体的思想,估计该地区满意度等级为“A级”的用户所占的百分比是多少?(精确到0.1%)参考数据:≈5.48,≈5.74,≈5.92.【解】 (1)由题意得,通过系统抽样分别抽取编号为4,8,12,16,20,24,28,32,36,40的评分数据为样本,则样本的评分数据分别为92,84,86,78,89,74,83,78,77,89.(2)由(1)中样本的评分数据可得=×(92+84+86+78+89+74+83+78+77+89)=83,则有s2=×[(92-83)2+(84-83)2+(86-83)2+(78-83)2+(89-83)2+(74-83)2+(83-83)2+(78-83)2+(77-83)2+(89-83)2]=33.(3)解法1:由题意知用户的满意度评分在(83-,83+),即(77.26,88.74)之间,满意度等级为“A级”,由(1)中容量为10的样本评分在(77.26,88.74)之间的有5人,则该地区满意度等级为“A级”的用户所占的百分比约为×100%=50.0%.解法2:由题意知用户的满意度评分在(83-,83+),即(77.26,88.74)之间,满意度等级为“A级”,调查的40名用户的评分数据在(77.26,88.74)之间的共有21人,则该地区满意度等级为“A级”的用户所占的百分比约为×100%=52.5%. 平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小. (1)(2019·北京东城质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最后一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是( C )A.①②③ B.②③④C.①②④ D.①③④(2)(2019·湖南湘东五校联考)已知等差数列{an}的公差为d,若a1,a2,a3,a4,a5的方差为8,则d的值为±2.解析:(1)由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.男生平均每天锻炼时间超过65分钟的概率P1==,女生平均每天锻炼时间超过65分钟的概率P2==,P1>P2,因此④正确.设男生、女生两组数据的平均数分别为甲,乙,标准差分别为s甲,s乙.易求甲=65.2,乙=61.8,知甲>乙,②正确.又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,∴s甲<s乙,③错误,因此符合茎叶图所给数据的结论是①②④.(2)依题意,由等差数列的性质得a1,a2,a3,a4,a5的平均数为a3,则由方差公式得×[(a1-a3)2+(a2-a3)2+(a3-a3)2+(a4-a3)2+(a5-a3)2]=8,所以d=±2. 巧解平均数和方差平均数和方差的计算是每年高考的常考内容,下面介绍平均数和方差的两个计算方法.方法①:找齐法在计算平均数时,如果这些数字都在某个数字左右摆动,就选取一个数字作为标准进行找齐.典例1 计算一组数据的平均数和方差:87,86,90,82,83,85,88,80,79,90.【分析】 这组数据都在85左右摆动,把每个数字减去85后进行计算.【解】 每个数据都减去85后得数据2,1,5,-3,-2,0,3,-5,-6,5,这组数据的平均数是=0,故原数据组的平均数为85+0=85.数据组2,1,5,-3,-2,0,3,-5,-6,5的方差是=13.8,这个方差就是数据组87,86,90,82,83,85,88,80,79,90的方差.归纳总结 找齐法的依据是平均数:==a+;方差:s2==其中a为选取作为标准的数字,在使用找齐法时a的选取可以多种多样,原则是便于计算.方法②:方差的简化公式法方差的一个简化公式是s2=[(x+x+…+x)-n2]=-2,只要把方差公式展开进行重组即可证明.典例2 计算数据54,55,53,56,57,58的方差.【分析】 可以根据简化公式进行计算,也可以把每个数据减去一个数,找齐计算.【解】 解法1:=≈3 083.166 7,=55.5,故s2=3 083.166 7-55.52=2.916 7≈2.92.解法2:每个数据减去55得新数据组-1,0,-2,1,2,3,该组数据的方差与原数据组的方差相等,根据简化公式=≈3.17,==0.5,故s2=3.17-0.52=2.92.归纳总结 方差反映的是数据组偏离平均值的程度,因此把数据组中每一个数据都加上或者都减去一个相同的数不影响方差的大小,当我们计算的数据组较大时,这个方法能有效地简化运算.