新高考数学一轮复习课件 第9章 §9.2 用样本估计总体
展开§9.2 用样本估计总体
1.会用统计图表对总体进行估计,会求n个数据的第p百分位数.2.能用数字特征估计总体集中趋势和总体离散程度.
LUOSHIZHUGANZHISHI
1.百分位数一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.2.平均数、中位数和众数(1)平均数: = .(2)中位数:将一组数据按从小到大或从大到小的顺序排列,处在最_____的一个数据(当数据个数是奇数时)或最中间两个数据的 (当数据个数是偶数时).
(3)众数:一组数据中出现次数 的数据(即频数最大值所对应的样本数据).(3)众数:一组数据中出现次数 的数据(即频数最大值所对应的样本数据).3.方差和标准差
(2)标准差:s= .
4.总体(样本)方差和总体(样本)标准差
巧用三个有关的结论(1)若x1,x2,…,xn的平均数为1,那么mx1+a,mx2+a,…,mxn+a的平均数为m+a;(2)数据x1,x2,…,xn与数据x1′=x1+a,x2′=x2+a,…,xn′=xn+a 的方差相等,即数据经过平移后方差不变;(3)若x1,x2,…,xn的方差为s2,那么ax1+b,ax2+b,…,axn+b的方差为a2s2.
判断下列结论是否正确(请在括号中打“√”或“×”)(1)对一组数据来说,平均数和中位数总是非常接近.( )(2)方差与标准差具有相同的单位.( )(3)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.( )(4)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( )
1.(多选)给出一组数据:1,3,3,5,5,5,下列说法正确的是A.这组数据的极差为4B.这组数据的平均数为3C.这组数据的中位数为4D.这组数据的众数为3和5
这组数据的极差为5-1=4,A正确;
2.(多选)下列说法正确的是A.众数可以准确地反映出总体的情况B.一组数据的平均数一定大于这组数据中的每个数据C.平均数、众数与中位数从不同的角度描述了一组数据的集中趋势D.一组数据的方差越大,说明这组数据的波动越大
对于A,众数体现了样本数据的最大集中点,但对其他数据信息的忽略使得无法客观反映总体特征,所以A错误;对于B,一组数的平均数不可能大于这组数据中的每一个数据,所以B错误;对于C,平均数、众数与中位数从不同的角度描述了一组数据的集中趋势,所以C正确;对于D,方差可以用来衡量一组数据波动的大小,方差越小,数据波动越小,方差越大,数据波动越大,所以D正确.
3.一个容量为20的样本,其数据按从小到大的顺序排列为:1,2,2,3,5,6,6, 7,8,8,9,10,13,13,14,15, 17,17,18,18,则该组数据的第75百分位数为______.
∵75%×20=15,
TANJIUHEXINTIXING
样本的数字特征和百分位数的估计
例1 (1)从某中学抽取10名同学,他们的数学成绩如下:82,85,88, 90,92,92,92,96,96,98(单位:分),则这10名同学数学成绩的众数、第25百分位数分别为A.92,85 B.92,88C.95,88 D.96,85
数据92出现了3次,出现的次数最多,所以众数是92;将一组数据按照由小到大的顺序排列,计算10×25%=2.5,取第三个数,第25百分位数是88.
延伸探究 本题中,第70百分位数是多少?
10×70%=7,第70百分位数是第7项与第8项的平均数,为=94.
设7个数为x1,x2,x3,x4,x5,x6,x7,
所以x1+x2+x3+x4+x5+x6+x7=28,(x1-4)2+(x2-4)2+(x3-4)2+(x4-4)2+(x5-4)2+(x6-4)2+(x7-4)2=14,
方差为s2= ×[(x1-4)2+(x2-4)2+(x3-4)2+(x4-4)2+(x5-4)2+(x6-4)2+(x7-4)2+(4-4)2]
某高校分配给某中学一个保送名额,该中学进行校内举荐评选,评选条件除了要求该生获得该校“三好学生”称号,还要求学生在近期连续3次大型考试中,每次考试的名次都在全校前5名(每次考试无并列名次).现有甲、乙、丙、丁四位同学都获得了“三好学生”称号,四位同学在近期连续3次大型考试名次的数据分别为甲同学:平均数为3,众数为2;乙同学:中位数为3,众数为3;丙同学:众数为3,方差小于3;丁同学:平均数为3,方差小于3.则一定符合推荐要求的同学有A.甲和乙 B.乙和丁 C.丙和丁 D.甲和丁
对于甲同学,平均数为3,众数为2,则3次考试的成绩的名次为2,2,5,满足要求;对于乙同学,中位数为3,众数为3,可举反例:3,3,6,不满足要求;对于丙同学,众数为3,方差小于3,可举特例:3,3,6,则平均数为4,
对于丁同学,平均数为3,方差小于3,设丁同学3次考试的名次分别为x1,x2,x3,若x1,x2,x3中至少有一个大于等于6,
与已知条件矛盾,所以x1,x2,x3均不大于5,满足要求.
计算一组n个数据第p百分位数的步骤
跟踪训练1 (1)(多选)已知100个数据的第75百分位数是9.3,则下列说法不正确的是A.这100个数据中一定有75个数小于或等于9.3B.把这100个数据从小到大排列后,9.3是第75个数据C.把这100个数据从小到大排列后,9.3是第75个数据和第76个数据的平 均数D.把这100个数据从小到大排列后,9.3是第75个数据和第74个数据的平 均数
因为100×75%=75为整数,所以第75个数据和第76个数据的平均数为第75百分位数,是9.3,则C正确,其它选项均不正确,故选ABD.
(2)(多选)(2021·新高考全国Ⅰ)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则A.两组样本数据的样本平均数相同B.两组样本数据的样本中位数相同C.两组样本数据的样本标准差相同D.两组样本数据的样本极差相同
设样本数据x1,x2,…,xn的平均数、中位数、标准差、极差分别为 ,m,σ,t,依题意得,新样本数据y1,y2,…,yn的平均数、中位数、标准差、极差分别为 +c,m+c,σ,t,因为c≠0,所以C,D正确.
例2 棉花是我国纺织工业重要的原料.新疆作为我国最大的产棉区,对国家棉花产业发展、确保棉粮安全以及促进新疆农民增收、实现乡村振兴战略都具有重要意义.准确掌握棉花质量现状、动态,可以促进棉花产业健康和稳定的发展.在新疆某地收购的一批棉花中随机抽测了100根棉花的纤维长度(单位:mm),得到样本的频数分布表如右:
(1)在图中作出样本的频率分布直方图;
样本的频率分布直方图如图所示.
(2)根据(1)中作出的频率分布直方图求这一棉花样本的众数、中位数与平均数,并对这批棉花的众数、中位数和平均数进行估计.
由样本的频率分布直方图,
设中位数为x,(x-250)×0.008=50%-48%,解得x=252.5,即中位数为252.5 mm;
=25×0.04+75×0.08+125×0.1+175×0.1+225×0.16+275×0.4+325×0.12=222(mm),
故平均数为222 mm.由样本的这些数据,可得购进的这批棉花的众数、中位数和平均数分别约为275 mm、252.5 mm和222 mm.
(多选)某城市在创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数,满分100分),从中随机抽取一个容量为100的样本,发现数据均在[40,100]内.现将这些分数分成6组并画出样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,则下列说法正确的是A.频率分布直方图中第三组的频数为10B.根据频率分布直方图估计样本的众数为75分C.根据频率分布直方图估计样本的中位数为75分D.根据频率分布直方图估计样本的平均数为75分
分数在[60,70)内的频率为1-10×(0.005+0.020+0.030+0.025+0.010)=0.10,所以第三组的频数为100×0.10=10,故A正确;
因为众数的估计值是频率分布直方图中最高矩形底边的中点的横坐标,从图中可看出众数的估计值为75分,故B正确;
因为(0.005+0.020+0.010)×10=0.35< 0.5,(0.005+0.020+0.010+0.030)×10=0.65>0.5,所以中位数位于[70,80)内,设中位数为x,则0.35+0.03(x-70)=0.5,解得x=75,所以中位数的估计值为75分,故C正确;
样本平均数的估计值为45×(10×0.005)+55×(10×0.020)+65×(10×0.010)+75×(10×0.030)+85×(10×0.025)+95×(10×0.010)=73(分),故D错误.
频率分布直方图的数字特征(1)众数:最高矩形的底边中点的横坐标.(2)中位数:中位数左边和右边的矩形的面积和应该相等.(3)平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.
跟踪训练2 首次实施新高考的八省(市)于2021年1月23日统一举行了新高考适应性考试,在联考结束后,根据联考成绩,考生可了解自己的学习情况,作出升学规划,决定是否参加强基计划.在本次适应性考试中,某学校为了解高三学生的联考情况,随机抽取了100名学生的联考数学成绩作为样本,并按照分数段[50,70),[70,90),[90,110),[110,130),[130,150]分组,绘制了如图所示的频率分布直方图.
(1)求出图中a的值并估计本次考试及格率(“及格率”指得分为90分及以上的学生所占比例);
由频率分布直方图的性质,可得(0.004+a+0.013+0.014+0.016)×20=1,解得a=0.003.所以及格率为(0.016+0.014+0.003)×20=0.66=66%.
(2)估计该校学生联考数学成绩的第80百分位数;
得分在110分以下的学生所占比例为(0.004+0.013+0.016)×20=0.66,得分在130分以下的学生所占比例为0.66+0.014×20=0.94,所以第80百分位数位于[110,130)内,
(3)估计该校学生联考数学成绩的众数、平均数.
由图可得,众数估计值为100分.平均数估计值为0.08×60+0.26×80+0.32×100+0.28×120+0.06×140=99.6(分).
例3 (2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
由表格中的数据易得 ×(-0.2+0.3+0+0.2-0.1-0.2+0+0.1+0.2-0.3)+10.0=10.0, ×(0.1+0.4+0.1+0+0.1+0.3+0.6+0.5+0.4+0.5)+10.0=10.3, ×[(9.7-10.0)2+2×(9.8-10.0)2+(9.9-10.0)2+2×(10.0-10.0)2+(10.1-10.0)2+2×(10.2-10.0)2+(10.3-10.0)2]=0.036, ×[(10.0-10.3)2+3×(10.1-10.3)2+(10.3-10.3)2+2×(10.4-10.3)2+2×(10.5-10.3)2+(10.6-10.3)2]=0.04.
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果 ,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
(1)根据上表补全如图所示的频率分布直方图;
补全后的频率分布直方图如图所示.
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
质量指标值的样本平均数为 =80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+02×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数约为100,方差约为104.
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?
质量指标值不低于95的产品所占比例约为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.
总体离散程度的估计标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
跟踪训练3 (2022·蚌埠质检)某校计划在秋季运动会期间开展“运动与健康”知识大赛,为此某班开展了10次模拟测试,以此选拔选手代表班级参赛,下表为甲、乙两名学生的历次模拟测试成绩.
(2)以这10次模拟测试成绩及(1)中的结果为参考,请你从甲、乙两名学生中选出一人代表班级参加比赛,并说明你作出选择的理由.
答案一:由(1)可知, ,甲、乙两人平均分相同,但甲发挥更稳定,所以可以派甲同学代表班级参赛. 答案二:由(1)可知, ,甲、乙两人平均分相同,两人成绩的方差差距不大,但从10次测试成绩的增减趋势可以发现,甲的成绩总体呈下降趋势,乙的成绩总体呈上升趋势,说明乙的状态越来越好,所以可以派乙同学代表班级参赛.
KESHIJINGLIAN
1.给定一组数据5,5,4,3,3,3,2,2,2,1,则这组数据A.众数为2 B.平均数为2.5C.方差为1.6 D.标准差为4
由题中数据可得,众数为2和3,故A错误;
2.某机构调査了10种食品的卡路里含量,结果如下:107,135,138,140,146, 175,179,182,191,195.则这组数据的第25百分位数和中位数分别是A.138,160.5 B.138,146C.138,175 D.135,160.5
将10个数按从小到大排列,因为10×25%=2.5,所以第25百分位数为第3项138;
3.若数据x1,x2,…,xn的平均数为 ,方差为s2,则4x1-3,4x2-3,…,4xn-3的平均数和标准差分别为
4.某大学共有12 000名学生,为了了解学生课外图书阅读量情况,该校随机地从全校学生中抽取1 000名,统计他们每年阅读的书籍数量,由此来估计全体学生当年的阅读书籍数量的情况,下列估计中正确的是(注:同一组数据用该组区间的中点值作为代表)A.中位数为6B.众数为10C.平均数为6.88D.该校读书不低于8本的人数约为3 600
由图知,中位数x在[4,8)内,所以0.06×4+0.1×(x-4)=0.5,解得x=6.6,A错误;由图知,众数在[4,8)内,故众数为6,B错误;平均数为4×(2×0.06+6×0.1+10×0.07+14×0.015+18×0.005)=6.88,C正确;由图知,该校读书不低于8本的频率之和为1-0.16×4=0.36,所以该校读书不低于8本的人数约为0.36×12 000=4 320,D错误.
5.(多选)(2021·新高考全国Ⅱ)下列统计量中,能度量样本x1,x2,…,xn的离散程度的是A.样本x1,x2,…,xn的标准差B.样本x1,x2,…,xn的中位数C.样本x1,x2,…,xn的极差D.样本x1,x2,…,xn的平均数
由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势.
6.(多选)(2022·深圳模拟)若甲组样本数据x1,x2,…,xn(数据各不相同)的平均数为2,方差为4,乙组样本数据3x1+a,3x2+a,…,3xn+a的平均数为4,则下列说法正确的是A.a的值为-2B.乙组样本数据的方差为36C.两组样本数据的样本中位数一定相同D.两组样本数据的样本极差不同
由题意可知,3×2+a=4,故a=-2,故A正确;乙组样本数据方差为9×4=36,故B正确;设甲组样本数据的中位数为xi,则乙组样本数据的中位数为3xi-2,所以两组样本数据的样本中位数不一定相同,故C错误;甲组数据的极差为xmax-xmin,则乙组数据的极差为(3xmax-2)-(3xmin-2)=3(xmax-xmin),所以两组样本数据的样本极差不同,故D正确.
7.2021年高考某题的第(1)问的得分情况如下:
众数是指一组数据中出现次数最多的数据,根据所给表格知,百分率最高的是0.
其中得分的众数是______.
8.已知数据x1,x2,…,x9的方差为5,则数据3x1+1,3x2+1,…,3x9+1的方差为______.
原数据的方差为5,则线性变换后的数据的方差为32×5=45.
9.自中国进入工业化进程以来,个人的文化水平往往影响或在某种程度上决定了个人的薪酬高低,文化水平较高的人往往收入较高.将个人的文化水平用数字表示,记“没有接受过系统学习或自学的成年人”为最低分25分,“顶级尖端人才”为最高分95分.为了分析A市居民的受教育程度,从A市居民中随机抽取1 000人的文化水平数据X,将样本分成小学
[25,35),初中[35,45),高中[45,55),专科[55,65),本科[65,75),硕士[75,85),博士[85,95]七组,整理后得到如图所示的频率分布直方图.
(1)求样本数据的众数和中位数(保留一位小数);
X∈[25,65)的频率为0.05+0.05+0.15+0.20=0.45<0.50,X∈[25,75)的频率为0.05+0.05+0.15+0.20+0.30=0.75>0.50.
(2)请估计该市居民的平均文化水平.(同组中的每个数据用该组区间的中点值代替)
平均文化水平 =30×0.05+40×0.05+50×0.15+60×0.20+70×0.30+80×0.20+90×0.05=64.5.
10.某家水果店的店长为了解本店苹果的日销售情况,记录了近期连续120天苹果的日销售量(单位:kg),并绘制频率分布直方图如图.
(1)请根据频率分布直方图估计该水果店苹果日销售量的众数、中位数和平均数;(同一组中的数据以这组数据所在区间中点的值作代表)
由题图可知,区间[80,90)的频率最大,所以众数为85,中位数设为x,则0.025+0.1+(x-80)×0.04=0.5,可得x=89.375.
平均数为 =(65×0.002 5+75×0.01+85×0.04+95×0.035+105×0.01+115×0.002 5)×10=89.75.
(2)一次进货太多,水果会变得不新鲜;进货太少,又不能满足顾客的需求.店长希望每天的苹果尽量新鲜,又能90%地满足顾客的需求(在10天中,大约有9天可以满足顾客的需求).请问每天应该进多少千克苹果?
日销售量[60,100)的频率为0.875<0.9,日销售量[60,110)的频率为0.975>0.9,故所求的量位于[100,110).由0.9-0.025-0.1-0.4-0.35=0.025,
故每天应该进102.5千克苹果.
11.已知一组数据1,2,a,b,5,8的平均数和中位数均为4,其中a,b∈N*,在去掉其中的一个最大数后,该组数据一定不变的是A.平均数 B.众数C.中位数 D.标准差
可得a+b=8,又中位数为4,
∴去掉其中的一个最大数后,数据为1,2,a,b,5,
综上,数据变化前后一定不变的是众数.
12.(2022·东三省四市联考)某同学掷骰子5次,并记录了每次骰子出现的点数,得出平均数为2,方差为2.4的统计结果,则下列点数中一定不出现的是A.1 B.2 C.5 D.6
则其余的点数1,2,5都有可能出现.
13.小华同学每天晚上睡觉前要求自己背诵15个英文单词,若超出记为“+”,不足记为“-”,则上周一至周五,他的完成情况分别为-2,-1,x,+4,y,已知这五个数据的平均数是0,方差是5.2,则上周一至周五,小华背诵的单词数量的众数和中位数分别是A.13,14 B.-2,-1C.13,13 D.-2,-2
因为-2,-1,x,+4,y这五个数据的平均数是0,方差是5.2,
不管取哪一组解,这5天的单词量均是以下几个数,13,14,13,19,16,所以众数和中位数分别是13,14.
14.已知一组数据a,b,3,5的中位数为7,平均数为8,则ab=_____.
因为一组数据a,b,3,5的平均数为8,所以 (a+b+3+5)=8,解得a+b=24,若a=b,则a=b=12,此时4个数为3,5,12,12,显然中位数不是7,不妨设a若a>5,则4个数排列为3,5,a,b,则中位数为 =7,解得a=9,则b=15,所以ab=9×15=135.
15.(多选)甲、乙两支田径队的体检结果为:甲队体重的平均数为60 kg,方差为200,乙队体重的平均数为70 kg,方差为300,又已知甲、乙两队的队员人数之比为1∶4,那么甲、乙两队全部队员的平均体重和方差分别是A.68 B.65 C.296 D.306
甲、乙两队全部队员的体重方差为
[300+(70-68)2]=296.
16.中国独有的文书工具,即笔、墨、纸、砚,有文房四宝之名,起源于南北朝时期.其中宣纸是文房四宝的一种,宣纸“始于唐代,产于泾县”,因唐代泾县隶属宣州管辖,故因地得名宣纸.宣纸按质量等级分为正牌(优等品)、副牌(合格品)、废品三等.某公司生产的宣纸为纯手工制作,年产宣纸10 000刀(1刀=100张),该公司按照某种质量指标x给宣纸确定等级如表所示:
在该公司所生产的宣纸中随机抽取了一刀进行检验,得到频率分布直方图如图所示,已知每张正牌宣纸的利润为15元,副牌宣纸的利润为8元,废品的利润为-20元.(1)试估计该公司的年利润;
由频率分布直方图得,一刀宣纸有正牌100×0.1×4=40(张),有副牌100 ×0.05×4×2=40(张),有废品100× 0.025×4×2=20(张),∴该公司一刀宣纸的利润的估计值为40×15+40×8-20×20=520(元),∴估计该公司的年利润为520万元.
(2)市场上有一种售价为100万元的机器可以改进宣纸的生产工艺,但这种机器的使用寿命为一年,只能提高宣纸的质量,不能增加宣纸的年产量.据调查这种机器生产的宣纸的质量指标x如表所示:
其中 为质量指标x的平均值,但是由于人们对传统手工工艺的认可,改进后的正牌和副牌宣纸的利润都将下降3元/张,请问该公司是否购买这种机器,请你为公司提出合理建议,并说明理由.(同一组的数据用该组区间的中点值作代表)
由频率分布直方图得, =42×0.025×4+46×0.05×4+50×0.1×4+54×0.05 ×4+58×0.025×4=50.这种机器生产的宣纸的质量指标x如表所示:
2024年高考数学一轮复习(新高考版) 第9章 §9.2 用样本估计总体课件PPT: 这是一份2024年高考数学一轮复习(新高考版) 第9章 §9.2 用样本估计总体课件PPT,共60页。PPT课件主要包含了落实主干知识,探究核心题型,课时精练,大于或等于,平均数,方差和标准差,填表如下等内容,欢迎下载使用。
高考数学一轮复习第9章第2节用样本估计总体课件: 这是一份高考数学一轮复习第9章第2节用样本估计总体课件,共60页。PPT课件主要包含了算术平均数,中位数,100-p%,小于或等于,i+1,从小到大,np%,√×√等内容,欢迎下载使用。
高考数学(理)一轮复习课件+讲义 第11章 第2讲 用样本估计总体: 这是一份高考数学(理)一轮复习课件+讲义 第11章 第2讲 用样本估计总体,文件包含高考数学理一轮复习课件第11章第2讲用样本估计总体pptx、高考数学理一轮复习讲义第11章第2讲用样本估计总体doc等2份课件配套教学资源,其中PPT共58页, 欢迎下载使用。