高中数学《用样本估计总体》文字素材2 新人教A版必修3教案
展开2.2用样本估计总体
用随机抽样的方法获得样本,我们就会得到一组数据,统计思想的本质就是用样本估计总体。用样本估计总体,一般有两种方法:一是用样本的频率分布估计总体分布;二是用样本的数字特征估计总体的数字特征。
一、用样本的频率分布估计总体分布
1.频数、频率
将一批数据按照要求分为若干组,各组内数据的个数叫做该组的频数;每组数除以全体数据的个数的值叫做该组的频率。频率反映数据在每组中所占比例的大小。
2.频率分布
根据随机所抽样本的大小,分别计算某一事件出现的频率,这些频率的分布规律(取值状况),就叫做样本的频率分布。为了直观地显示样本的频率分布情况,通常我们会将样本的容量、样本中出现该事件的频数以及计算所得的相应频率列在一张表中,叫做样本频率分布表。
3.用样本的频率分布估计总体分布
从一个总体中得到一个包含大量数据的样本时,我们很难从一个个数字中直接看出样本所包含的信息,如果知道了这些数据的频数分布或频率分布,就可以比较清楚地看出样本数据的特征,从而估计总体的分布情况。用样本估计总体,是研究统计问题的一个基本思想方法,而对于总体分布,我们总是用用样本的频率分布对它进行估计。
4.频率分布直方图
作频率分布直方图的具体步骤:
(1)计算极差:最大值与最小值的差。
(2)决定组距与组数:组距与组数的确定没有固定标准,需要尝试、选择,力求有合适的组数,以能把数据的规律较清楚地呈现为准,太多或太少都不好,不利对数据规律的发现。组数应与样本的容量有关,样本容量越大,组数越多,如果数据的容量不超过100时,按数据多少,通常分为5~12组。
(3)决定分点:分点要比数据多一位小数,便于分组,分组区间采用左闭右开,避免数据被重复计算。
(4)列频率分布表:一般分“分组”、“频数累计”(可省略)、“频数”、“频率”四列,最后一行是“合计”。
注意:频数的合计应是样本容量,频率合计应是1。
(5)画出频率分布直方图:在画频率分布直方图时,纵轴表示“频率/组距”。
说明:①从频率分布直方图可以清楚地看出数据分布的总体趋势;②从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。
5.频率分布条形图与频率分布直方图的联系与区别
频率分布图 | 联系 | 适用范围 | 作图步骤 | 频率表示 |
条形图 | 都是用于表达和分析样本的频率分布情况 | 总体中的个体取值较少 | 直接可由频率分布表作出条形图 | 用矩形条的高度表示频率 |
直方图 | 总体中的个体取值较多、甚至无限 | ①求极差;②定组距与组数;③定分组区间;④列频率分布表;⑤画频率分布直方图 | 用矩形条的面积表示频率 |
6.频率分布折线图、总体密度曲线
(1)频率分布折线图
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。
说明:①频率折线图也是表示估计总体分布情况的一种方法,更能反映总体分布的变化趋势;②频率折线图必须在频率分布直方图的基础上进行;③随着样本容量的增大,所划分的区间数也可以随之增多,而每个区间的长度则会相应随之减少,相应的频率折线图就会越来越接近于一条光滑曲线。
(2)总体密度曲线
一般地,总体的个数越多,所取的样本的容量就越大,分的组数就越多。随着样本容量和组数的增加,相应的频率分布折线图会越来越接近于一条光滑的曲线,这条曲线称作总体密度曲线。
说明:总体密度曲线精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息。
7.茎叶图
当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。
说明:①用茎叶图表示数据有两个优点:一是所有的信息都可以从这个茎叶图中得到;二是茎叶图便于记录和表示,能够展示数据的分布情况。②茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两组以上的数据虽然能够记录,但是没有表示两个记录那么直观、清晰。
二、用样本的数字特征估计总体的数字特征
1.平均数、中位数、众数
(1)平均数:一组数据的总和除以数据的个数所得的商就是平均数。
(2)中位数:如果将一组数据按从小到大的顺序依次排列,当数据有奇数个时,处在最中间的一个数;当数据有偶数个时,处在最中间的两个数的平均数,是这组数据的中位数。
(3)众数:在一批数据中,出现次数最多的数(若有两个或几个数据出现地最多,且出现的次数一样,这些数据都是这组数据的众数;若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数)。
说明:在频率分布直方图中也可以找到众数、中位数。众数根据它的意义可知在频率分布直方图中最高小长方形的中点所对应的数据值即为这组数据的众数;而在频率分布直方图上的中位数左右两侧的直方图面积应该相等,因而可以估计其近似值。
2.平均数、中位数、众数的异同
(1)平均数、中位数、众数都是描述一组数据集中趋势的量,平均数是最重要的量。
(2)平均数的大小与一组数据里每个数据均有关系,任何一个数据的变动都会相应引起平均数的变动。
(3)众数考查各数据出现的频率,大小只与这组数据中的部分数据有关,当一组数据中有不少数据多次重复出现时,其众数往往更能反映问题。
(4)中位数仅与数据的排列位置有关,某些数据的变动对中位数没有影响,中位数可能出现在所给数据中,也可能不在所给数据中。当一组数据中的个别数据变动较大时,可用中位数描述其集中趋势。
(5)实际问题中求得的平均数、众数、中位数都应带上单位。
3.极差、方差、标准差
(1)极差:就是一组数据中最大数与最小数之间的差。
(2)方差:设一组数据为,,…,,这组数据的平均数为,则方差为
。
注:两个简化公式
①;
②。
其中,,…,,是接近原数据的平均数的一个常数。
(3)标准差:标准差是样本数据到平均数的一种平均距离,它用来描述样本数据的离散程度。在实际应用中,标准差常被理解为稳定性。
。
说明:计算样本数据,,…,的标准差的算法
① 算出样本数据的平均数;
② 算出每个样本数据与样本平均数的差(1,2,…,);
③ 算出(1,2,…,);
④ 算出(1,2,…,)这个数的平均数,即为样本方差;
⑤ 算出方差的算术平方根,即为样本标准差。
三、范例剖析
例1 为了了解某地高一年级男生的身高情况,从其中的一个学校选取容量为60的样本(60名男生的身高),分组情况如下:
分组 | 147.5~155.5 | 155.5~163.5 |
频数 | 6 | 21 |
频率 |
|
|
分组 | 163.5~171.5 | 171.5~179.5 |
频数 |
| |
频率 | 0.1 |
求出表中、的值。
分析:由频率的意义,各小组的频数与样本容量的比就是相应各小组的频率,因此易求出第一、二小组的频率,再根据各小组频率之和为1的性质,即可求出;再逆用频率公式,可求出当频率为0.1,样本容量是60时的频数。
解析:第一小组的频率,第二小组的频率,因为各小组频率和为1,所以第三小组频率为=1-(0.1+0.35+0.1)=0.45。
又∵,∴。
评注:统计图表的饿方法有多种多样,各种方法也有各自的优点与不足,一般情况是借助于各自的优点,只要能充分体现其问题的本质即可。
例2 某市对上、下班交通情况做抽样调查,上、下班时间各抽取了12辆机动车行驶速度如下:(单位:)
上班时间:30 33 18 27 32 40 26 28 21 28 35 20
下班时间:27 19 32 29 36 29 30 22 25 16 17 30
用茎叶图表示上面的样本数据,并求出样本数据的中位数。
分析:以十位数为茎,个位数为叶,可以作出相应的茎叶图,从而可据图分析数据的特征。
解析:根据题意绘出该市上、下班交通情况的茎叶图,如图所示。
上班时间 下班时间
由图可见,上班时间行驶时速的中位数是28,下班时间行驶时速的中位数是28。
评注:茎叶图保留了原始数据,所有的数据信息都可以很容易的从表中获得。
例3 某工厂人员及工资构成如下:
人员 | 经理 | 管理人员 | 高级技工 | 工人 | 学徒 | 合计 |
周工资 | 2200 | 250 | 220 | 200 | 100 |
|
人数 | 1 | 6 | 5 | 10 | 1 | 23 |
合计 | 2200 | 1500 | 1100 | 2000 | 100 | 6900 |
(1)指出这个问题中的众数、中位数和平均数;
(2)在这个问题中,平均数能客观地反映该工厂的工资水平吗?为什么?
分析:该例着眼于众数、中位数、平均数各自的特点,以及其使用对象。
解析:由表格可知,众数为200;
∵,∴中位数为250;
平均数为。
虽然平均数为300元/周,但由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。
评注:平均数受数据中的极端值的影响较大,妨碍了对总体估计的可靠性,这时平均数反而不如众数、中位数更为客观。
例4 求一组数据7,6,8,8,5,9,7,7,6,7的方差和标准差。
分析:尝试用不同的方式简化求数据方差的公式。
解法1:∵,
∴
∴。
解法2:同解法一,求得,
∴,
∴。
解法3:将各数据减去7,得一组新数据:
0,-1,1,1,-2,2,0,0,-1,0而,
∴,
∴。
评注:数据的离散程度可以用极差、方差或标准差来描述,极差是一组数据的最大值和最小值的差,它反映了一组数据变化的幅度;样本方差或标准差越大,样本数据的波动就越大,稳定性就越差。