千题百炼——高中数学100个热点问题(三):第95炼 统计初步
展开第95炼 高中涉及的统计学知识
一、基础知识:
(一)随机抽样:
1、抽签法:把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到容量为的样本
2、系统抽样:也称为等间隔抽样,大致分为以下几个步骤:
(1)先将总体的个个体编号
(2)确定分段间隔,设样本容量为,若为整数,则
(3)在第一段中用简单随机抽样确定第一个个体编号,则后面每段所确定的个体编号与前一段确定的个体编号差距为,例如:第2段所确定的个体编号为,第段所确定的个体编号为,直至完成样本
注:(1)若不是整数,则先用简单随机抽样剔除若干个个体,使得剩下的个体数能被整除,再进行系统抽样。例如501名学生所抽取的样本容量为10,则先随机抽去1个,剩下的个个体参加系统抽样
(2)利用系统抽样所抽出的个体编号排成等差数列,其公差为
3、分层抽样:也称为按比例抽样,是指在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本。
分层抽样后样本中各层的比例与总体中各个层次的比例相等,这条结论会经常用到
(二)频率分布直方图:
1、频数与频率
(1)频数:指一组数据中个别数据重复出现的次数或一组数据在某个确定的范围内出现的数据的个数.
(2)频率:是频数与数据组中所含数据的个数的比,即频率=频数/总数
(3)各试验结果的频率之和等于1
2、频率分布直方图:若要统计每个小组数据在样本容量所占比例大小,则可通过频率分布表(表格形式)和频率分布直方图(图像形式)直观的列出
(1)极差:一组数据中最大值与最小值的差
(2)组距:将一组数据平均分成若干组(通常5-12组),则组内数据的极差称为组距,所以有组距=极差/组数
(3)统计每组的频数,计算出每组的频率,便可根据频率作出频率分布直方图
(4)在频率分布直方图中:横轴按组距分段,纵轴为“频率/组距”
(5)频率分布直方图的特点:
① 频率=,即分布图中每个小矩形的面积
② 因为各试验结果的频率之和等于1,所以可得在频率分布直方图中,各个矩形的面积和为1
(三)茎叶图:通常可用于统计和比较两组数据,其中茎是指中间的一列数,通常体现数据中除了末位数前面的其他数位,叶通常代表每个数据的末位数。并按末位数之前的数位进行分类排列,相同的数据需在茎叶图中体现多次
(四)统计数据中的数字特征:
1、众数:一组数据中出现次数最多的数值,叫做众数
2、中位数:将一组数据从小到大排列,位于中间位置的数称为中位数,其中若数据的总数为奇数个,则为中间的数;若数据的总数为偶数个,则为中间两个数的平均值。
3、平均数:代表一组数据的平均水平,记为,设一组数据为:,则有:
4、方差:代表数据分布的分散程度,记为,设一组数据为:,其平均数为,则有:,其中越小,说明数据越集中
5、标准差:也代表数据分布的分散程度,为方差的算术平方根
二、典型例题
例1:某校高中部有三个年级,其中高三有学生人,现采用分层抽样法抽取一个容量为的样本,已知在高一年级抽取了人,高二年级抽取了人,则高中部共有学生_______人.
思路:分层抽样即按比例抽样,由高一年级和高二年级的人数可得高三人数为人,所以抽样比为,从而总人数为人
答案:3700
例2:某企业三月中旬生产,A.B.C三种产品共3000件,根据分层抽样的结果;企业统计
员制作了如下的统计表格:
产品类别 | A | B | C |
产品数量(件) |
| 1300 |
|
样本容量(件) |
| 130 |
|
由于不小心,表格中A.C产品的有关数据已被污染看不清楚,统计员记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C的产品数量是 件.
思路:由产品可得抽样比为,所以若A产品的样本容量比C产品的样本容量多10,则A产品的数量比C产品的数量多,且产品数量和为,从而可解得产品的数量为
答案:800
例3:某棉纺厂为了了解一批棉花的质量,从中随机抽测了100根棉花纤维的长度(棉花纤维所得数据均在区间中,其频率分布直方图如图所示,则在抽测的100根中___________根棉花纤维的长度小于15mm.
思路:由频率直方图的横纵轴可得:组距为5mm,所以小于15mm的频率为,所以小于15mm共有根
答案:10
例4:某班甲、乙两位同学升入高中以来的5次数学考试成绩的茎叶图如图,则乙同学这5次数学成绩的中位数是 ;已知两位同学这5次成绩的平均数都是84,成绩比较稳定的是 (第二个空填“甲”或“乙”).
思路:由茎叶图可读出,乙同学的成绩为,甲同学的成绩为,所以乙同学的成绩的中位数为,相比较而言,甲同学的成绩比较集中,所以比较稳定的是甲
答案:,甲
小炼有话说:在求中位数时要注意先将数据从小到大排列,判断成绩稳定,本题甲,乙稳定性的判断定量上要依靠方差,但因为本题从茎叶图上看出甲,乙数据稳定性差距较大,所以定性的判断。
例6:某校从参加高三年级期末考试的学生中随机抽取100名学生,将其数学成绩分成五段:,,它的频率分布直方图如图所示,则该批学生中成绩不低于90分的人数是_____.
思路:的高度未知,但由于直方图体现的是全部样本的情况,所以各部分频率和为1,可以考虑间接法。从图中可观察到的频率为,所以不低于90分的频率为,故人数为(人)
答案:
例7:从某小区抽取100户居民进行月用电量调查,发现其用电量都在50到350度之间,频率分布直方图所示.
(1)直方图中的值为___________;
(2)在这些用户中,用电量落在区间内的户数为_____________.
思路:(1)依题意可得频率直方图中的频率和等于1,由图可得组距为,所以有,解得
(2)图中的频率为,所以用户数为(户)
答案:(1) (2)户
例7:某校1000名学生的数学测试成绩分布直方图如图所示,分数不低于即为优秀,如果优秀的人数为175人,则的估计值是________.
思路:可先从频率直方图中按分数从高到低统计分数段的人数,组距为,从而可得:
的人数为,同理可得的人数为人,而优秀的人数为人,所以应包含的全体,以及中的一半人数,所以估计值为到的中间值,即
答案:
例8:某地区为了解中学生的日平均睡眠时间(单位:),随机选择了位中学生进行调查,根据所得数据,画出样本的频率分布直方图如图所示,且从左到右的第1个、第4个、第2个、第3个小长方形的面积依次构成公差为0.1的等差数列,又第一小组的频数是10,则 _______.
思路:设第一个的面积为,则第4个为,第2个为,第3个为,依题意可得四部分的频率和为,从而可解得,所以,从而
答案:
例9:某单位有职工200名,现要从中抽取40名职工作样本,用系统抽样法,将全体职工随机按1-200编号,并按编号顺序平均分为40组(1-5号,6-10号,…,196-200号).若第5组抽出的号码为22,则第10组抽出的号码应是_________
思路:由系统抽样可知,每组抽出的号码依次成等差数列,且公差为组距,所以,则
答案:47
例10:某单位有840名职工, 现采用系统抽样抽取42人做问卷调查, 将840人按1, 2, …, 840随机编号, 则抽取的42人中, 编号落入区间的人数为 .
思路:由系统抽样可知:组距为,所以区间可拆分为,而每个区间只有一人被抽取,所以共有3人
答案: