第一讲统计初步及其案例练习题
展开
这是一份第一讲统计初步及其案例练习题,共23页。试卷主要包含了 随机抽样,5时的值, 回归分析, 独立性检验, 对立事件的概率, 独立重复试验的概率,7%,即落在之外的概率为0等内容,欢迎下载使用。
第一讲. 统计初步及其案例
基础知识梳理
一.统计基础知识:
1. 随机抽样:
(1).简单随机抽样:设一个总体的个数为N,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.常用抽签法和随机数表法.
(2).系统抽样:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样).
(3).分层抽样:当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样.
2. 普通的众数、平均数、中位数及方差:
(1).众数:一组数据中,出现次数最多的数
(2).平均数:常规平均数:
(3).中位数:从大到小或者从小到大排列,最中间或最中间两个数的平均数
(4).方差:
(5).标准差:s
3 .频率直方分布图中的频率:
(1).频率 =小长方形面积:;频率=频数/总数; 频数=总数*频率
(2).频率之和等于1:;即面积之和为1:
4. 频率直方分布图下的众数、平均数、中位数及方差:
(1).众数:最高小矩形底边的中点
(2).平均数:
(3).中位数:从左到右或者从右到左累加,面积等于0.5时的值
(4).方差:
(5).标准差:s
5. 线性回归直线方程:
(1).公式: 其中:(展开)
(2).线性回归直线方程必过样本中心
(3).正相关;负相关
(4).线性回归直线方程:的斜率中,两个公式中分子、分母对应也相等;中间可以推导得到
6. 回归分析:
(1).残差:(残差=真实值—预报值)
分析:越小越好
(2).残差平方和:
分析:①意义:越小越好; ②计算:
(3).拟合度(相关指数):
分析:①.的常数; ②.越大拟合度越高
(4).相关系数:
分析:①.的常数; ②.正相关;负相关
③.;相关性很弱; ;相关性一般; ;相关性很强
7. 独立性检验:
2×2
合计
合计
(1).2×2列联表(卡方图):
(2).独立性检验公式
①.
②.上界P对照表:
(3).独立性检验步骤:
①.计算观察值:
②.查找临界值:由犯错误概率P,根据上表查找临界值
③.下结论:即认为有P的没把握、有1-P以上的有把握认为两个量相关;
:即认为没有1-P以上的把握认为两个量是相关关系。
二.概率基础知识:
1.等可能性事件(古典概型)的概率:P(A)=; 计算步骤:
(1).计算一次试验的基本事件总数;
(2).设所求事件A,并计算事件A包含的基本事件的个数;
(3).依公式求值;
2. 互斥事件的概率:P(A+B)=P(A)+P(B);
3. 对立事件的概率:P(A)+P()=P(A+)=1.
4. 相互独立事件同时发生的概率:P(A·B)=P(A)·P(B);
5. 独立重复试验的概率:Pn(k)=.
6. 离散型随机变量的分布列:
(1)定义与性质:一般地设离散型随机变量(或或X)可能取的值为,,…………,取每一个值 (1,2,……)的概率P()=,则称下表为随机变量的概率分布,简称的分布列.
…
…
P
P1
P2
…
…
由概率的性质可知,任一离散型随机变量的分布列都具有下述两个性质:
①,1,2,…; ②…=1.
(2)随机变量的数学期望和方差:
①离散型随机变量的数学期望:;期望即平均值,反映随机变量取值的平均水平.
②离散型随机变量的方差:……
方差反映随机变量取值的稳定与波动,集中与离散的程度,越小,稳定性越高,波动越小
③基本性质:;.
7. 常见的离散型随机变量的分布列:
(1)二项分布:
①二项分布的定义:次独立重复试验中,事件A发生的次数是一个随机变量,其所有可能的取值为0,1,2,…n,并且,其中,,随机变量的分布列如下:
0
1
…
…
P
…
称这样随机变量服从二项分布,记作,其中、为参数,并记: .
②二项分布的数学期望与方差:
若~B(n,p),则 ; D =npq(这里q=1-p)
(2) 几何分布:
①几何分布的定义:在独立重复试验中,某事件第一次发生时所作的试验的次数是一个取值为正整数的离散型随机 变量,“”表示在第k次独立重复试验时事件第一次发生.随机变量的概率分布为:
1
2
3
…
k
…
P
p
qp
…
…
②几何分布的数学期望与方差:
如果随机变量服从几何分布,,则,D =其中q=1-p.
(3)超几何分布:对一般情形,一批产品共件,其中有件不合格品,随机取出的件产品中不合格品数
的分布如下表所示,则称服从超几何分布,记为,其中:
…
…
超几何分布的另一种形式:一批产品由a件次品、b件正品组成,今抽取n件(1≤n≤a+b),则次品数ξ的分布列为.
(4)正态分布:
①正态分布的定义及性质:如果连续型随机变量 的概率密度函数为 ,x 其中、为常数,并且>0,则称服从正态分布,记为(,).
②正态分布的数学期望与方差: 期望值E =μ(即平均数,对称轴)
方差(方差越大曲线越分散越矮胖,方差越小曲线越集中越高瘦)
③标准正态分布:
当=0,=1时服从标准的正态分布,记作(0,1)
④两个重要的公式:
.
⑤“3”原则:在实际应用中,通常服从正态分布的随机变量的值一般都落入范围之间,概率为99.7%,即落在之外的概率为0.3%,几乎是不可能发生的,此为小概率事件,如果此事件发生了,就说明此种产品不合格(即ξ不服从正态分布).
⑥正态分布在三个特殊区间内取值的概率值:
8.解答离散型随机变量的分布列及相关问题的一般思路:
(1) 明确随机变量可能取哪些值;
(2)结合事件特点选取恰当的计算方法计算这些可能取值的概率值;
(3)根据分布列和期望、方差公式求解.
例题讲解
1. 统计初步基本概念题型
1.【2019年理全国卷3】《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )
A. B. C. D.
2.【2019年全国卷2】讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是
A. 中位数 B. 平均数
C. 方差 D. 极差
3【2018年理新课标I卷】某地区经过一年的新农村建设,农村的经济收入增加了一倍.实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例.得到如下饼图:
则下面结论中不正确的是
A. 新农村建设后,种植收入减少
B. 新农村建设后,其他收入增加了一倍以上
C. 新农村建设后,养殖收入增加了一倍
D. 新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
4.【2017课标3,理3】某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳
5.【2014高考广东卷.理.6】已知某地区中小学生人数和近视情况分别如图1和如图2所示,为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A., B., C., D.,
6. 【2016高考新课标3理数】某旅游城市为向游客介绍本地的气温情况,绘制了一年中月平均最高气温和平均最低气温的雷达图.图中点表示十月的平均最高气温约为,点表示四月的平均最低气温约为.下面叙述不正确的是( )
(A)各月的平均最低气温都在以上 (B)七月的平均温差比一月的平均温差大
(C)三月和十一月的平均最高气温基本相同 (D)平均气温高于的月份有5个
7. 【 2014湖南2】对一个容量为的总体抽取容量为的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为,则( )
A. B. C. D.
8.【2015高考山东,理8】已知某批零件的长度误差(单位:毫米)服从正态分布,从中随机取一件,其长度误差落在区间(3,6)内的概率为( )
(附:若随机变量ξ服从正态分布 ,则 ,
。)
(A)4.56% (B)13.59% (C)27.18% (D)31.74%
9. 【2014山东.理7】 为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,,第五组,右图是根据试验数据制成的频率分布直方图,已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.6 B.8 C.12 D.18
10.【2015高考新课标2,理3】根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图。以下结论不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
12.【2015高考新课标2,理3】根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图。以下结论不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
11. 【2014高考重庆理第3题】已知变量与正相关,且由观测数据算得样本平均数,,则由该观测的数据算得的线性回归方程可能是( )
12. 【2015高考重庆,理3】重庆市2013年各月的平均气温()数据的茎叶图如下:
则这组数据的中位数是( )
A、19 B、20 C、21.5 D、23
13. 【2014湖北卷4】根据如下样本数据
3
4
5
6
7
8
4.0
2.5
0.5
得到的回归方程为,则( )
A. , B. , C. , D. ,
14.【2015高考广东,理13】已知随机变量服从二项分布,若,,则 .
2.线性回归方程类题型
15.【2016高考新课标3理数】下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
(I)由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明;[来源:学科网ZXXK]
(II)建立关于的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注: 参考数据:,,,≈2.646.
参考公式:相关系数
回归方程 中斜率和截距的最小二乘估计公式分别为:
.
16.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y(单位:千元)的数据如下表:
年份
2007
2008
2009
2010
2011
2012
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(Ⅰ)求y关于t的线性回归方程;
(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
,
2. 频率分布直方图类题型
17.【2019年理全国卷3】为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成两组,每组100只,其中组小鼠给服甲离子溶液,组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记为事件:“乙离子残留在体内的百分比不低于”,根据直方图得到的估计值为.
(1)求乙离子残留百分比直方图中的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
18.【2016年高考四川理数】(本小题满分12分)
我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准(吨)、一位居民的月用水量不超过的部分按平价收费,超出的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5)分成9组,制成了如图所示的频率分布直方图.
(I)求直方图中a的值;
(II)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;
(III)若该市政府希望使85%的居民每月的用水量不超过标准(吨),估计的值,并说明理由.
19.(2010陕西)为了解学生身高情况,某校以10%的比例对全校700名学生按性别进行出样检查,测得身高情况的统计图如下:
(Ⅰ)估计该校男生的人数;
(Ⅱ)估计该校学生身高在170~185cm之间的概率;
(Ⅲ)从样本中身高在180~190cm之间的男生中任选2人,求至少有1人身高在185~190cm之间的概率。
3. 独立性检验类题型
20.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记表示事件“旧养殖法的箱产量低于50kg, 新养殖法的箱产量不低于50kg”,估计的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量50kg
箱产量50kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)
附:
0.050 0.010 0.001
3.841 6.635 10.828
参考答案
1.【答案】C 【详解】由题意得,阅读过《西游记》的学生人数为90-80+60=70,则其与该校学生人数之比为70÷100=0.7.故选C.
2.【答案】A 【详解】设9位评委评分按从小到大排列为.
则①原始中位数为,去掉最低分,最高分,后剩余,
中位数仍为,A正确.
②原始平均数,后来平均数
平均数受极端值影响较大,与不一定相同,B不正确
③
由②易知,C不正确.
④原极差,后来极差显然极差变小,D不正确.
3.【答案】A
4.【答案】A
故选D.
5.【答案】A 【解析】由题意知,样本容量为,其中高中生人数为,高中生的近视人数为,故选A.
6.【答案】D
7.【答案】D【解析】根据抽样调查的原理可得简单随机抽样,分层抽样,系统抽样都必须满足每个个体被抽到的概率相等,即,故选D.
8.【答案】B【解析】用表示 零件的长度,根据正态分布的性质得:
, 故选B.
9.【答案】
10.【答案】D
11.【答案】A
12. 【答案】B. 【解析】从茎叶图知所有数据为8,9,12,15,18,20,20,23,23,28,31,32,中间两个数为20,20,故中位数为20,选B..
13. 【答案】B试题分析:依题意,画散点图知,两个变量负相关,所以,.选B.
14.【答案】.【解析】依题可得且,解得,故应填入.
15.【答案】(Ⅰ)理由见解析;(Ⅱ)1.82亿吨.
解:,,,
,
.
因为与的相关系数近似为0.99,说明与的线性相关相当高,从而可以用线性回归模型拟合与的关系.
(Ⅱ)由及(Ⅰ)得,
,
所以,关于的回归方程为:.
将2016年对应的代入回归方程得:,
所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.
17.11.【解析】(I) 由所给数据计算得(1+2+3+4+5+6+7)=4
(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3
=9+4+1+0+1+4+9=28
=
,.
所求回归方程为.
17.【答案】(1) ,;(2) ,.
【详解】(1)由题得,解得,由,解得.
(2)由甲离子的直方图可得,甲离子残留百分比的平均值为,
乙离子残留百分比的平均值为
18.【答案】(Ⅰ);(Ⅱ)36000;(Ⅲ)2.9.
试题分析:(Ⅰ)由高×组距=频率,计算每组中的频率,因为所有频率之和为1,计算出a的值;(Ⅱ)利用高×组距=频率,先计算出每人月均用水量不低于3吨的频率,再利用频率×样本总数=频数,计算所求人数;(Ⅲ)将前6组的频率之和与前5组的频率之和进行比较,得出2.5≤x0.85,
而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73
相关试卷
这是一份新高考小题微点特训38 统计案例练习题
这是一份统计案例(精选)练习题,共27页。试卷主要包含了27x−a,决定系数R2≈0,6788,3,2x+2,65≈104,635<10<10,【答案】B,【答案】D,【答案】C等内容,欢迎下载使用。
这是一份知识讲解_算法案例_提高练习题,共9页。