2020届二轮复习统计案例复习学案(全国通用)
展开
统计案例复习
学习目标 1.会求回归直线方程,并用回归直线进行预报.2.理解独立性检验的基本思想及实施步骤.
1.最小二乘法
对于一组数据(xi,yi),i=1,2,…,n,如果它们线性相关,则线性回归方程为=x+,其中==,=- .
2.2×2列联表
2×2列联表如表所示:
B
总计
A
a
b
a+b
c
d
c+d
总计
a+c
b+d
n
其中n=a+b+c+d为样本容量.
3.K2检验
常用随机变量
K2=来检验两个变量是否有关系.
类型一 回归分析
例1 某城市理论预测2010年到2014年人口总数与年份的关系如表所示:
年份201x(年)
0
1
2
3
4
人口数y(十万)
5
7
8
11
19
(1)请画出上表数据的散点图.
(2)请根据上表提供的数据,求出y关于x的线性回归方程=x+.
(3)据此估计2016年该城市人口总数.
解 (1)散点图如图:
(2)因为==2,
==10,
0×5+1×7+2×8+3×11+4×19=132,
02+12+22+32+42=30,
所以==3.2,
=- =3.6;
所以线性回归方程为=3.2x+3.6.
(3)令x=6,则=3.2×6+3.6=22.8,
故估计2016年该城市人口总数为22.8(十万).
反思与感悟 解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.
(3)回归分析.画残差图或计算R2,进行残差分析.
(4)实际应用.依据求得的回归方程解决实际问题.
跟踪训练1 在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:
x(元)
14
16
18
20
22
y(件)
12
10
7
5
3
且知x与y具有线性相关关系,求出y关于x的回归直线方程,并说明拟合效果的好坏.
解 =×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
=142+162+182+202+222=1 660,
=122+102+72+52+32=327,
iyi=14×12+16×10+18×7+20×5+22×3=620,
所以===-1.15.
所以=7.4+1.15×18=28.1,
所以y对x的回归直线方程为=-1.15x+28.1,
列出残差表为
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
所以(yi-i)2=0.3,
(yi-)2=53.2,
R2=1-≈0.994.
所以R2≈0.994,拟合效果较好.
类型二 独立性检验的思想与方法
例2 下表是某地区的一种传染病与饮用水的调查表:
得病
不得病
合计
干净水
52
466
518
不干净水
94
218
312
合计
146
684
830
(1)能否在犯错误概率不超过0.01的前提下认为这种传染病与饮用水的卫生程度有关,请说明理由.
(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析能否在犯错误概率不超过0.025的前提下认为这种疾病与饮用水不干净有关.
解 (1)假设H0:传染病与饮用水无关.把表中的数据代入公式得
K2的观测值k=≈54.21.
∵54.21>6.635,
∴在犯错误的概率不超过0.01的前提下,认为该地区这种传染病与饮用水的卫生程度有关.
(2)依题意得2×2列联表:
得病
不得病
合计
干净水
5
50
55
不干净水
9
22
31
合计
14
72
86
此时,K2的观测值k=≈5.785.
因为5.785>5.024,
所以能在犯错误概率不超过0.025的前提下认为该种疾病与饮用水不干净有关.
反思与感悟 独立性检验问题的求解策略
(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.
(2)K2统计量法:通过公式
k=
先计算观测值k,再与临界值表作比较,最后得出结论.
跟踪训练2 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)
(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯.
(2)根据以上数据完成如表所示的2×2列联表.
主食蔬菜
主食肉类
合计
50岁以下
50岁以上
总计
(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?
解 (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.
(2)2×2列联表如表所示:
主食蔬菜
主食肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
(3)k==10>6.635,
故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.
类型三 数形结合思想在独立性检验中的应用
例3 吃零食是在中学生中普遍存在的现象,吃零食对中学生的身体发育有诸多不利影响,并影响他们的健康成长.下表是性别与喜欢吃零食的列联表:
男
女
合计
喜欢吃零食
5
12
17
不喜欢吃零食
40
28
68
合计
45
40
85
试用等高条形图分析性别与吃零食是否有关系.
解 根据列联表所给的数据,可得出男生中喜欢吃零食的频率为≈0.11,女生中喜欢吃零食的频率为=0.3,两者差距是|0.3-0.11|=0.19.两者相差较大,作出等高条形图如图所示,比较图中两个深色的条形可以发现,女生中喜欢吃零食的频率明显高于男生中喜欢吃零食的频率,因此可以认为性别与喜欢吃零食有关系.
反思与感悟 “数缺形时少直观,形缺数时难入微”恰当地应用数形是提高解题速度、优化解题过程的一种重要方法.
跟踪训练3 某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
解 作2×2列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1 020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出,考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前心情紧张与性格类型有关.
1.若某地财政收入x与支出y满足回归方程=bx+a+ei(单位:亿元)(i=1,2,…),其中=0.8,=2,|ei|