高中数学人教B版 (2019)选择性必修 第二册4.3.2 独立性检验学案
展开必备知识·自主学习
1.2×2列联表及随机事件的概率
(1)2×2列联表:如果随机事件A与B的样本数据如下表格形式
在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.
(2)2×2列联表中随机事件的概率:
如上表,记n=a+b+c+d,则
事件A发生的概率可估计为;
事件B发生的概率可估计为;
事件AB发生的概率可估计为.
事件,A发生的概率估计值分别是多少?
提示:P= eq \f(b+d,n) ,P= eq \f(c,n) .
2.独立性检验
(1)定义:在2×2列联表中,定义随机变量
χ2= eq \f(n\b\lc\(\rc\)(\a\vs4\al\c1(ad-bc))2,\b\lc\(\rc\)(\a\vs4\al\c1(a+b))\b\lc\(\rc\)(\a\vs4\al\c1(c+d))\b\lc\(\rc\)(\a\vs4\al\c1(a+c))\b\lc\(\rc\)(\a\vs4\al\c1(b+d))) ,任意给定α(称为显著性水平),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平α对应的分位数),
①若χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称A与B有关),或说有1-α的把握认为A与B有关;
②若χ2
(2)统计学中,常用的显著性水平α以及对应的分位数k如表所示
若χ2
(1)2×2列联表只有4个格子.( × )
提示:2×2列联表核心的数据是中间的4个格子.
(2)χ2的大小是判断事件A与B是否相关的统计量.( √ )
提示:根据独立性检验意义可知.
(3)当χ2≥3.841时,有95%的把握认为事件A与B有关.( √ )
提示:由显著性水平α与它的分位数k的对应表可得.
2.(教材二次开发:例题改编)下面2×2列联表的χ2的值为______.
【解析】χ2= eq \f(30\b\lc\(\rc\)(\a\vs4\al\c1(8×16-2×4))2,10×20×12×18) =10.
答案:10
关键能力·合作学习
类型一 2×2列联表及应用(数据分析、数学运算)
【典例】在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中
有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人的饮食以蔬菜为主,另外33人则以肉类为主.
(1)请根据以上数据作出饮食习惯与年龄的列联表.
(2)求年龄在六十岁以上且饮食以肉类为主的人群的概率.
【解析】(1)饮食习惯与年龄2×2列联表如下:
(2)由列联表得,年龄在六十岁以上且饮食以肉类为主的人群的概率为 eq \f(27,124) .
列2×2列联表的关注点
1.作2×2列联表时,注意应该是4行4列,计算时要准确无误.
2.作2×2列联表时,关键是对涉及的变量分清类别.
【补偿训练】
“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参与马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:
若某人平均每周进行长跑训练天数不少于5天,则称其为“热烈参与者”,否则称为“非热烈参与者”.
(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数;
(2)根据上表的数据,填写下列2×2列联表.
【解析】(1)以200人中“热烈参与者”的频率作为概率,可得该市“热烈参与者”的人数约为20 000× eq \f(40,200) =4 000.
(2)由题可得2×2列联表如下:
类型二 独立性检验(数据分析、数学运算)
角度1 两个变量的独立性检验
【典例】2020年12月30日,国家药品监督管理局附条件批准国药集团中国生物北京生物制品研究所有限责任公司的新型冠状病毒灭活疫苗注册申请.该疫苗是首家获批的国产新冠病毒灭活疫苗,适用于预防由新型冠状病毒感染引起的疾病.2021年1月3日,北京市人民政府新闻办公室召开疫情防控第200场例行新闻发布会,表示不在18-59岁接种年龄段范围的人员,需要等待进一步临床试验数据.近日专家对该年龄段内和该年龄段外的110人进行了临床试验,得到2×2列联表,如表所示:
附:χ2= eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)) ,其中n=a+b+c+d.
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“能接种与年龄段无关”
B.在犯错误的概率不超过0.1%的前提下,认为“能接种与年龄段有关”
C.有99%以上的把握认为“能接种与年龄段无关”
D.有99%以上的把握认为“能接种与年龄段有关”
【解析】选D.根据题干中列联表中数据,计算得
χ2= eq \f(110×(40×30-20×20)2,60×50×60×50) ≈7.822>6.635,参照附表知,在犯错误的概率不超过1%的前提下,认为“能接种与年龄段有关”,即有99%以上的把握认为“能接种与年龄段有关”.
角度2 独立性检验的实际应用
【典例】(2019·全国Ⅰ卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:χ2= eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)) .
【思路导引】(1)用频率估计概率;
(2)计算χ2的数值并说明.
【解析】(1)由调查数据得,男顾客中对该商场服务满意的比率为 eq \f(40,50) =0.8,
因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为 eq \f(30,50) =0.6,
因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)由题可得χ2= eq \f(100×(40×20-30×10)2,50×50×70×30) ≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
独立性检验的关注点
(1)步骤:列表,计算,判断;
(2)注意:①χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.
②判断时把计算结果与临界值比较,其值越大,有关的可信度越高.
1.某人研究中学生的性别与成绩、视力这2个变量的关系,随机抽查52名中学生,得到统计数据如表1与表2,则与性别有关联的可能性较大的变量是________.
表1
表2
【解析】因为χ eq \\al(\s\up1(2),\s\d1(1)) = eq \f(52×(6×22-14×10)2,16×36×32×20) = eq \f(52×82,16×36×32×20) ,
χ eq \\al(\s\up1(2),\s\d1(2)) = eq \f(52×(4×20-16×12)2,16×36×32×20) = eq \f(52×1122,16×36×32×20) ,
所以χ eq \\al(\s\up1(2),\s\d1(2)) >χ eq \\al(\s\up1(2),\s\d1(1)) ,故视力与性别有关联的可能性较大.
答案:视力
2.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如表:
试问:父母吸烟对子女是否吸烟有影响吗?
【解析】由2×2列联表中的数据得
χ2= eq \f(1 520(237×522-83×678)2,320×1 200×915×605) ≈32.52>6.635.
所以,我们有99%的把握认为父母吸烟对子女是否吸烟有影响.
类型三 独立性检验的综合问题(数据分析、逻辑推理、数学运算)
【典例】(2020·新高考全国Ⅰ卷)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面2×2列联表:
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
附:χ2= eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)) .
独立性检验综合应用的方法策略
1.独立性检验在实际中有着广泛的应用,是对实际生活中数据进行分析的一种方法,通过这种分析得出的结论对实际生活或者生产都有一定的指导作用.
2.近几年高考中较少单独考查独立性检验,经常与统计、概率等知识综合.频率分布表、频率分布直方图与独立性检验融合在一起是常见的考查形式,一般需要根据条件列出2×2列联表,计算χ2值,从而解决问题.
(2020·全国Ⅲ卷)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
附:χ2= eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)) ,
【解析】(1)由频数分布表可知,该市一天的空气质量等级为1的概率为 eq \f(2+16+25,100) =0.43,等级为2的概率为 eq \f(5+10+12,100) =0.27,等级为3的概率为 eq \f(6+7+8,100) =0.21,等级为4的概率为 eq \f(7+2+0,100) =0.09.
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为 eq \f(100×20+300×35+500×45,100) =350.
(3)2×2列联表如下:
χ2的观测值k= eq \f(100×\b\lc\(\rc\)(\a\vs4\al\c1(33×8-37×22))2,70×30×55×45) ≈5.820>3.841,
因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
课堂检测·素养达标
1.对于分类变量X与Y的随机变量χ2值,下列说法正确的是( )
A.χ2越大,“X与Y有关系”的可信程度越小
B.χ2越小,“X与Y有关系”的可信程度越小
C.χ2越接近于0,“X与Y没有关系”的可信程度越小
D.χ2越大,“X与Y没有关系”的可信程度越大
【解析】选B.χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,χ2越小,“X与Y有关系”的可信程度越小.
2.下列选项中,哪一个χ2的值可以有99%以上的把握认为A与B有关系( )
A.χ2=2.715 B.χ2=3.910
C.χ2=6.165 D.χ2=7.014
【解析】选D.因为7.014>6.635,查阅χ2表知有99%的把握认为A与B有关系.
3.给出下列实际问题:①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟是否与性别有关系;⑤网吧与青少年的犯罪是否有关系.其中用独立性检验可以解决的问题有( )
A.①②③ B.②④⑤
C.②③④⑤ D.①②③④⑤
【解析】选B.独立性检验是判断两个随机事件是否有关系的方法,而①③都是求概率问题,不能用独立性检验.
4.下面2×2列联表中
a,b的值分别为________.
【解析】因为a+21=73,所以a=52.
又因为a+2=b,所以b=54.
答案:52,54
5.(教材二次开发:例题改编)调查某医院某段时间内婴儿出生的时间与性别的关系,得到数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.
(1)将下面的2×2列联表补充完整;
(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系?
【解析】(1)
(2)由所给数据计算得:
χ2= eq \f(89×(24×26-31×8)2,55×34×32×57) ≈3.689>2.706.
根据临界值表知P(χ2≥2.706)≈0.1.
因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.α=P(χ2≥k)
0.1
0.05
0.01
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
B
eq \x\t(B)
总计
A
8
4
12
eq \x\t(A)
2
16
18
总计
10
20
30
年龄在六十岁以上
年龄在六十岁以下
总计
饮食以蔬菜为主
43
21
64
饮食以肉类为主
27
33
60
总计
70
54
124
平均每周进行长跑训练的天数
不大于2天
3天或4天
不少于5天
人数
30
130
40
热烈参与者
非热烈参与者
总计
男
140
女
55
总计
热烈参与者
非热烈参与者
总计
男
35
105
140
女
5
55
60
总计
40
160
200
能接种
不能接种
总计
18-59岁内
40
20
60
18-59岁外
20
30
50
总计
60
50
110
α=P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
满意
不满意
男顾客
40
10
女顾客
30
20
α=P(χ2≥k)
0.05
0.01
0.001
k
3.841
6.635
10.828
成绩不及格
成绩及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
视力好
视力差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
父母吸烟
父母不吸烟
总计
子女吸烟
237
83
320
子女不吸烟
678
522
1 200
总计
915
605
1 520
PM2.5
SO2
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
PM2.5
SO2
[0,150]
(150,475]
[0,75]
(75,115]
α=P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
人次≤400
人次>400
空气质量好
空气质量不好
α=P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
晚上
白天
总计
男婴
女婴
总计
晚上
白天
总计
男婴
24
31
55
女婴
8
26
34
总计
32
57
89
人教B版 (2019)选择性必修 第二册第四章 概率与统计4.3 统计模型4.3.1 一元线性回归模型学案: 这是一份人教B版 (2019)选择性必修 第二册第四章 概率与统计4.3 统计模型4.3.1 一元线性回归模型学案,共18页。学案主要包含了思路导引,补偿训练等内容,欢迎下载使用。
人教B版 (2019)选择性必修 第二册4.2.5 正态分布学案设计: 这是一份人教B版 (2019)选择性必修 第二册4.2.5 正态分布学案设计,共8页。
高中人教B版 (2019)4.1.1 条件概率学案: 这是一份高中人教B版 (2019)4.1.1 条件概率学案,共9页。学案主要包含了补偿训练,思路导引等内容,欢迎下载使用。