高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表教案设计
展开
这是一份高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表教案设计,共20页。教案主要包含了达标检测,课时练等内容,欢迎下载使用。
8.3 分类变量与列联表
教材分析
本节课选自《2019人教A版高中数学选择性必修第三册》,第七章《随机变量及其分布列》,本节课主本节课主要学习分类变量与列联表
学生前面已经学习了基本获取样本数据的方法,从样本数据中提取信息的方法,也掌握了相互独立事件的概率计算,独立性检验是进一步分析两个分类变量之间是否有关系,是高中数学知识中体现统计思想的重要课节。学习重点应放在独立性检验的统计学原理上,理解独立性检验的基本思想,明确独立性检验的基本步骤。课堂趣味性较强,充分体现了数学在实际生活中的应用,对于提高学生应用意识和数学建模思想有重要意义。
教学目标与核心素养
课程目标
学科素养
A. 通过对典型案例的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法
及初步应用.
B.通过对数据的收集、整理和分析,增强学生的社会实践能力,培养学生分析问题、
解决问题的能力.
1.数学抽象:从特殊实例到一般原理
2.逻辑推理:独立性检验的思想方法
3.数学运算:独立检验的运用
4.数学建模:模型化思想
重点难点
重点:了解独立性检验(只要求2×2列联表)的应用.
难点:独立性检验(只要求2×2列联表)的基本思想、方法
课前准备
多媒体
教学过程
教学过程
教学设计意图
核心素养目标
一、 问题导学
前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等,都是数值变量,数值变量的取值为实数.其大小和运算都有实际含义.
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案。
在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义,本节我们主要讨论取值于{0,1}的分类变量的关联性问题.
二、 探究新知
问题1. 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
这是一个简单的统计问题,最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率,为了方便,我们设f0=经常锻炼的女生数女生总数, f1=经常锻炼的男生数男生总数
那么,只要求出f0和f1的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异,由所给的数据,经计算得到f0=331523≈0.633, f1=473601≈0.787.由f1-f0 ≈ 0.787-0.633=0.154可知,男生经常锻炼的比率比女生高出15.4个百分点.
所以该校的女生和男生在体育锻等的经常性方面有差异,而且男生更经常锻炼.
用n表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以n为样本空间的古典概型,并定义一对分类变量X和Y如下:对于Ω中的每一名学生,
分别令X=0,该生为女生1,该生为男生,y=0,该生不经常锻炼1,该生经常锻炼 ,
“性别对体育锻炼的经常性没有影响”可以描述为P(Y=1|X=0)=P(Y=1|X=1);
“性别对体育锻炼的经常性有影响”可以描述为P(Y=1|X=0)≠P(Y=1|X=1).
我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题.按照条件本概率的直观解释,
如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是P(Y=1|X=0),
而该男生属于经常锻炼群体的概率是P(Y=1|X=1).
为了清楚起见,我们用表格整理数据
性别
锻炼
合计
不经常(Y=0)
经常(Y=1)
女生(X=0)
192
331
523
男生(X=1)
128
473
601
合计
320
804
1124
我们用{X=0,Y=1}表示事件{X=0}和{Y=1}的积事件,用{X=1,Y=1}表示事件{X=1}和{Y=1}的积事件,根据古典概型和条件概率的计算公式,我们有
P(Y=1|X=0)=n(X=0,Y=1)n(X=0)=331523≈0.633;P(Y=1|X=1)=n(X=1,Y=1)n(X=1)=473601≈0.787
由P(Y=1|X=1)>P(Y=1|X=0)
可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼。
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表这种形式的数据统计表称为2×2列联表(contingency table).
2×2列联表给出了成对分类变量数据的交叉分类频数,以右表为例,它包含了X和Y的如下信息:
最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;
最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;
中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;
右下角格中的数是样本空间中样本点的总数。
性别
锻炼
合计
不经常(Y=0)
经常(Y=1)
女生(X=0)
192
331
523
男生(X=1)
128
473
601
合计
320
804
1124
三、 典例解析
例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差异.
解:用Ω表示两所学校的全体学生构成的集合.考虑以Ω为样本空间的古典概型.对于Ω中每一名学生,定义分类变量X和Y如下:X=0,该生来自甲校1,该生来自乙校,y=0,该生数学成绩不优秀1,该生数学成绩优秀 ,
学校
数学成绩
合计
不优秀(Y=0)
优秀(Y=1)
甲校(X=0)
33
10
43
乙校(X=1)
38
7
45
合计
71
17
88
我们将所给数据整理成表(单位:人)
表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件(Y=0)和(Y=1)的频数;最后一列的前两个数分别是事件(X=0)和(X=1)的频数;中间的四个格中的数是事件(X=x,Y=y)(x,y=0,1)的频数;
甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为33 43 ≈0.7674和10 43 ≈ 0.2326;
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为38 45 ≈ 0.8444和7 45 ≈ 0.1556
我们可以用等高堆积条形图直观地展示上述计算结果,如图所示
左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率,通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率,依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)>P(Y=1|X=1).
也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高。
学校
数学成绩
合计
不优秀(Y=0)
优秀(Y=1)
甲校(X=0)
33
10
43
乙校(X=1)
38
7
45
合计
71
17
88
2.两个分类变量之间关联关系的定性分析的方法:
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中aa+b与cc+d值的大小粗略地判断分类变量x和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.
(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变 量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.
等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.
问题2.你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
有可能
“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
考虑以Ω为样本空间的古典概型,设X和Y为定义在Ω上,取值于{0,1}的成对分类变量,我们希望判断事件{X=1}和{Y=1}之间是否有关联。注意到{X=0}和{X=1}, {Y=0}和{Y=1}都是互对立事件,与前面的讨论类似,我们需要判断下面的假定关系H0:P(Y=1|X=0)=P(Y=1|X=1)是否成立,通常称H0为零假设或原假设(null hypothesis).
P(Y=1|X=0)表示从{X=0}中随机选取一个样本点,该样本点属于{X=0,Y=1}的概率;
P(Y=1|X=1)表示从{X=1}中随机选取一个样本点,该样本点属于{X=1,Y=1}的概率。
由条件概率的定义可知,零假设H0等价于P(X=0,Y=1)P(X=0)= P(X=1,Y=1)P(X=1)
或P(X=0,Y=1)P(X=1)=P(X=1,Y=1)P(X=0). ①
考虑以Ω为样本空间的古典概型,设X和Y为定义在Ω上,取值于{0,1}的成对分类变量,我们希望判断事件{X=1}和{Y=1}之间是否有关联。注意到{X=0}和{X=1}, {Y=0}和{Y=1}都是互对立事件,与前面的讨论类似,我们需要判断下面的假定关系H0:P(Y=1|X=0)=P(Y=1|X=1)是否成立,通常称H0为零假设或原假设(null hypothesis).P(Y=1|X=0)表示从{X=0}中随机选取一个样本点,该样本点属于{X=0,Y=1}的概率;
P(Y=1|X=1)表示从{X=1}中随机选取一个样本点,该样本点属于{X=1,Y=1}的概率。
由条件概率的定义可知,零假设H0等价于P(X=0,Y=1)P(X=0)= P(X=1,Y=1)P(X=1)
或P(X=0,Y=1)P(X=1)=P(X=1,Y=1)P(X=0). ①
注意到(X=0)和(X=1)为对立事件,于是P(X=0)=1-P(X=1).
再由概率的性质,我们有P(X=0,Y=1)=P(Y=1)-P(X=1,Y=1).
由此推得①式等价于P(X=1)P(Y=1)=P(X=1,Y=1).
因此,零假设H0等价于{X=1}与{Y=1}独立。
根据已经学过的概率知识,下面的四条性质彼此等价:
{ X=0}与{Y=0}独立;{X=0}与{Y=1}独立;{X=1}与{Y=0}独立;{X=1}与{Y=1}独立。
以上性质成立,我们就称分类变量X和Y独立,这相当于下面四个等式成立;
P(X=0,Y=0)=P(X=0)P(Y=0); P(X=0,Y=1)=P(X=0)P(Y=1);
P(X=1,Y=0)=P(X=1)P(Y=0); P(X=1,Y=1)=P(X=1)P(Y=1). ②
我们可以用概率语言,将零假设改述为H0:分类变量X和Y独立.
假定我们通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示。
表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的频数;最后一列的前两个数分别是事件{X=0}和{X=1}的频数;中间的四个数a,b,c,d是事件{X=x,Y=y}(x, y=0,1)的频数;右下角格中的数n是样本容量。
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
问题3:如何基于②中的四个等式及列联表中的数据,构造适当的统计量,对成对分类变量X和Y是否相互独立作出推断?
在零假设H0成立的条件下,根据频率稳定于概率的原理,由②中的第一个等式,我们可以用概率P(X=0)和P(Y=0)对应的频率的乘积(a+b)(a+c)n2估计概率P(X=0,Y=0),而把(a+b)(a+c)n2视为事件{X=0.Y=0}发生的频数的期望值(或预期值).
这样,该频数的观测值a和期望值(a+b)(a+c)n应该比较接近.
综合②中的四个式子,如果零假设H0成立,下面四个量的取值都不应该太大:
|a−(a+b)(a+c)n|, |b−(a+b)(b+d)n|, |c−(c+d)(a+c)n|, |d−(c+d)(b+d)n| ③ 反之,当这些量的取值较大时,就可以推断H0不成立。
分别考虑③中的四个差的绝对值很困难,我们需要找到一个既合理又能够计算分布的统计量,来推断H0是否成立.
一般来说,若频数的期望值较大,则③中相应的差的绝对值也会较大;而若频数的期望值较小,则③中相应的差的绝对值也会较小.
为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:
χ2=(a−(a+b)(a+c)n)2(a+b)(a+c)n+(b−(a+b)(b+d)n)2(a+b)(b+d)n+(c−(c+d)(a+c)n)2(c+d)(a+c)n+(d−(c+d)(b+d)n)2(c+d)(b+d)n
该表达式可化简为:χ2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d).
统计学家建议,用随机变量χ2取值的大小作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,
否则认为H0成立.
问题4:那么,究竟χ2大到什么程度,可以推断H0不成立呢?或者说,怎样确定判断χ2大小的标准呢?
根据小概率事件在一次试验中不大可能发生的规律, 可以通过确定一个与H0相矛盾的小概率事件来实现,在假定H0的条件下,对于有放回简单随机抽样,当样本容量n充分大时,统计学家得到了χ2的近似分布,忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,
使得下面关系成立:P(χ2≥xα)=α ④
我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准,概率值α越小,临界值xα越大,当总体很大时,抽样有、无放回对χ2的分布影响较小.因此,在应用中往往不严格要求抽样必须是有放回的.
由④式可知,只要把概率值α取得充分小,在假设H0成立的情况下,事件χ2不大可能发生的.根据这个规律,如果该事件发生,我们就可以推断H0不成立.不过这个推断有可能犯错误,但犯错误的概率不会超过α.
独立性检验公式及定义:
提出零假设(原假设)H0:分类变量X和Y独立,假定我们通过简单随机抽样得到了X和Y的抽样数据列联表,在列联表中,如果零假设H0成立,则应满足aa+b≈cc+d,即ad-bc≈0.因此|ad−bc|越小,说明两个分类变量之间关系越弱;|ad−bc|越大,说明两个分类变量之间关系越强.
为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量χ2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d).
χ2独立性检验中几个常用的小概率值和相应的临界值.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.858
临界值的定义:
对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立,我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准,概率值α越小,临界值xα越大.
基于小概率值α的检验规则:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ23.841,所以有 的把握判定主修统计专业与性别有关系.
χ2=50×(13×20-10×7)223×27×20×30≈4.844.
答案:95%
4.在500人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示。问:该种血清能否起到预防感冒的作用?
未感冒
感冒
合计
使用血清
258
242
500
未使用血清
216
284
500
合计
474
526
1000
解:设H0:感冒与是否使用该血清没有关系。
χ2=1000258×284−242×2162474×526×500×500≈7.075
因当H0成立时, χ2≥6.635的概率约为0.01,故有99%的把握认为该血清能起到预防感冒的作用。
P(χ≥x0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
5.随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康情况,得到2×2列联表如下:
室外工作
室内工作
总计
有呼吸系统疾病
150
无呼吸系统疾病
100
总 计
200
(1)补全2×2列联表;
(2)能否在犯错误的概率不超过0.05的前提下认为感染呼吸系统疾病与工作场所有关?
(3)现采用分层抽样从室内工作的居民中抽取一个容量为6的样本,将该样本看成一个总体,从中随机地抽取两人,求两人都有呼吸系统疾病的概率.
解:(1)列联表如下:
室外工作
室内工作
总计
有呼吸系统疾病
150
200
350
无呼吸系统疾病
50
100
150
总 计
200
300
500
所以能在犯错误的概率不超过0.05的前提下认为感染呼吸系统疾病与工作场所有关.
(2)χ2=500×(150×100-200×50)2350×150×200×300≈3.968>3.841.
(3)采用分层抽样从室内工作的居民中抽取6名,其中有呼吸系统疾病的抽4人,无呼吸系统疾病的抽2人,设A为“从中随机地抽取两人,两人都有呼吸系统疾病”,则
P(A)=C42C62=25.
通过练习巩固本节所学知识,通过学生解决问题,发展学生的数学运算、逻辑推理、直观想象、数学建模的核心素养。
四、 小结
五、课时练
通过总结,让学生进一步巩固本节所学内容,提高概括能力。
教学反思
课后通过对教学过程的反思与研究, 才能不断完善教学设计中的不足, 才能提升教材分析的能力和课堂教学实效.
1. 多元展示, 多方评价. 在教学过程中我借问题牵引,保证了课堂教学的顺利实施;而在整个过程中,我对学生所作练习、疑问及时解析评价;学生之间、小组之间的互相评价补充,使学生共享成果分享喜悦,坚定了学好数学的信念,实现了预期目标.
2. 创造性的使用教材. 有别于教材,我在教学中,让学生考察了分别考察了两类题型之后再引导学生进行归纳, 这样更贴近学生的认知水平, 学生课后反馈,效果较为理想.
相关教案
这是一份人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表教案设计,共8页。教案主要包含了教学内容,教学目标,教学重点,具体教学过程设计,教学及课后反思等内容,欢迎下载使用。
这是一份人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表教案,共11页。教案主要包含了教学内容与内容解析,教学目标与目标解析,教学问题诊断解析,教学支持条件分析,教学过程设计,板书设计,目标检测设计等内容,欢迎下载使用。
这是一份数学选择性必修 第三册8.3 分类变量与列联表教学设计,共22页。教案主要包含了本节内容分析,学情整体分析,教学活动准备,教学活动设计等内容,欢迎下载使用。