2021学年8.3 分类变量与列联表优秀教学ppt课件

展开

这是一份2021学年8.3 分类变量与列联表优秀教学ppt课件，文件包含832独立性检验pptx、832独立性检验教学设计docx等2份课件配套教学资源，其中PPT共28页，欢迎下载使用。

1.分类变量用以区别不同的现象或性质的一种特殊的随机变量，称为分类变量。
频数a,b,c,d都是随机变量，而表中的相应数据时这些随机变量的一次观测结果。右下角格中的数n是样本容量。
前面我们通过2×2列联表整理成对分类变量的样本观测数据，并根据随机事件频率的稳定性推断两个分类变量之间是否有关联。对于随机样本而言，因为频率具有随机性，频率与概率之间存在误差，所以我们的推断可能犯错误，而且在样本容量较小时，犯错误的可能性会较大。因此，需要找到一种更为合理的推断方法，同时也希望能对出现错误推断的概率有一定的控制或估算。
设X和Y为定义在以Ω为样本空间上，且取值于{0, 1} 的成对分类变量，我们希望判断事件{X=1}和{Y=1}之间是否有关联。
注意到{X=0}和{X=1}，{Y=0}和{X=1}都互为对立事件。
我们需要判断下面的假定关系：
是否成立，通常称H0 为零假设或原假设。
知识点1：零假设或原假设
这里P(Y=1|X=0)表示从{X=0}中随机选一个样本点，该样本点属于{X=0, Y=1}的概率；P(Y=1|X=1)表示从{X=1}中随机选一个样本点，该样本点属于{X=1, Y=1}的概率。
由条件概率的定义可知，零假设H0等价于
由于{X=0}和{X=1}为对立事件，故有
因此，零假设H0等价于{X=1}与{Y=1}独立。
由于下列四条性质彼此等价：
{X=0}和{Y=0}独立；{X=0}和{Y=1}独立；{X=1}和{Y=0}独立；{X=1}和{Y=1}独立。
如果这些性质成立，我们就称分类变量X和Y独立。这相当于下面四个等式成立:
因此，我们可以用概率语言，将零假设改述为 H0: 分类变量X和Y独立。
思考如何基于②中的四个等式及右侧2×2列联表中的数据，构造适当的统计量，对成对分类变量X和Y是否相互独立作出推断?
所以如果零假设H0成立，下面四个量的取值都不应该太大:
反之，当这些量的取值较大时，就可以推断H0不成立。
显然，分别考虑上面四个差的绝对值很困难，我们需要找到一个既合理又能够计算分布的统计量，来推断H0是否成立。
一般来说，若频数的期望值较大，则差的绝对值也会较大；而若频数的期望值较小，则相应的差的绝对值也会较小。为了合理地平衡这种影响，我们将四个差的绝对值取平方后分别除以相应的期望值再求和，得到如下的统计量:
上述表达式是χ2的计算公式， χ2读作“卡方”。
知识点2：χ2的计算公式
随机变量χ2取值的大小可作为判断零假设H0是否成立的依据，当它比较大时推断H0不成立，否则认为H0成立。那么，究竟χ2大到什么程度，可以推断H0不成立呢? 或者说，怎样确定判断χ2大小的标准呢?小概率值α的临界值: 忽略χ2的实际分布与该近似分布的误差后，对于任何小概率值α，可以找到相应的正实数xα，使得P(χ2 ≥xα)=α成立。我们称xα为α的临界值，这个临界值就可作为判断χ2大小的标准，概率值α越小，临界值xα越大。由P(χ2 ≥xα)=α可知，只要把概率值α取得充分小，在假设H0成立的情况下，事件{χ2 ≥xα}是不大可能发生的。根据这个规律，如果该事件发生，我们就可以推断H0不成立。不过这个推断可能犯错误，但犯错误的概率不会超过α。
当χ2≥xα时，我们就推断H0不成立，即认为X和Y不独立，该推断犯错误的概率不超过α；当χ2例如，对于小概率值α=0.05，我们有如下的具体检验规则: (1)当χ2 ≥x0.05=3.841时，我们推断H0不成立，即认为X和Y不独立，该推断犯错误的概率不超过0.05;(2)当χ2 知识点3：基于小概率值α的检验规则
解：零假设为H0: 分类变量X与Y相互独立，即两校学生的数学成绩优秀率无差异。根据表中数据，计算得到：
例2 依据小概率值α=0.1的χ2 独立性检验，分析例1中的抽样数据，能否据此推断两校学生的数学成绩优秀率有差异?
根据小概率值α=0.1的χ2独立性检验，没有充分证据推断H0不成立，因此可以认为H0成立，即认为两校的数学成绩优秀率没有差异。
思考例1和例2都是基于同一组数据的分析，但却得出了不同的结论，你能说明其中的原因吗?
事实上，如前所述，例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论，并没有考虑由样本随机性可能导致的错误，所以例1的推断依据不太充分。在例2中，我们用χ2独立性检验对零假设H0进行了检验。通过计算，发现χ2 ≈0.837小于α=0.1所对应的临界值2.706，因此认为没有充分证据推断H0不成立，所以接受H0 ，推断出两校学生的数学成绩优秀率没有显著差异的结论。这个检验结果意味着，抽样数据中两个频率的差异很有可能是由样本随机性导致的。因此，只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的。由此可见，相对于简单比较两个频率的推断，用χ2独立性检验得到的结果更理性、更全面，理论依据也更充分。
例3 某儿童医院用甲、乙两种疗法治疗小儿消化不良。采用有放回简单随机抽样的方法对治疗情况进行检查，得到了如下数据：抽到接受甲种疗法的患儿67名，其中未治愈15名，治愈52名；抽到接受乙种疗法的患儿69名，其中未治愈6名，治愈63名。试根据小概率值α=0.005的独立性检验，分析乙种疗法的效果是否比甲种疗法好。
根据小概率值α=0.005的χ2独立性检验，没有充分证据推断H0不成立，因此可以认为H0成立，即认为两种疗法效果没有差异。
解：零假设为H0: 疗法与疗效独立，即两种疗法效果没有差异。由已知数据列出列联表。
观察在例3的2×2列联表中，若对调两种疗法的位置或对调两种疗效的位置，则卡方计算公式中a, b, c, d的赋值都会相应地改变。这样做会影响χ2取值的计算结果吗?
这说明，对调两种疗法的位置，不会影响χ2取值的计算结果，同理对调两种疗效的位置也不会影响结果。
对犯错误概率的解释在零假设H0成立的前提下，随着小概率值α的逐渐减小，χ2统计量对应的临界值xα逐渐增大，则事件{χ2 ≥xα}越来越不容易发生，零假设越来越不容易被拒绝；随着小概率值α的逐渐增大，χ2统计量对应的临界值xα逐渐减小，则事件{χ2 ≥xα}越来越容易发生，零假设越来越容易被拒绝。例如，对于例3中的数据，经计算得χ2 ≈4.881。(1)当小概率值α=0.005时，x0.005=7.879，此时χ2 ≈4.881<7.879，则没有充分理由拒绝零假设。因此可以接受H0，即认为两种疗法的效果没有差异；(2)当小概率值α=0.05时，x0.05=3.841，此时χ2 ≈4.881>3.841，则拒绝零假设，即认为两种疗法的效果有差异，该推断犯错误的概率不超过0.05；(3)当小概率值α=0.1时，x0.05=2.706，此时χ2 ≈4.881>2.706，则拒绝零假设，即认为两种疗法的效果有差异，该推断犯错误的概率不超过0.1。
应用独立性检验解决实际问题大致应包括以下几个主要环节: (1) 提出零假设H0: X和Y相互独立，并给出在问题中的解释； (2) 根据抽样数据整理出2×2列联表，计算χ2的值，并与临界值xα比较； (3) 根据检验规则得出推断结论； (4) 在X和Y不独立的情况下，根据需要，通过比较相应的频率，分析X和Y间的影响规律。注意：上述几个环节的内容可以根据不同情况进行调整。例如，在有些时候，分类变量的抽样数据列联表是问题中给定的。
知识点4：独立性检验的基本步骤
解：零假设为H0: 吸烟与患肺癌之间无关联，由表中数据可得：
例4 为研究吸烟是否与肺癌有关，某肿瘤研究所采取有放回简单随机抽样的方法，调查了9965人，得到成对样本观测数据的分类统计结果，如下表所示。依据小概率值α=0.001的独立性检验，分析吸烟是否会增加患肺癌的风险。
根据小概率值α=0.001的χ2独立性检验，推断H0不成立，即认为吸烟与患肺癌有关联，此推断犯错误的概率不大于0.001。
解：根据列联表中的数据计算，不吸烟者中不患肺癌和患肺癌的频率分别为：
吸烟者中不患肺癌和患肺癌的频率分别为：
在被调查者中，吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上，于是，根据频率稳定于概率的原理，我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率，即吸烟更容易引发肺癌。
思考独立性检验的思想类似于我们常用的反证法，你能指出二者之间的相同和不同之处吗?
简单地说，反证法是在某种假设H0之下，推出一个矛盾结论，从而证明H0不成立；而独立性检验是在零假设H0之下，如果出现一个与H0相矛盾的小概率事件，就推断H0不成立，且该推断犯错误的概率不大于这个小概率。另外，在全部逻辑推理正确的情况下，反证法不会犯错误，但独立性检验会犯随机性错误。独立性检验的本质是比较观测值与期望值之间的差异，由χ2所代表的这种差异的大小是通过确定适当的小概率值进行判断的。这是一种非常重要的推断方法，不仅有相当广泛的应用，也开启了人类认识世界的一种新的思维方式。
因此可以推断乙种疗法的效果比甲种疗法好。
1.对于例3中的抽样数据，采用小概率值α=0.05的独立性检验，分析乙种疗法的效果是否比甲种疗法好。
根据小概率值α=0.05的χ2独立性检验，推断H0不成立，即认为两种疗法的效果有差异，该推断犯错误的概率不超过0.05。
2.根据同一抽查数据推断两个分类变量之间是否有关联，应用不同的小概率值，是否会得出不同的结论?为什么?
解：可能会得出不同的结论。理由如下：对同一抽样数据，计算出来的χ2的值是确定的，在独立性检验中，基于不同的小概率值α的检验规则，对应不同的临界值x0，其与χ2的大小关系可能不同，相当于检验的标准发生变化，因此结论可能会不同。
3.为考察某种药物A对预防疾病B的效果，进行了动物试验，根据105个有放回简单随机样本的数据，得到如下列联表:
依据α=0.05的独立性检验，分析药物A对预防疾病B的有效性。
解：零假设为H0: 药物A与预防疾病B无关联，即药物A对预防疾病B没有效果，根据列联表中数据，经计算得到：
根据小概率值α=0.05的χ2独立性检验，没有充分证据推断H0不成立，即可以认为药物A对预防疾病B没有效果。
4.从某学校获取了容量为400的有放回简单随机样本，将所得数学和语文期末考试成绩的样本观测数据整理如下：
依据α=0.05的独立性检验，能否认为数学成绩与语文成绩有关联?
解：零假设为H0: 数学成绩与语文成绩独立，即数学成绩与语文成绩没有关联，根据列联表中数据，经计算得到：
根据小概率值α=0.05的χ2独立性检验，我们可以推断H0不成立，即认为数学成绩与语文成绩有关联，该推断犯错误的概率不超过0.05。
1. 小概率值α的临界值: 忽略χ2的实际分布与该近似分布的误差后，对于任何小概率值α，可以找到相应的正实数xα，使得P(χ2 ≥xα)=α成立。我们称xα为α的临界值，这个临界值就可作为判断χ2大小的标准，概率值α越小，临界值xα越大。
3. 基于小概率值α的检验规则是: 当χ2≥xα时，我们就推断H0不成立，即认为X和Y不独立，该推断犯错误的概率不超过α；当χ2