高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表集体备课课件ppt
展开1. 分类变量 用以区别不同的现象或性质的一种特殊的随机变量,称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.
将形如下表这种形式的数据统计表称为2×2列联表. 2×2列联表给出了成对分类变量数据的交叉分类频数.
前面我们通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联. 对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大. 因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
问题1 你知道法官是如何凭证据进行判案的吗?
找无罪假设下不可能出现的物证和人证。
找到了,假设不成立,嫌疑人有罪。
没找到,没有充分证据证明假设不成立,暂且认为无罪。
零假设:假设X,Y相互独立,无关联。
找零假设下不可能发生的事件。(利用小概率原理)
发生了,假设不成立,X,Y不独立,从而证明二者有关联。
没发生,没有充分证据证明假设不成立,暂且认为X,Y相互独立。
追问1 我们是否可以类比法官判案的方式去判断两个分类变量X,Y是否有关联?
问题2 设X和Y为定义在以Ω为样本空间上,且取值于{0, 1} 的成对分类变量,如何判断事件{X=1}和{Y=1}之间是否有关联?
由条件概率的定义可知,零假设H0等价于:
由此,零假设H0等价于{X=1}和{Y=1}独立.
我们需要判断下面的假定关系是否成立
H0: P(Y=1|X=0)=P(Y=1|X=1)
通常称H0为零假设或原假设
根据已经学过的概率知识,下面的四条性质彼此等价:
如果这4个性质成立,则称分类变量X和Y独立.
零假设H0:分类变量X和Y独立
我们可以用概率语言,将零假设改述为
假定我们通过简单随机抽样得到了X和Y的抽样数据的2×2列联表,如下表所示.
对于随机样本,表中的频数a, b, c, d 都是随机变量,而表中的相应数据是这些随机变量的一次观测结果.
问题3 如何基于②中的四个等式及列联表中的数据,构造适当的统计量,对成对分类变量X和Y是否相互独立作出推断?
在零假设H0成立的条件下,根据频率稳定于概率的原理, 由②中的第一个等式,可以得到
由频率估计概率,可以得到:
{X=0,Y=0}发生的频数的期望值(预期值):E(a)
即: 的值应该不大
综合②中的四个式子,如果零假设H0成立,下面四个量的取值都不应该太大:
为了平衡各式的差值的变化,构造一个方便科学的统计量:
追问1 卡方统计量有什么用呢?
统计学家建议,用随机变量 χ2取值 的大小作为判断零假设H0是否成立的依据。
根据小概率事件在一次试验中不大可能发生的规律,可以通过确定一个与H0相矛盾的小概率事件来实现,在假定H0的条件下,对于有放回简单随机抽样,当样本容量n充分大时,统计学家得到了 χ2的近似分布.
P(χ2 ≥ xα)=α
我们称xα为α的临界值,这个临界值可以作为判断χ2大小的标准. 概率值α越小,临界值xα越大.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值:
基于小概率值α的检验规则:
追问3 怎么看这个表呢?
例如,对于小概率值α=0.05,我们有如下的具体检验规则:
按α=0.1的卡方独立性检验,没有充分证据推断H0不成立(数学结论),可以认为X和Y独立(实际结论).
例1 采用简单随机抽样的方法得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀 . 试分析两校学生中数学成绩优秀率之间是否存在差异.
零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.
根据上表中的数据,计算得到
根据小概率值α=0.1的卡方独立性检验,没有充分证据推断H0不成立.因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.
问题4 例1和例2基于同一组数据的分析的两种分析方法(条件概率法和卡方独立性检验法),但却得出了不同的结论,你能说明其中的原因吗?
事实上,例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以例1的推断依据不太充分.
在例2中,我们用χ2独立性检验对零假设H0进行了检验. 通过计算,发现χ2 ≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所以接受H0 ,推断出两校学生的数学成绩优秀率没有显著差异的结论。
这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的. 因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的.
由此可见,相对于简单比较两个频率的推断:
用χ2独立性检验得到的结果更理性、更全面,理论依据也更充分.
例3 某儿童医院用甲、乙两种疗法治疗小儿消化不良. 采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据: 抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名; 抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名. 试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
解: 零假设为H0:疗法与疗效独立,即两种疗法效果没有差异
由已知数据列出2×2列联表,如下:
根据小概率值α=0.005的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.
问题5 在例3的2×2列联表中,若对调两种疗法的位置或对调两种疗效的位置,则卡方计算公式中a, b, c, d的赋值都会相应地改变. 这样做会影响χ2取值的计算结果吗?
这说明,对调两种疗法的位置,不会影响χ2取值的计算结果,同理对调两种疗效的位置也不会影响结果.
1. 对于例3中的抽样数据,采用小概率值α=0.05的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
根据题意,可得
根据小概率值α=0.05的χ2独立性检验,推断H0不成立,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.05,即有95%的把握认为疗法与疗效是有关的.
甲种疗法未治愈和治愈的频率分别是
乙种疗法未治愈和治愈的频率分别是
因此可以推断乙种疗法的效果比甲种疗法好.
2. 根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,是否会得出不同的结论? 为什么?
解:可能会得出不同的结论. 理由如下: 对同一抽样数据,计算出来的χ2的值是确定的,在独立性检验中,基于不同的小概率值α的检验规则,对应不同的临界值x0,其与χ2的大小关系可能不同,相当于检验的标准发生变化,因此结论可能会不同.
例4 为研究吸烟是否与肺癌有关, 某肿瘤研究所采取有放回简单随机抽样的方法, 调查了9965人 , 得到成对样本观测数据的分类统计结果, 如表所示. 依据小概率值α=0.001的独立性检验, 分析吸烟是否会增加患肺癌的风险.
解:零假设为 H0:吸烟和患肺癌之间没有关联.
根据列联表中的数据,经计算得到
根据小概率值α=0.001的χ2独立性检验,推断H0不成立(数学结论),即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001 (实际结论).
用频率计算再次进行比较:
不吸烟者中患肺癌的频率为
吸烟者中患肺癌的频率为
在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.
(1) 提出零假设H0:X 和Y 相互独立, 并给出在问题中的解释.(2) 根据抽样数据整理出2×2列联表, 计算χ2的值, 并与临界值比较.(3) 根据检验规则得出推断结论.(4) 在 X 和Y 不独立的情况下, 根据需要, 通过比较相应的频率, 分析 X 和Y 间的影响规律.
总结上面的例子,应用独立性检验解决实际问题主要环节:
注意,上述几个环节的内容可以根据不同的情况进行调整. 例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.
问题6 独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗?
在某种假设H0下,如果推出一个矛盾,则证明H0不成立;若未能推出矛盾,不能对H0下任何结论,即反证法不成功.
在零假设H0下,如果出现一个与H0相矛盾的小概率事件,则推断H0不成立,且该推断犯错误的概率不大于这个小概率. 否则,不能推断H0不成立,通常会接受H0,即认为两个分类变量相互独立.
独立性检验会犯随机性错误
独立性检验是一种“概率反证法”。
3. 为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有放回简单随机样本的数据,得到如下列联表:
依据α=0.05的独立性检验,分析药物A对预防疾病B的有效性.
零假设为H0: 药物A与预防疾病B无关联,即药物A对预防疾病B没有效果,根据列联表中数据,经计算得到
根据小概率值α=0.05的χ2独立性检验,没有充分证据推断H0不成立,即可以认为药物A对预防疾病B没有效果.
4. 从某学校获取了容量为400的有放回简单随机样本,将所得数学和语文期末考试成绩的样本观测数据整理如下:
依据α=0.05的独立性检验,能否认为数学成绩与语文成绩有关联?
零假设为H0: 数学成绩与语文成绩独立,即数学成绩与语文成绩没有关联,根据列联表中数据,经计算得到
根据小概率值α=0.05的χ2独立性检验,我们可以推断H0不成立,即认为数学成绩与语文成绩有关联,该推断犯错误的概率不超过0.05.
3.独立性检验的一般步骤:
2.于小概率值α的检验规则:
高中数学8.3 分类变量与列联表教学ppt课件: 这是一份高中数学8.3 分类变量与列联表教学ppt课件,共21页。PPT课件主要包含了独立性检验及其应用等内容,欢迎下载使用。
数学选择性必修 第三册6.2 排列与组合图文课件ppt: 这是一份数学选择性必修 第三册6.2 排列与组合图文课件ppt,共43页。PPT课件主要包含了学习目标等内容,欢迎下载使用。
高中数学人教A版 (2019)选择性必修 第三册7.5 正态分布教课ppt课件: 这是一份高中数学人教A版 (2019)选择性必修 第三册7.5 正态分布教课ppt课件,共3页。PPT课件主要包含了复习回顾,新课导入,新知探究,概念生成,相关知识,面积即为概率,σ05,归纳总结,典例解析,-2a等内容,欢迎下载使用。