- 7.3.2离散型随机变量的方差 课件+教学设计 课件 21 次下载
- 7.4.1二项分布 课件+教学设计 课件 23 次下载
- 7.4.2 超几何分布 课件+教学设计 课件 22 次下载
- 7.5正态分布 课件+教学设计 课件 20 次下载
- 8.3.2 独立性检验 课件+教学设计 课件 20 次下载
人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表教学ppt课件
展开8.3.1分类变量与列联表高中数学/ 人教A版 / 选择性必修第三册/第八章新课导入 前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100 m世界纪录和创纪录的时间等,都是数值变量。数值变量的取值为实数,其大小和运算都有实际含义。 在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题。例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等。本节将要学习的独立性检验方法为我们提供了解决这类问题的方案。讲授新知 在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量。分类变量的取值可以用实数表示,例如,学生所在的班级可以用1, 2, 3等表示,男性、女性可以用1, 0表示,等等。在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义。本节我们主要讨论取值于{0, 1}的分类变量的关联性问题。知识点1:分类变量的概念 如何利用统计数据判断一对分类变量之间是否具有关联性呢? 对于这样的统计问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法。我们先看下面的具体问题。问题 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查。全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗? 最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率。 为了方便,我们设 可知,那生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼。角度1:古典概型角度2:条件概率 用Ω表示该校全体学生构成的集合,则Ω为样本空间。定义一对分类变量 X和 Y 如下: 对于Ω中的每一名学生,分别令 若从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率为 ,而该男生属于经常锻炼群体的概率为 。 思考:“性别对体育锻炼没有影响”,应该怎么描述?思考:“性别对体育锻炼有影响”,又应该怎么描述?为了清楚起见,我们用表格整理数据,如下表所示:∴该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼。2×2列联表知识点2:2×2 列联表 在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存。我们将形如下表这种形式的数据统计表称为2×2列联表。2×2列联表给出了成对分类变量数据的交叉分类频数。 频数a,b,c,d都是随机变量,而表中的相应数据时这些随机变量的一次观测结果。右下角格中的数n是样本容量。我们知道:“性别对体育锻炼没有影响”,应该描述为:“性别对体育锻炼有影响”,应该描述为:根据上述描述和表格,分类变量X和Y没有影响,a,b,c,d应该满足什么条件?根据上述描述和表格,分类变量X和Y有影响,a,b,c,d应该满足什么条件?例题精析 例1 为比较甲、 乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生。通过测验得到了如下数据: 甲校43名学生中有10 名数学成绩优秀; 乙校45名学生中有7名数学成绩优秀。试分析两校学生中数学成绩优秀率之间是否存在差异。解:用Ω表示两所学校的全体学生构成的集合,则Ω为样本空间,对于Ω中的每一名学生,定义分类变量X和Y如下:将所给数据整理成如下2×2列联表。 由2×2列联表可得,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为:乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为:我们可以用等高堆积条形图直观地展示上述计算结果: 可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高。 通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校。依据频率稳定于概率的原理,我们可以推断:等高堆积条形图思考:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的? 事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的。有可能出现这种情况: 在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的。这就是说,样本的随机性导致了两个频率间出现较大差异。在这种情况下,我们推断出的结论就是错误的。后面我们将讨论犯这种错误的概率大小问题。小练:网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格。利用图形判断学生经常上网与学习成绩有关吗?解:根据题目所给的数据得到如下2×2列联表: 由此可得得到等高堆积条形图如图所示: 比较图中阴影部分,可以发现经常上网期末考试不及格的频率明显高于经常上网期末考试及格的频率,因此可以认为经常上网与学习成绩有关。跟踪训练1.成语“名师出高徒”可以解释为“知名老师指导出高水平学生的概率较大”,即老师的名声与学生的水平之间有关联。你能举出更多的描述生活中两种属性或现象之间关联的成语吗?解:例如水涨船高、登高望远等。2.例1中的随机抽样数据是否足够确定与X和Y有关的所有概率和条件概率?为什么?解:不能。因为随机抽样得到的样本具有随机性,根据样本数据计算出来的频率也具有随机性。在统计推断中,依据频率稳定于概率的原理,可以利用频率推断与X和Y有关的概率和条件概率,但由于频率具有随机性,这种推断可能犯错误。因此,随机抽样数据不足以确定与X和Y有关的所有概率和条件概率。3.根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语。那么(1)吸烟是否对每位烟民一定会引发健康问题?(2)有人说吸烟不一定引起健康问题,因此可以吸烟。这种说法对吗?解:(1)从已掌握的知识来看,吸烟会损害身体的健康。但除了吸烟之外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用的结果。吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者。因此,健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定会对每位烟民都引起健康问题。(2)这种说法不正确。虽然吸烟不一定会对每个人都引起健康问题,但根据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此“吸烟不一定引起健康问题,因此可以吸烟”的说法是不对的。4.假设在本小节“问题”中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如下的列联表:(1)据此推断性别因素是否影响学生锻炼的经常性;(2)说明你的推断结论是否可能犯错,并解释原因。解:(1)根据列联表中的数据,计算得男女生中不经常锻炼和经常锻炼的频率分别为: 依据频率稳定于概率的原理,可以推断P(Y=1|X=0)=P(Y=1|X=1)。因此,可以认为性别对体育锻炼的经常性没有影响。(2)推断可能犯错误。因为样本是通过随机抽样得到的,频率具有随机性,因此推断可能犯错误。课堂小结1. 分类变量: 用以区别不同的现象或性质的一种特殊的随机变量,称为分类变量.2. 列联表:3. 等高堆积条形图:归纳:一个定义,两个图形谢谢观看
高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表优质ppt课件: 这是一份高中数学人教A版 (2019)选择性必修 第三册<a href="/sx/tb_c4000365_t3/?tag_id=26" target="_blank">8.3 分类变量与列联表优质ppt课件</a>,文件包含831《分类变量与列联表》课件-人教版高中数学选修三pptx、831《分类变量与列联表》分层作业原卷版-人教版高中数学选修三docx、831《分类变量与列联表》分层作业解析版-人教版高中数学选修三docx等3份课件配套教学资源,其中PPT共28页, 欢迎下载使用。
高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表优秀课件ppt: 这是一份高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表优秀课件ppt,共27页。PPT课件主要包含了复习导入,新知探索,课堂总结等内容,欢迎下载使用。
人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表集体备课ppt课件: 这是一份人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表集体备课ppt课件,共50页。PPT课件主要包含了列联表与独立性检验,分类变量与列联表,独立性检验,高考遇,知识绘,题型诀,巩固练,题型3独立性检验等内容,欢迎下载使用。