高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表优质ppt课件
展开1.了解 探究分类变量之间关系的方法2.制作、理解 2×2列联表,用频率分析法、图形分析法探究两个分类变量之间的关系3.能够对统计数据进行简单整理、初步分析提升数学抽象、数据建模及数据分析素养
饮用水的质量是人类普遍关心的问题,根据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人.
问题 人的身体健康状况与饮用水的质量之间有关系吗?提示 我们可以根据2×2列联表找到人的身体健康与饮用水之间的关系,也就是本节课所要学习的内容.
什么是分类变量?分类变量与数值变量之间的区别是什么?
例:人的身高;100米短跑所用时间;产品月销量 数值变量的取值为实数.其大小和运算都有实际含义.两个数值变量之间的关系:回归分析法;由一个变量的变化去推测另一个变量的变化
例:班级;性别;是否经常锻炼;是否每年体检 分类变量的取值可以用实数来表示;这些数值只作为编号使用,用来表示不同的类别;并没有通常的大小和运算意义例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示
如何判断两个分类变量之间是否具有关联性呢?
方法1——由频率估计概率
结论:该校的女生和男生在体育锻炼的经常性方面存在差异,男生更经常锻炼。
性别 在体育锻炼的经常性方面 是否存在差异呢?
方法2——借助条件概率
方法3——借助等高堆积条形图
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存. 我们将形如下表这种形式的数据统计表称为2×2列联表. 2×2列联表给出了成对分类变量数据的交叉分类频数.
用Ω表示两所学校的全体学生构成的集合,则Ω为样本空间,对于Ω中的每一名学生,定义分类变量X和Y如下:
例1 为比较甲、 乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生. 通过测验得到了如下数据: 甲校43名学生中有10 名数学成绩优秀; 乙校45名学生中有7名数学成绩优秀. 试分析两校学生中数学成绩优秀率之间是否存在差异.
将所给数据整理成如下2×2列联表.
由等高堆积条形图可知,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
由2×2列联表可得,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为
作出等高堆积条形图如图示.
思考 你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的. 有可能出现这种情况: 在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的. 这就是说,样本的随机性导致了两个频率间出现较大差异. 在这种情况下,我们推断出的结论就是错误的. 后面我们将讨论犯这种错误的概率大小问题.
1. 成语“名师出是高徒”可以解释为“知名老师指导出高水平学生的概率较大”,即老师的名声与学生的水平之间有关联. 你能举出更多的描述生活中两种属性或现象之间关联的成语吗?
解:例如水涨船高、登高望远等.
2. 例1中的随机抽样数据是否足够确定与X和Y有关的所有概率和条件概率?为什么?
解:不能. 因为随机抽样得到的样本具有随机性,根据样本数据计算出来的频率也具有随机性. 在统计推断中,依据频率稳定于概率的原理,可以利用频率推断与X和Y有关的概率和条件概率,但由于频率具有随机性,这种推断可能犯错误. 因此,随机抽样数据不足以确定与X和Y有关的所有概率和条件概率.
3. 根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语. 那么 (1) 吸烟是否对每位烟民一定会引发健康问题? (2) 有人说吸烟不一定引起健康问题,因此可以吸烟. 这种说法对吗?
解:(1) 从已掌握的知识来看,吸烟会损害身体的健康. 但除了吸烟之外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用的结果. 吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者. 因此健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定会对每位烟民都引起健康问题. (2) 这种说法不正确. 虽然吸烟不一定会对每个人都引起健康问题,但根据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此“吸烟不一定引起健康问题,因此可以吸烟”的说法是不对的.
4. 假设在本小节“问题”中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如下的列联表:
(1) 据此推断性别因素是否影响学生锻炼的经常性;(2) 说明你的推断结论是否可能犯错,并解释原因.
解: (1)根据列联表中的数据,计算得男女生中不经常锻炼和经常锻炼的频率分别为
通过对比发现,男生中不经常锻炼和经常锻炼的频率与女生中不经常锻炼和经常锻炼的频率分别相等,依据频率稳定于概率的原理,可以推断P(Y=1|X=0)=P(Y=1|X=1). 因此,可以认为性别对体育锻炼的经常性没有影响.
(2) 推断可能犯错误. 因为样本是通过随机抽样得到的,频率具有随机性,因此推断可能犯错误.
5.与表格相比,能更直观地反映出相关数据总体状况的是( )A.列联表 B.散点图C.残差图 D.等高堆积条形图答案 D
6.在一项有关医疗保健的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,则性别与喜欢吃甜食的2×2列联表为________.
7.根据如图所示的等高堆积条形图可知吸烟与患肺病________关系(填“有”或“没有”).
解析 从等高条形图上可以明显地看出吸烟患肺病的频率远远大于不吸烟患肺病的频率.答案 有
8.(多空题)下面是一个2×2列联表:
则表中a=________,b=__________.
9.为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:
1.2×2列联表 —— 给出了两个分类变量数据的交叉分类频数
这样得出的结论是否会出现错误呢?是由什么引起的?
问题拓展:假设在本小节“问题”中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如下的列联表:
(1)据此推断性别因素是否影响学生锻炼的经常性;(2)说明你的推断结论是否可能犯错,并解释原因.
因为“性别因素影响学生锻炼经常性”这个结论是根据两个频率间存在差异推断出来的. 在随机抽取的这个样本中,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大. 因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算. 后面,我们将讨论犯这种错误的概率大小问题. 学习“独立性检验”.
高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表优秀课件ppt: 这是一份高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表优秀课件ppt,共27页。PPT课件主要包含了复习导入,新知探索,课堂总结等内容,欢迎下载使用。
高中数学人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表优质课件ppt: 这是一份高中数学人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表优质课件ppt,共29页。
人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表集体备课ppt课件: 这是一份人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表集体备课ppt课件,共50页。PPT课件主要包含了列联表与独立性检验,分类变量与列联表,独立性检验,高考遇,知识绘,题型诀,巩固练,题型3独立性检验等内容,欢迎下载使用。