高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表优秀学案
展开(1)了解分类变量与数值变量的区别.
(2)了解回归与相关的区别.
(3)通过实例,理解通过比较相关比率,利用2×2列联表或等高图可以初步检验两个随机变量的独立性.
(4)通过对建立回归分析模型步骤的回忆,获得分析统计案例的一般性过程;能够将研究统计案例的一般化步骤应用到新的统计案例中.
(5)理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误.
重点难点
1.重点:
通过案例的分析研究,展现统计中数据分析的全过程.
让学生体会分析分类变量关联性的方法,并意识到这种分析得到的结果有可能是错误的.
2.难点:分析清楚回归与相关的区别.
课前预习 自主梳理
知识点一 分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
分类变量的取值可以用实数表示.
知识点二 2×2列联表
1.2×2列联表给出了成对分类变量数据的交叉分类频数.
2.定义一对分类变量X和Y,我们整理数据如下表所示:
像这种形式的数据统计表称为2×2列联表.
知识点三 独立性检验
1.定义:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”.简称独立性检验.
2.χ2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.
3.独立性检验解决实际问题的主要环节
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
自主检测
1.判断正误,正确的画“√”,错误的画“×”.
分类变量中的变量与函数中的变量是同一概念.( )
列联表中的数据是两个分类变量的频数.( )
列联表、频率分析法、等高条形图都可初步分析两分类变量是否有关系.( )
2×2列联表只有4个格子.( )
χ2的大小是判断事件A与B是否相关的统计量.( )
当χ2≥3.841时有95%的把握说事件A与B有关.( )
【答案】(1)×(2)√(3)√(4)×(5)√(6)√
2.下列关于独立性检验的叙述:
①常用等高条形图展示列联表数据的频率特征;
②独立性检验依据小概率原理;
③样本不同,独立性检验的结论可能有差异;
④对分类变量与的随机变量的观测值来说,越小,与有关系的把握程度就越大.
其中正确的个数为
A.1B.2C.3D.4
【答案】C
【详解】分析:根据独立性检验的定义及思想,可得结论.
详解:①常用等高条形图展示列联表数据的频率特征;正确;
②独立性检验依据小概率原理;正确;
③样本不同,独立性检验的结论可能有差异;正确;
④对分类变量与的随机变量的观测值来说,越大,与有关系的把握程度就越大.故④错误.
故选C.
点睛:本题考查了独立性检验的原理,考查了推理能力,属于基础题.
3.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
计算得,.
参照下表,
下列结论正确的是( )
A.在犯错误的概率不超过的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过的前提下,认为“生育意愿与城市级别无关”
C.有以上的把握认为“生育意愿与城市级别有关”
D.有以上的把握认为“生育意愿与城市级别无关”
【答案】C
【分析】根据的值与临界值比较即可判断进而可得正确选项.
【详解】因为,所以有以上的把握认为“生育意愿与城市级别有关”,
故选项A、B、D不正确,
故选:C.
4.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:
附:
则认为“是否同意限定区域停车与家长性别有关”的把握约为( )
A.0. 1%B.0.5%C.99.5%D.99.9%
【答案】C
【分析】根据独立性检验的公式得,进而根据表格即可得答案.
【详解】由题中数据可得.
又查表可得,
所以“是否同意限定区域停车与家长性别有关”的把握约为99.5%.
故选:C.
5.为大力提倡“厉行节约,反对浪费”,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下列联表:
附:
参照附录,得到的正确结论是( )
A.在犯错误的概率不超过的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过的前提下,认为“该市居民能否做到‘光盘’与性别有关”
C.有以上的把握认为“该市居民能否做到‘光盘’与性别无关”
D.有以上的把握认为“该市居民能否做到‘光盘’与性别有关”
【答案】D
【分析】由独立性检验的方法,算出,参照附表即可
【详解】,
参照附表,得到的正确结论是有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.
故选:D
新课导学
学习探究
环节一 创设情境,引入课题
饮用水的质量是人类普遍关心的问题.根据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人.问题人的身体健康状况与饮用水的质量之间有关系吗?
提示我们可以根据2×2列联表来判断人的身体健康状况与饮用水的质量之间的关系.也就是本节课所要学习的内容.
前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等,都是数值变量.数值变量的取值为实数,其大小和运算都有实际含义.
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等.本节将要学习的独立性检验方法为我们提供了解决这类问题的方案.
在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义.本节我们主要讨论取值于{0,1}的分类变量的关联性问题.
如何利用统计数据判断一对分类变量之间是否具有关联性呢?对于这样的统计问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法.我们先看下面的具体问题.
【设计意图】理解数值变量与分类变量的区别对理解回归分析法与相关分析法的区别起着至关要的作用,概念解析1的设计意图即是帮助理解回归分析法与相关分析法的区别,为突破这一教学难点做铺垫.
问题 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
这是一个简单的统计问题.最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率.为了方便,我们设
,.
那么,只要求出和的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异,由所给的数据,经计算得到
,.
由
可知,男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.
【设计意图】给出本节课第一个重点,判断两个分类变量之间关联关系的方法1—频率分析法.
环节二 观察分析,感知概念
上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法.用表示该校全体学生构成的集合,这是我们所关心的对象的总体.考虑以为样本空间的古典概型,并定义一对分类变量X和Y如下:对于中的每一名学生,分别令
.
【设计意图】给出本节课第二个重点,判断两个分类变量之间关联关系方法1的另外一种表述方法—使用条件概率的语言,给出解答.
环节三 抽象概括,形成概念
我们希望通过比较条件概率和回答上面的问题.按照条件概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是,而该男生属于经常锻炼群体的概率是.因此,“性别对体育锻炼的经常性没有影响”可以描述为
;
而“性别对体育锻炼的经常性有影响”可以描述为
.
为了清楚起见,我们用表格整理数据,如表8.3-1所示.
表8.3-1 单位:人
【设计意图】给出本节课第三个重点,举例说明什么是2×2列联表.
我们用表示事件和的积事件,用表示事件和的积事件.根据古典概型和条件概率的计算公式,我们有
,
.
由大于可以做出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.
环节四 辨析理解 深化概念
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.我们将如表8.3-1这种形式的数据统计表称为列联表(cntingency table).
列联表给出了成对分类变量数据的交叉分类频数.以表8.3-1为例,它包含了X和Y的如下信息:最后一行的前两个数分别是事件和中样本点的个数;最后一列的前两个数分别是事件和中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件中样本点的个数;右下角格中的数是样本空间中样本点的总数.
在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率.然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率.在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路.比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断.
将所关心的对象的体看成古典概型的样本空间,就可以用概率的语言刻画相关的问题,进而用频率稳定于概率的原理推断问题的答案.很多统计方法都是基于这种思想建立起来的.
将所关心的对象的全体看成古典概型的样本空间,就可以用概率的语言刻画相关的问题,进而用频率稳定于概率的原理推断问题的答案.很多统计方法都是基于这种思相建立起来的.
环节五 概念应用,巩固内化
例1为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.
解:用表示两所学校的全体学生构成的集合.考虑以为样本空间的古典概型.
对于中每一名学生,定义分类变量和如下:
我们将所给数据整理成表8.3-2.
表8.3-2是关于分类变量和的抽样数据的列联表:最后一行的前两个数分别是事件和的频数;最后一列的前两个数分别是事件和的频数;中间的四个格中的数是事件的频数;右下角格中的数是样本容量.因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为
和.
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为
和.
【设计意图】(1)巩固判断两个分类变量之间关联关系的方法1—频率分析法.
(2)引出判断两个分类变量之间关联关系的方法1—图形分析法.
(3)由于频率和概率之间存在误差,所以此例题可以说明方法一的局限性,为引出第二节课,独立性检验做铺垫.
我们可以用等高堆积条形图直观地展示上述计算结果,如图8.3-1所示.
在图8.3-1中,左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率.
通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断.
也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
【设计意图】给出本节课重点,判断两个分类变量之间关联关系的方法1—图形分析法.
思考:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.这就是说,样本的随机性导致了两个频率间出现较大差异.在这种情况下,我们推断出的结论就是错误的.后面我们将讨论犯这种错误的概率大小问题.
环节六 归纳总结,反思提升
本节课学习的概念有哪些?
(1)相关关系.
(2)散点图.
(3)正相关、负相关、线性相关、非线性相关.
(4)样本相关系数.
2.方法归纳:数形结合.
3.常见误区:相关关系与函数关系不分,样本相关系数绝对值的大小与相关程度的关系.
环节七目标检测,作业布置
完成教材:教材第127页练习第4题.
备用练习
1.为了考查某种病毒疫苗的效果,现随机抽取100只小白鼠进行试验,得到如下2×2列联表:
附:,其中.
根据以上数据,得到的结论正确的是( )
A.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”
B.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗无关”
C.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”
D.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗无关”
【答案】C
【分析】根据给定的列联表,计算出的观测值,再与临界值比对作答.
【详解】依题意,,
显然有,
所以有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”,选项A,B,D不正确,C正确.
故选:C
2.已知某产品连续4个月的广告费用(千元)与销售额(万元),经过对这些数据的处理,得到如下数据信息:
①广告费用和销售额之间具有较强的线性相关关系;
②;
③回归直线方程中的=0.8(用最小二乘法求得);
那么,广告费用为8千元时,可预测销售额约为( )
A.4.5万元B.4.9万元C.6.3万元D.6.5万元
【答案】C
【分析】由已知可求出,进而可求出,即可得到回归方程,令,可求出答案.
【详解】由题意,,
因为,所以,
则回归直线方程为.
当时,.
故选C.
【点睛】本题考查了线性回归方程的求法,考查了计算能力,属于基础题.
3.以下四个命题,其中正确的个数有( )
①由独立性检验可知,有的把握认为物理成绩与数学成绩有关,某人数学成绩优秀,则他有的可能物理优秀.
②两个随机变量相关性越强,则相关系数的绝对值越接近于;
③在线性回归方程中,当解释变量每增加一个单位时,预报变量平均增加个单位;
④对分类变量与,它们的随机变量的观测值来说,越小,“与有关系”的把握程度越大.
A.1B.2C.3D.4
【答案】B
【分析】根据独立性检验的定义判断①、④,根据相关系数的概念判断②,根据回归直线方程的性质判断③;
【详解】解:对于①:认为数学成绩与物理成绩有关,不出错的概率是,不是数学成绩优秀,物理成绩就有的可能优秀,不正确;
对于②:两个随机变量相关性越强,则相关系数的绝对值越接近于,故正确;
对于③:在线性回归方程中,当解释变量每增加一个单位时,预报变量平均增加个单位,故正确;
对于④,随机变量的观测值越小,说明两个相关变量有关系的把握程度越小,不正确;
故选:B.
4.据一组样本数据,…,,求得经验回归方程为,且.现发现这组样本数据中有两个样本点和误差较大,去除后重新求得的经验回归直线的斜率为1.2,则( )
A.去除两个误差较大的样本点后,的估计值增加速度变快
B.去除两个误差较大的样本点后,重新求得的回归方程一定过点
C.去除两个误差较大的样本点后,重新求得的回归方程为
D.去除两个误差较大的样本点后,相应于样本点的残差为0.05
【答案】C
【分析】对A:比较原线性回归方程的斜率和新回归方程的斜率,即可求解;
对B:由新的样本可求解;
对C:由线性回归方程的性质,即可求解;
对D:利用残差公式,即可求解.
【详解】对A,因为,所以去除两个误差较大的样本点后的估计值增加速度变慢,故A错误;
对B,当时,,设去掉两个误差较大的样本点后,横坐标的平均值为,纵坐标的平均值为,
则,,故B错误;
对C,因为去除两个误差较大的样本点后,重新求得回归直线的斜率为1.2,
所以,解得,
所以去除两个误差较大的样本点后的经验回归方程为,故C正确;
对D,因为,所以,故D错误.
故选:C.
5.5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
若与线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量与正相关,且相关系数
B.线性回归方程中
C.残差的最大值与最小值之和为0
D.可以预测时该商场手机销量约为1.72(千只)
【答案】B
【分析】根据已知数据,分析总体单调性,并注意到增量不相等,不是严格在一条直线上,从而判定A;求得样本中心点坐标,代入已给出的回归方程,求解,从而判定B;根据残差定义求得各个残差,进而得到残差的最大值与最小值,从而判定C;利用回归方程预测计算即可判定D.
【详解】从数据看y随x的增加而增加,故变量与正相关,由于各增量并不相等,故相关系数,故A正确;
由已知数据易得代入中得到,故B错误;
,
,,,,,
,,,,,
残差的最大值与最小值之和为0,故正确;
时该商场手机销量约为,故D正确.
故选:B
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
0.050
0.010
0.001
3.841
6.635
10.828
同意限定区域停车
不同意限定区域停车
合计
男
20
5
25
女
10
15
25
合计
30
20
50
0.010
0.005
0.001
6.635
7.879
10.828
做不到“光盘”
能做到“光盘”
男
45
10
女
30
15
性别
锻炼
合计
不经常(Y=0)
经常(Y=1)
女生(X=0)
192
331
523
男生(X=1)
128
473
601
合计
320
804
1124
学校
数学成绩
合计
不优秀(Y=0)
优秀(Y=1)
甲校(X=0)
33
10
43
乙校(X=1)
38
7
45
合计
71
17
88
感染
未感染
总计
服用
10
40
50
未服用
20
30
50
总计
30
70
100
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
时间
1
2
3
4
5
销售量(千只)
0.5
0.8
1.0
1.2
1.5
高中数学8.3 分类变量与列联表学案: 这是一份高中数学<a href="/sx/tb_c4000365_t4/?tag_id=42" target="_blank">8.3 分类变量与列联表学案</a>,共22页。学案主要包含了典例解析等内容,欢迎下载使用。
人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表优秀导学案: 这是一份人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表优秀导学案,共7页。学案主要包含了学习目标,自主学习,小试牛刀,经典例题,跟踪训练,当堂达标,参考答案等内容,欢迎下载使用。
数学选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表学案设计: 这是一份数学选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表学案设计,共5页。学案主要包含了规律方法,变式训练1,变式训练2,变式训练3等内容,欢迎下载使用。