高中数学人教B版 (2019)选择性必修 第二册第四章 概率与统计4.3 统计模型4.3.2 独立性检验教学设计及反思
展开4.3.2 独立性检验
学 习 目 标 | 核 心 素 养 |
1.通过实例,理解2×2列联表的统计意义.(重点) 2.通过实例,了解2×2列联表独立性检验及其应用.(难点) | 1.通过2×2列联表统计意义的学习,体会数学抽象的素养. 2.借助χ2计算公式进行独立性检验,培养数学运算和数据分析的素养. |
情境导学
一则“双黄连口服液可抑制新冠病毒”消息热传后,引起部分市民抢购.人民日报官微称,抑制不等于预防和治疗,勿自行服用.上海专家称是否有效还在研究中.
问题:如何判断其有效?如何收集数据?收集哪些数据?
1.2×2列联表
(1)定义:如果随机事件A与B的样本数据整理成如下的表格形式.
| A | 总计 | |
B | a | b | a+b |
c | d | c+d | |
总计 | a+c | b+d | a+b+c+d |
因为这个表格中,核心数据是中间4个格子,所以这样的表格通常称为2×2列联表.
(2)χ2计算公式:χ2=,其中n=a+b+c+d.
2.独立性检验
任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平α对应的分位数),就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2<k成立,就称不能得到前述结论.这一过程通常称为独立性检验.
1.思考辨析(正确的打“√”,错误的打“×”)
(1)χ2的大小是判断事件A与B是否相关的统计量. ( )
(2)事件A与B的独立性检验无关,即两个事件互不影响. ( )
(3)应用独立性检验对两个变量间的关系作出的推断一定是正确的. ( )
[答案] (1)√ (2)× (3)×
2.下列选项中,哪一个χ2的值可以有95%以上的把握认为“A与B有关系”( )
A.χ2=2.700 B.χ2=2.710
C.χ2=3.765 D.χ2=5.014
D [∵5.014>3.841,故D正确.]
3.若由一个2×2列联表中的数据计算得χ2=4.013,那么在犯错误的概率不超过__________的前提下认为两个变量之间有关系.
5% [查阅χ2表知有95%的把握认为两个变量之间有关系,故在犯错误的概率不超过5%的前提下,认为两个变量之间有关系.]
4.(一题两空)下面是2×2列联表.
| y1 | y2 | 合计 |
x1 | a | 21 | 73 |
x2 | 2 | 25 | 27 |
合计 | b | 46 | 100 |
则表中a=________,b=________.
52 54 [a=73-21=52,b=a+2=52+2=54.]
合作探究
由χ2进行独立性检验 |
【例1】 在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:能否在犯错误的概率不超过1%的前提下认为该种血清能起到预防感冒的作用.
| 未感冒 | 感冒 | 合计 |
使用血清 | 258 | 242 | 500 |
未使用血清 | 216 | 284 | 500 |
合计 | 474 | 526 | 1 000 |
[思路点拨] 独立性检验可以通过2×2列联表计算χ2的值,然后和临界值对照作出判断.
[解] 假设感冒与是否使用该种血清没有关系.
由列联表中的数据,求得
χ2=≈7.075.
χ2=7.075>6.635,P(χ2≥6.635)=0.01,
故我们在犯错误的概率不超过1%的前提下,即有99%的把握认为该种血清能起到预防感冒的作用.
独立性检验的具体做法
1.根据实际问题的需要确定允许推断“事件A与B有关系”犯错误的概率的上界α,然后查表确定临界值k.
2.利用公式χ2=计算随机变量χ2.
3.如果χ2≥k推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
1.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人的调查结果如下:
| 患胃病 | 未患胃病 | 合计 |
生活不规律 | 60 | 260 | 320 |
生活有规律 | 20 | 200 | 220 |
合计 | 80 | 460 | 540 |
根据以上数据,能否有99%的把握判断40岁以上的人患胃病与生活规律有关?
[解] 由公式得χ2=≈9.638.
∵9.638>6.635,
∴有99%的把握说40岁以上的人患胃病与生活是否有规律有关,即生活不规律的人易患胃病.
独立性检验的综合应用 |
[探究问题]
1.利用χ2进行独立性检验,估计值的准确度与样本容量有关吗?
[提示] 利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.
2.在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P(χ2≥6.635)=0.01和P(χ2≥7.879)=0.005,哪种说法是正确的?
[提示] 两种说法均正确.P(χ2≥6.635)=0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(χ2≥7.879)=0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.
【例2】 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查,得到了如下的2×2列联表:
| 喜爱打篮球 | 不喜爱打篮球 | 合计 |
男生 |
| 6 |
|
女生 | 10 |
|
|
合计 |
|
| 48 |
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.
[思路点拨] (1)由古典概型的概率求得2×2列联表.
(2)计算χ2,判断P(x2>3.841)=0.05是否成立.
(3)结合超几何分布求解.
[解] (1)列联表补充如下:
| 喜爱打篮球 | 不喜爱打篮球 | 合计 |
男生 | 22 | 6 | 28 |
女生 | 10 | 10 | 20 |
合计 | 32 | 16 | 48 |
(2)由χ2=≈4.286.
因为4.286>3.841,所以,能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.
其概率分别为
P(X=0)==,
P(X=1)==,
P(X=2)==,
故X的分布列为
X | 0 | 1 | 2 |
P |
X的均值为E(X)=0++=1.
1.检验两个变量是否相互独立,主要依据是计算χ2的值,再利用该值与分位数k进行比较作出判断.
2.χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.
3.统计的基本思维模式是归纳,它的特征之一是通过部分数据的性质来推测全部数据的性质.因此,统计推断是可能犯错误的,即从数据上体现的只是统计关系,而不是因果关系.
2.某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练,对提高‘数学应用题’得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:
| 60分以下 | 61~70分 | 71~80分 | 81~90分 | 91~100分 |
甲班(人数) | 3 | 11 | 6 | 12 | 18 |
乙班(人数) | 7 | 8 | 10 | 10 | 15 |
现规定平均成绩在80分以上(不含80分)的为优秀.
(1)试分析估计两个班级的优秀率;
(2)由以上统计数据填写下面2×2列联表,根据以上数据,能否有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助?
| 优秀人数 | 非优秀人数 | 合计 |
甲班 |
|
|
|
乙班 |
|
|
|
合计 |
|
|
|
参考公式及数据:χ2=.
P(χ2≥k) | 0.050 | 0.010 | 0.001 |
k | 3.841 | 6.635 | 10.828 |
[解] (1)由题意知,甲、乙两班均有学生50人,
甲班优秀人数为30人,优秀率为=60%,
乙班优秀人数为25人,优秀率为=50%,
所以甲、乙两班的优秀率分别为60%和50%.
(2)
| 优秀人数 | 非优秀人数 | 合计 |
甲班 | 30 | 20 | 50 |
乙班 | 25 | 25 | 50 |
合计 | 55 | 45 | 100 |
因为χ2=≈1.010<3.841,
所以由参考数据知,没有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助.
课堂小结
1.χ2=,其中n=a+b+c+d,该公式较准确的刻画了两个变量相关性的可靠程度.
2.χ2越大说明“两个变量之间有关系”的可能性越大,反之越小.
1.利用独立性检验来考查两个变量A,B是否有关系,当随机变量χ2的值( )
A.越大,“A与B有关系”成立的可能性越大
B.越大,“A与B有关系”成立的可能性越小
C.越小,“A与B有关系”成立的可能性越大
D.与“A与B有关系”成立的可能性无关
A [用独立性检验来考查两个分类是否有关系时,算出的随机变量χ2的值越大,说明“A与B有关系”成立的可能性越大,由此可知A正确.故选A.]
2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
| 男 | 女 | 合计 |
爱好 | 40 | 20 | 60 |
不爱好 | 20 | 30 | 50 |
合计 | 60 | 50 | 110 |
经计算得
χ2=≈7.8.
则正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
C [根据独立性检验的思想方法,正确选项为C.]
3.在一个2×2列联表中,由其数据计算得χ2=13.097,认为“两个变量有关系”犯错误的概率不超过________.
0.001 [如果χ2>10.828时,认为“两变量有关系”犯错误的概率不超过0.001.]
4.某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集的数据是______________________________.
男正教授人数,女正教授人数,男副教授人数,女副教授人数 [由研究的问题可知,需收集的数据应为男正教授人数,女正教授人数,男副教授人数,女副教授人数.]
5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.
| 总成绩好 | 总成绩不好 | 总计 |
数学成绩好 | 478 | a | 490 |
数学成绩不好 | 399 | 24 | 423 |
总计 | b | c | 913 |
(1)计算a,b,c的值;
(2)文科学生总成绩不好与数学成绩不好有关系吗?
[解] (1)由478+a=490,得a=12.
由a+24=c,得c=12+24=36.
由b+c=913,得b=913-36=877.
(2) χ2=≈6.233>3.841,
因为P(χ2≥3.841)=0.05,
所以在犯错误的概率不超过0.05的前提下,认为文科学生总成绩不好与数学成绩不好有关系.
人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表教案设计: 这是一份人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表教案设计,共8页。教案主要包含了教学内容,教学目标,教学重点,具体教学过程设计,教学及课后反思等内容,欢迎下载使用。
2022年高中数学新人教B版选择性必修第二册 模块综合提升 教案: 这是一份2022年高中数学新人教B版选择性必修第二册 模块综合提升 教案
人教B版 (2019)选择性必修 第二册4.2.5 正态分布教学设计: 这是一份人教B版 (2019)选择性必修 第二册4.2.5 正态分布教学设计,共8页。