还剩6页未读,
继续阅读
第4章 4.3 4.3.2 独立性检验-【新教材】人教B版(2019)高中数学选择性必修第二册讲义
展开
这是一份第4章 4.3 4.3.2 独立性检验-【新教材】人教B版(2019)高中数学选择性必修第二册讲义,共3页。
一则“双黄连口服液可抑制新冠病毒”消息热传后,引起部分市民抢购.人民日报官微称,抑制不等于预防和治疗,勿自行服用.上海专家称是否有效还在研究中.
问题:如何判断其有效?如何收集数据?收集哪些数据?
1.2×2列联表
(1)定义:如果随机事件A与B的样本数据整理成如下的表格形式.
因为这个表格中,核心数据是中间4个格子,所以这样的表格通常称为2×2列联表.
(2)χ2计算公式:χ2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.
2.独立性检验
任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平α对应的分位数),就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2<k成立,就称不能得到前述结论.这一过程通常称为独立性检验.
1.思考辨析(正确的打“√”,错误的打“×”)
(1)χ2的大小是判断事件A与B是否相关的统计量.( )
(2)事件A与B的独立性检验无关,即两个事件互不影响.( )
(3)应用独立性检验对两个变量间的关系作出的推断一定是正确的.( )
[答案] (1)√ (2)× (3)×
2.下列选项中,哪一个χ2的值可以有95%以上的把握认为“A与B有关系”( )
A.χ2=2.700 B.χ2=2.710
C.χ2=3.765D.χ2=5.014
D [∵5.014>3.841,故D正确.]
3.若由一个2×2列联表中的数据计算得χ2=4.013,那么在犯错误的概率不超过__________的前提下认为两个变量之间有关系.
5% [查阅χ2表知有95%的把握认为两个变量之间有关系,故在犯错误的概率不超过5%的前提下,认为两个变量之间有关系.]
4.(一题两空)下面是2×2列联表.
则表中a=________,b=________.
52 54 [a=73-21=52,b=a+2=52+2=54.]
【例1】 在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:能否在犯错误的概率不超过1%的前提下认为该种血清能起到预防感冒的作用.
[思路点拨] 独立性检验可以通过2×2列联表计算χ2的值,然后和临界值对照作出判断.
[解] 假设感冒与是否使用该种血清没有关系.
由列联表中的数据,求得
χ2=eq \f(1 000×258×284-242×2162,474×526×500×500)≈7.075.
χ2=7.075>6.635,P(χ2≥6.635)=0.01,
故我们在犯错误的概率不超过1%的前提下,即有99%的把握认为该种血清能起到预防感冒的作用.
独立性检验的具体做法
1.根据实际问题的需要确定允许推断“事件A与B有关系”犯错误的概率的上界α,然后查表确定临界值k.
2.利用公式χ2=eq \f(nad-bc2,a+bc+da+cb+d)计算随机变量χ2.
3.如果χ2≥k推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
eq \([跟进训练])
1.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人的调查结果如下:
根据以上数据,能否有99%的把握判断40岁以上的人患胃病与生活规律有关?
[解] 由公式得χ2=eq \f(54060×200-260×202,320×220×80×460)≈9.638.
∵9.638>6.635,
∴有99%的把握说40岁以上的人患胃病与生活是否有规律有关,即生活不规律的人易患胃病.
[探究问题]
1.利用χ2进行独立性检验,估计值的准确度与样本容量有关吗?
[提示] 利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.
2.在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P(χ2≥6.635)=0.01和P(χ2≥7.879)=0.005,哪种说法是正确的?
[提示] 两种说法均正确.P(χ2≥6.635)=0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(χ2≥7.879)=0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.
【例2】 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查,得到了如下的2×2列联表:
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为eq \f(2,3).
(1)请将上面的2×2列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.
[思路点拨] (1)由古典概型的概率求得2×2列联表.
(2)计算χ2,判断P(x2>3.841)=0.05是否成立.
(3)结合超几何分布求解.
[解] (1)列联表补充如下:
(2)由χ2=eq \f(48×220-602,28×20×32×16)≈4.286.
因为4.286>3.841,所以,能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.
其概率分别为
P(X=0)=eq \f(C\\al(2,10),C\\al(2,20))=eq \f(9,38),
P(X=1)=eq \f(C\\al(1,10)C\\al(1,10),C\\al(2,20))=eq \f(10,19),
P(X=2)=eq \f(C\\al(2,10),C\\al(2,20))=eq \f(9,38),
故X的分布列为
X的均值为E(X)=0+eq \f(10,19)+eq \f(9,19)=1.
1.检验两个变量是否相互独立,主要依据是计算χ2的值,再利用该值与分位数k进行比较作出判断.
2.χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.
3.统计的基本思维模式是归纳,它的特征之一是通过部分数据的性质来推测全部数据的性质.因此,统计推断是可能犯错误的,即从数据上体现的只是统计关系,而不是因果关系.
eq \([跟进训练])
2.某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练,对提高‘数学应用题’得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:
现规定平均成绩在80分以上(不含80分)的为优秀.
(1)试分析估计两个班级的优秀率;
(2)由以上统计数据填写下面2×2列联表,根据以上数据,能否有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助?
参考公式及数据:χ2=eq \f(nad-bc2,a+bc+da+cb+d).
[解] (1)由题意知,甲、乙两班均有学生50人,
甲班优秀人数为30人,优秀率为eq \f(30,50)=60%,
乙班优秀人数为25人,优秀率为eq \f(25,50)=50%,
所以甲、乙两班的优秀率分别为60%和50%.
(2)
因为χ2=eq \f(10025×30-25×202,55×45×50×50)≈1.010<3.841,
所以由参考数据知,没有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助.
1.χ2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d,该公式较准确的刻画了两个变量相关性的可靠程度.
2.χ2越大说明“两个变量之间有关系”的可能性越大,反之越小.
1.利用独立性检验来考查两个变量A,B是否有关系,当随机变量χ2的值( )
A.越大,“A与B有关系”成立的可能性越大
B.越大,“A与B有关系”成立的可能性越小
C.越小,“A与B有关系”成立的可能性越大
D.与“A与B有关系”成立的可能性无关
A [用独立性检验来考查两个分类是否有关系时,算出的随机变量χ2的值越大,说明“A与B有关系”成立的可能性越大,由此可知A正确.故选A.]
2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
经计算得
χ2=eq \f(110×40×30-20×202,60×50×60×50)≈7.8.
则正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
C [根据独立性检验的思想方法,正确选项为C.]
3.在一个2×2列联表中,由其数据计算得χ2=13.097,认为“两个变量有关系”犯错误的概率不超过________.
0.001 [如果χ2>10.828时,认为“两变量有关系”犯错误的概率不超过0.001.]
4.某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集的数据是______________________________.
男正教授人数,女正教授人数,男副教授人数,女副教授人数 [由研究的问题可知,需收集的数据应为男正教授人数,女正教授人数,男副教授人数,女副教授人数.]
5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.
(1)计算a,b,c的值;
(2)文科学生总成绩不好与数学成绩不好有关系吗?
[解] (1)由478+a=490,得a=12.
由a+24=c,得c=12+24=36.
由b+c=913,得b=913-36=877.
(2) χ2=eq \f(913×478×24-399×122,490×423×877×36)≈6.233>3.841,
因为P(χ2≥3.841)=0.05,
所以在犯错误的概率不超过0.05的前提下,认为文科学生总成绩不好与数学成绩不好有关系.学 习 目 标
核 心 素 养
1.通过实例,理解2×2列联表的统计意义.(重点)
2.通过实例,了解2×2列联表独立性检验及其应用.(难点)
1.通过2×2列联表统计意义的学习,体会数学抽象的素养.
2.借助χ2计算公式进行独立性检验,培养数学运算和数据分析的素养.
A
eq \(A,\s\up6(-))
总计
B
a
b
a+b
eq \(B,\s\up8(-))
c
d
c+d
总计
a+c
b+d
a+b+c+d
y1
y2
合计
x1
a
21
73
x2
2
25
27
合计
b
46
100
由χ2进行独立性检验
未感冒
感冒
合计
使用血清
258
242
500
未使用血清
216
284
500
合计
474
526
1 000
患胃病
未患胃病
合计
生活不规律
60
260
320
生活有规律
20
200
220
合计
80
460
540
独立性检验的综合应用
喜爱打篮球
不喜爱打篮球
合计
男生
6
女生
10
合计
48
喜爱打篮球
不喜爱打篮球
合计
男生
22
6
28
女生
10
10
20
合计
32
16
48
X
0
1
2
P
eq \f(9,38)
eq \f(10,19)
eq \f(9,38)
60分以下
61~70分
71~80分
81~90分
91~100分
甲班(人数)
3
11
6
12
18
乙班(人数)
7
8
10
10
15
优秀人数
非优秀人数
合计
甲班
乙班
合计
P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
优秀人数
非优秀人数
合计
甲班
30
20
50
乙班
25
25
50
合计
55
45
100
男
女
合计
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
总成绩好
总成绩不好
总计
数学成绩好
478
a
490
数学成绩不好
399
24
423
总计
b
c
913
一则“双黄连口服液可抑制新冠病毒”消息热传后,引起部分市民抢购.人民日报官微称,抑制不等于预防和治疗,勿自行服用.上海专家称是否有效还在研究中.
问题:如何判断其有效?如何收集数据?收集哪些数据?
1.2×2列联表
(1)定义:如果随机事件A与B的样本数据整理成如下的表格形式.
因为这个表格中,核心数据是中间4个格子,所以这样的表格通常称为2×2列联表.
(2)χ2计算公式:χ2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.
2.独立性检验
任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平α对应的分位数),就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2<k成立,就称不能得到前述结论.这一过程通常称为独立性检验.
1.思考辨析(正确的打“√”,错误的打“×”)
(1)χ2的大小是判断事件A与B是否相关的统计量.( )
(2)事件A与B的独立性检验无关,即两个事件互不影响.( )
(3)应用独立性检验对两个变量间的关系作出的推断一定是正确的.( )
[答案] (1)√ (2)× (3)×
2.下列选项中,哪一个χ2的值可以有95%以上的把握认为“A与B有关系”( )
A.χ2=2.700 B.χ2=2.710
C.χ2=3.765D.χ2=5.014
D [∵5.014>3.841,故D正确.]
3.若由一个2×2列联表中的数据计算得χ2=4.013,那么在犯错误的概率不超过__________的前提下认为两个变量之间有关系.
5% [查阅χ2表知有95%的把握认为两个变量之间有关系,故在犯错误的概率不超过5%的前提下,认为两个变量之间有关系.]
4.(一题两空)下面是2×2列联表.
则表中a=________,b=________.
52 54 [a=73-21=52,b=a+2=52+2=54.]
【例1】 在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:能否在犯错误的概率不超过1%的前提下认为该种血清能起到预防感冒的作用.
[思路点拨] 独立性检验可以通过2×2列联表计算χ2的值,然后和临界值对照作出判断.
[解] 假设感冒与是否使用该种血清没有关系.
由列联表中的数据,求得
χ2=eq \f(1 000×258×284-242×2162,474×526×500×500)≈7.075.
χ2=7.075>6.635,P(χ2≥6.635)=0.01,
故我们在犯错误的概率不超过1%的前提下,即有99%的把握认为该种血清能起到预防感冒的作用.
独立性检验的具体做法
1.根据实际问题的需要确定允许推断“事件A与B有关系”犯错误的概率的上界α,然后查表确定临界值k.
2.利用公式χ2=eq \f(nad-bc2,a+bc+da+cb+d)计算随机变量χ2.
3.如果χ2≥k推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
eq \([跟进训练])
1.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人的调查结果如下:
根据以上数据,能否有99%的把握判断40岁以上的人患胃病与生活规律有关?
[解] 由公式得χ2=eq \f(54060×200-260×202,320×220×80×460)≈9.638.
∵9.638>6.635,
∴有99%的把握说40岁以上的人患胃病与生活是否有规律有关,即生活不规律的人易患胃病.
[探究问题]
1.利用χ2进行独立性检验,估计值的准确度与样本容量有关吗?
[提示] 利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.
2.在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P(χ2≥6.635)=0.01和P(χ2≥7.879)=0.005,哪种说法是正确的?
[提示] 两种说法均正确.P(χ2≥6.635)=0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(χ2≥7.879)=0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.
【例2】 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查,得到了如下的2×2列联表:
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为eq \f(2,3).
(1)请将上面的2×2列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.
[思路点拨] (1)由古典概型的概率求得2×2列联表.
(2)计算χ2,判断P(x2>3.841)=0.05是否成立.
(3)结合超几何分布求解.
[解] (1)列联表补充如下:
(2)由χ2=eq \f(48×220-602,28×20×32×16)≈4.286.
因为4.286>3.841,所以,能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.
其概率分别为
P(X=0)=eq \f(C\\al(2,10),C\\al(2,20))=eq \f(9,38),
P(X=1)=eq \f(C\\al(1,10)C\\al(1,10),C\\al(2,20))=eq \f(10,19),
P(X=2)=eq \f(C\\al(2,10),C\\al(2,20))=eq \f(9,38),
故X的分布列为
X的均值为E(X)=0+eq \f(10,19)+eq \f(9,19)=1.
1.检验两个变量是否相互独立,主要依据是计算χ2的值,再利用该值与分位数k进行比较作出判断.
2.χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.
3.统计的基本思维模式是归纳,它的特征之一是通过部分数据的性质来推测全部数据的性质.因此,统计推断是可能犯错误的,即从数据上体现的只是统计关系,而不是因果关系.
eq \([跟进训练])
2.某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练,对提高‘数学应用题’得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:
现规定平均成绩在80分以上(不含80分)的为优秀.
(1)试分析估计两个班级的优秀率;
(2)由以上统计数据填写下面2×2列联表,根据以上数据,能否有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助?
参考公式及数据:χ2=eq \f(nad-bc2,a+bc+da+cb+d).
[解] (1)由题意知,甲、乙两班均有学生50人,
甲班优秀人数为30人,优秀率为eq \f(30,50)=60%,
乙班优秀人数为25人,优秀率为eq \f(25,50)=50%,
所以甲、乙两班的优秀率分别为60%和50%.
(2)
因为χ2=eq \f(10025×30-25×202,55×45×50×50)≈1.010<3.841,
所以由参考数据知,没有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助.
1.χ2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d,该公式较准确的刻画了两个变量相关性的可靠程度.
2.χ2越大说明“两个变量之间有关系”的可能性越大,反之越小.
1.利用独立性检验来考查两个变量A,B是否有关系,当随机变量χ2的值( )
A.越大,“A与B有关系”成立的可能性越大
B.越大,“A与B有关系”成立的可能性越小
C.越小,“A与B有关系”成立的可能性越大
D.与“A与B有关系”成立的可能性无关
A [用独立性检验来考查两个分类是否有关系时,算出的随机变量χ2的值越大,说明“A与B有关系”成立的可能性越大,由此可知A正确.故选A.]
2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
经计算得
χ2=eq \f(110×40×30-20×202,60×50×60×50)≈7.8.
则正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
C [根据独立性检验的思想方法,正确选项为C.]
3.在一个2×2列联表中,由其数据计算得χ2=13.097,认为“两个变量有关系”犯错误的概率不超过________.
0.001 [如果χ2>10.828时,认为“两变量有关系”犯错误的概率不超过0.001.]
4.某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集的数据是______________________________.
男正教授人数,女正教授人数,男副教授人数,女副教授人数 [由研究的问题可知,需收集的数据应为男正教授人数,女正教授人数,男副教授人数,女副教授人数.]
5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.
(1)计算a,b,c的值;
(2)文科学生总成绩不好与数学成绩不好有关系吗?
[解] (1)由478+a=490,得a=12.
由a+24=c,得c=12+24=36.
由b+c=913,得b=913-36=877.
(2) χ2=eq \f(913×478×24-399×122,490×423×877×36)≈6.233>3.841,
因为P(χ2≥3.841)=0.05,
所以在犯错误的概率不超过0.05的前提下,认为文科学生总成绩不好与数学成绩不好有关系.学 习 目 标
核 心 素 养
1.通过实例,理解2×2列联表的统计意义.(重点)
2.通过实例,了解2×2列联表独立性检验及其应用.(难点)
1.通过2×2列联表统计意义的学习,体会数学抽象的素养.
2.借助χ2计算公式进行独立性检验,培养数学运算和数据分析的素养.
A
eq \(A,\s\up6(-))
总计
B
a
b
a+b
eq \(B,\s\up8(-))
c
d
c+d
总计
a+c
b+d
a+b+c+d
y1
y2
合计
x1
a
21
73
x2
2
25
27
合计
b
46
100
由χ2进行独立性检验
未感冒
感冒
合计
使用血清
258
242
500
未使用血清
216
284
500
合计
474
526
1 000
患胃病
未患胃病
合计
生活不规律
60
260
320
生活有规律
20
200
220
合计
80
460
540
独立性检验的综合应用
喜爱打篮球
不喜爱打篮球
合计
男生
6
女生
10
合计
48
喜爱打篮球
不喜爱打篮球
合计
男生
22
6
28
女生
10
10
20
合计
32
16
48
X
0
1
2
P
eq \f(9,38)
eq \f(10,19)
eq \f(9,38)
60分以下
61~70分
71~80分
81~90分
91~100分
甲班(人数)
3
11
6
12
18
乙班(人数)
7
8
10
10
15
优秀人数
非优秀人数
合计
甲班
乙班
合计
P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
优秀人数
非优秀人数
合计
甲班
30
20
50
乙班
25
25
50
合计
55
45
100
男
女
合计
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
总成绩好
总成绩不好
总计
数学成绩好
478
a
490
数学成绩不好
399
24
423
总计
b
c
913
相关资料
更多