![北师大版数学高二选择性必修第一册 7.3 独立性检验问题 课件第1页](http://img-preview.51jiaoxi.com/3/3/15760046/0-1716206519806/0.jpg?x-oss-process=image/resize,w_794/sharpen,100)
![北师大版数学高二选择性必修第一册 7.3 独立性检验问题 课件第2页](http://img-preview.51jiaoxi.com/3/3/15760046/0-1716206519821/1.jpg?x-oss-process=image/resize,w_794/sharpen,100)
![北师大版数学高二选择性必修第一册 7.3 独立性检验问题 课件第3页](http://img-preview.51jiaoxi.com/3/3/15760046/0-1716206519844/2.jpg?x-oss-process=image/resize,w_794/sharpen,100)
![北师大版数学高二选择性必修第一册 7.3 独立性检验问题 课件第4页](http://img-preview.51jiaoxi.com/3/3/15760046/0-1716206519871/3.jpg?x-oss-process=image/resize,w_794/sharpen,100)
![北师大版数学高二选择性必修第一册 7.3 独立性检验问题 课件第5页](http://img-preview.51jiaoxi.com/3/3/15760046/0-1716206519900/4.jpg?x-oss-process=image/resize,w_794/sharpen,100)
![北师大版数学高二选择性必修第一册 7.3 独立性检验问题 课件第6页](http://img-preview.51jiaoxi.com/3/3/15760046/0-1716206519921/5.jpg?x-oss-process=image/resize,w_794/sharpen,100)
![北师大版数学高二选择性必修第一册 7.3 独立性检验问题 课件第7页](http://img-preview.51jiaoxi.com/3/3/15760046/0-1716206519941/6.jpg?x-oss-process=image/resize,w_794/sharpen,100)
![北师大版数学高二选择性必修第一册 7.3 独立性检验问题 课件第8页](http://img-preview.51jiaoxi.com/3/3/15760046/0-1716206519981/7.jpg?x-oss-process=image/resize,w_794/sharpen,100)
所属成套资源:北师大版数学选择性必修第一册PPT课件+练习整套
北师大版 (2019)选择性必修 第一册3.1 独立性检验优质课ppt课件
展开
这是一份北师大版 (2019)选择性必修 第一册3.1 独立性检验优质课ppt课件,共58页。PPT课件主要包含了01%,03%,秃顶=心脏病等内容,欢迎下载使用。
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了6578人,得到如下结果(单位:人)
上面是一张2行2列的表,在统计中称为2×2列联表.在这个问题中,需要考虑两个变量:是否吸烟,是否患肺癌;每个变量应取两个值:吸烟、不吸烟,患肺癌、未患肺癌. 上表中的数据是根据调査得到的结果,如吸烟且患肺癌的人数是56,不吸烟但患肺癌的人数是23,等等.我们的问题是:如何根据表格中的数据来判断吸烟与患肺癌是否有关系,即它们是否独立?这一问题称为2×2列联表的独立性检验.
假设“吸烟与否”与“是否患肺癌”没有关系,即吸烟与患肺癌是独立的.根据直观经验, 我们把吸烟人群中患肺癌的人所占百分比,与不吸烟人群中患肺癌的人所占百分比作比较. 如果吸烟不影响患肺癌,就意味着,无论吸烟与否,患肺癌的人所占的百分比应是基本一样的.就此题而言:吸烟人群中患肺癌的人所占百分比是不吸烟人群中患肺癌的人所占百分比是
显然,吸烟人群中患肺癌的人所占百分比,与不吸烟人群中患肺癌的人所占百分比不相等,且相差较大.由此我们可以推断,开始的假设可能是不成立的.也就是说,患肺癌与吸烟可能是有关系的.由吸烟人群中患肺癌的人所占的百分比较大,可以认为吸烟会对肺癌的发病率产生一定的影响.另一方面,如果吸烟和患肺癌是独立的,那么就有P(A1B1) = P(A1)P(B1), P(A1B2)= P(Al)P(B2) , P(A2B1)=P(A2)P(B1), P(A2B2)= P(A2)P(B2). 先讨论P(A1B1) = P(A1)P(B1),的情况.我们可以列出频率表,并用既吸烟又患肺癌的人的频率来估计P(A1B1),用吸烟的人的频率来估计P(A1),用患肺癌的人的频率来估计P(B1),得到表7-10.
既吸烟又患肺癌的人的频率是0.85%,吸烟的人的频率是30.22%,患肺癌的人的频率是1.20%.显然,30.22.%×1.20%≈0.36%≠0.85%.由于根据表中数据计算出的值是频率值,它只是概率的估计值,因此即使变量之间独立,这两个数一般也不一定恰好相等.但是当这两个数相差很大时,就可以得出:患肺癌与吸烟有关的可能性较大.
其中,a表示变量A取A1,且变量B取B1时的数据;b表示变量A取A1,且变量B取 B2时的数据;c表示变量A取A2,且变量B取Bl时的数据;d表示变量A取A2,且变量B取B2时的数据.
独立性检验的基本思想:
统计学家选取以下统计量,用它的大小来检验变量之间是否独立:
统计上已经证明:在变量A, B独立的前提下,当样本量很大时,χ2近似服从一个已知的分布χ2(1).当χ2较大时,说明变量之间不独立.在统计中,用以下结果对变量的独立性进行判断.
(1)当χ2≤2.706时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的;(2)当χ2>2.706时,有90%的把握判断变量A,B有关联;(3)当χ2>3.841时,有95%的把握判断变量A,B有关联;(4)当χ2>6.635时,有99%的把握判断变量A,B有关联.
χ2较大时,说明变量之间不独立
追问1 卡方统计量有什么用呢?
统计学家建议,用随机变量 χ2取值 的大小作为判断零假设H0是否成立的依据。
根据小概率事件在一次试验中不大可能发生的规律,可以通过确定一个与H0相矛盾的小概率事件来实现,在假定H0的条件下,对于有放回简单随机抽样,当样本容量n充分大时,统计学家得到了 χ2的近似分布.
P(χ2 ≥ xα)=α
我们称xα为α的临界值,这个临界值可以作为判断χ2大小的标准. 概率值α越小,临界值xα越大.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值:
基于小概率值α的检验规则:
追问3 怎么看这个表呢?
例如,对于小概率值α=0.05,我们有如下的具体检验规则:
按α=0.1的卡方独立性检验,没有充分证据推断H0不成立(数学结论),可以认为X和Y独立(实际结论).
独立性检验基本的思想类似反证法
(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下随机变量 K2 应该很能小,如果由观测数据计算得到K2的观测值k很大,则在一定程度上说明假设不合理.(3)根据随机变量K2的含义,可以通过评价该假设不合理的程度,由实际计算出的,说明假设合理的程度为99.9%,即“两个分类变量有关系”这一结论成立的可信度为约为99.9%.
反证法原理与假设检验原理
反证法原理: 在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。
假设检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。
1.思考辨析(正确的画“√”,错误的画“×”)(1)列联表中的数据是两个变量的频数.( )(2)2×2列联表只有4个格子.( )(3)χ2的大小是判断变量A与B是否相关的统计量.( )
2.下面是一个2×2列联表:
则表中a、b的值分别为( )A.94、96 B.52、50C.52、54 D.54、52
3.对两个变量A与B的χ2的值说法正确的是( )A.χ2越大,“A与B有关”的把握性越小B.χ2越小,“A与B有关”的把握性越小C.χ2越接近于0,“A与B无关”的把握性越小D.χ2越大,“A与B无关”的把握性越大
解析:χ2越大,A与B越不独立,所以关联越大;相反,χ2越小,关联越小.故选B.
解析:根据表中数据得到χ2≈4.667>3.841,所以至少有95%的把握判定休闲方式与性别有关系.
例1 某组织对男、女青年是否喜爱古典音乐进行了一个调查,调查者随机调查了146名青年,表7-12给出了调查的结果(单位:人):
试问:男、女青年喜爱古典音乐的程度是否有差异?
解 依题意知该问题是判断喜爱古典音乐是否与青年的性别有关.根据表7-12中的数据计算得到表7-13(单位:人):
例2 容易生气的人更有可能患心脏病吗?某机构随机调查了2 796人,表7-14给出了调查的结果(单位:人):
试问:容易生气的人是否更有可能患心脏病?
解 问题是要判断患心脏病是否与易怒有关.根据表7-14中的数据计算得到表7-15 (单位:人):
例2 生物学上对于人类头发的颜色与眼睛虹膜的颜色是否有关进行了调研,以下是一次调査结果,调查人数共212人.调査结果如表7-16(单位:人):
试问:头发的颜色与眼睛虹膜的颜色有关吗?
解 问题是要判断头发的颜色是否与眼睛虹膜的颜色有关.根据表7-16中的数据计算得到表7-17(单位:人):
例4.某心脏病医院为了研究秃顶是否与心脏病有关,对665名男性心脏和772名其他病人做了研究,是否可以以99%的把握认为秃顶与心脏病有关?
例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断是否有关?你所得的结论在什么范围内有效?
根据联表的数据,得到
所以有99%的把握认为“秃顶与患心脏病有关”。
研究人员表示,掉头发在很大程度上是由日渐增大的工作压力、不能充分休息、不正确饮食和睡眠不足等因素引起的。在接受调查的人群中,有41%的受秃头威胁的人表示,他们一日睡觉时间不足4小时
因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体.
2、本例中的边框中的注解:
1、在解决实际问题时,可以直接计算K2的观测值k进行独立检验,而不必写出K2的推导过程;
主要是使得我们注意统计结果的适用范围(这由样本的代表性所决定)
变式1、某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,得出以下2x2列联表:如果随机抽查该班的一名学生,那么抽到积极参加班级工作的学生的概率是12/5.(1)求a,b,c,d的值.(2)试运用独立性检验的思想方法分析:能否有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系?并说明理由.
解:(1)积极参加班级工作的学生有c人,总人数为50,由抽到积极参加班级工作的学生的概率P1=c/50=12/25,解得c=24,所以a=6.所以b=25-a=19,d=50-c=26.
变式2、某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是:注射疫苗后人体血液中的高铁血红蛋白的含量(以下简称为“M含量”)不超过1%,则为阴性,认为受试者没有出现血症.若一批受试者的M含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)
(1)请说明该疫苗在M含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的2x2列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?
(2)依题意得,抽取的50名志愿者中女性志愿者应为25人,由已知,25名女性志愿者被检测出阳性恰有1人,故女性中阳性的频率0.04,所以全部女性志愿者阳性共有200 x 0.04 = 8人。由(1)知400名志愿者中,阳性的频率为0.03,所以阳性的人数共有400 x 0.03=12人因此男性志愿者被检测出阳性的人数是12-8=4人.所得2x2列联表如下:
1.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )A.平均数与方差 B.回归分析C.独立性检验 D.概率
解析:判断两个变量是否有关的最有效方法是进行独立性检验.
2.分类变量X和Y的列表如下,则下列说法判断正确的是( )
A.ad-bc越小,说明X和Y关系越弱B.ad-bc越大,说明X和Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强
3.若由一个2×2列联表中的数据计算得χ2=4.013,那么有________把握认为两个变量有关.( )A.95% B.97.5%C.99% D.99.9%
解析:∵χ2=4.013>3.841,∴有95%的把握认为两个变量有关.
4.下面2×2列联表的χ2的值为________.
5.在研究某种药物对“H7N9”病毒的治疗效果时,进行动物试验,得到以下数据,对150只动物服用药物,其中132只动物存活,18只动物死亡,对照组150只动物进行常规治疗,其中114只动物存活,36只动物死亡.(1)根据以上数据建立一个2×2列联表.(2)试问该种药物对治疗“H7N9”病毒是否有效?
6、这一年来人类与新型冠状病毒的“战争”让人们逐渐明白一个道理,人类社会组织模式的差异只是小事情,病毒在地球上存在了三四十亿年,而人类的文明史不过只有几千年而已,人类无法消灭病毒,只能与之共存,或者病毒自然消亡,在病毒面前,个体自由要服从于集体或者群体生命的价值.在传染病学中,通常把从致病刺激物侵入机体内或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期,因此我们应该注意做好良好的防护措施和隔离措施.某研究团队统计了某地区10000名患者的相关信息,得到如下表格:
(1)新冠肺炎的潜伏期受诸多因素的影响,为研究潜伏期与年龄的关系,通过分层抽样从10000名患者中抽取200人进行研究,完成下面的2×2列联表,并判断能否在犯错误的概率不超过0.001的前提下认为潜伏期与患者年龄有关?(2)依据上述数据,将频率作为概率,且每名患者的潜伏期是否超过8天相互独立.为了深入研究,该团队在这一地区抽取了20名患者,其中潜伏期不超过8天的人数最有可能是多少?
解:(1数据可知,潜伏期大于8天的人数为(1600+250+150)/10000 x 200=40人,补充完整的2×2列联表如下,
解:(2)该地区10000名患者中潜伏期不超过8天的人数为 600+1900+3000+2500名,将频率视为概率,潜伏期不超过8天的概率为8000/10000=0.8,所以抽取的20名患者中潜伏期不超过8天的人数最有可能是20 x 0.8 = 16名.
1、(2021 全国高考真题(文))甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
解:(1)甲机床生产的产品中的一级品的频率为150/200=75%,乙机床生产的产品中的一级品的频率为120/200=60%.
2、(2020 全国高考真题(文))某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天).
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
解:(1)由频数分布表可知,该市一天的空气质量等级为1的概率为(2+16+25)/100=0.43,等级为2的概率为(5+10+12)/100=0.27,等级为3的概率为(6+7+8)/100=0.21,等级为4的概率为(7+2+0)/100=0.09;(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为 (100x20+300x35+500x45)/100=350(3)2x2列联表如下:
2022年新高考一卷数学第20题
高考链接——2022年新高考一卷数学第20题
1.相互独立事件: 设A,B为两个事件,若P(AB)=P(A)P(B),则称事件A与事件B相互独立。即一个事件的发生与否对另一个事件发生的概率没有影响。
并将形如此表的表格称为2×2列联表.
相关课件
这是一份高中数学北师大版 (2019)选择性必修 第一册第五章 计数原理3 组合问题3.1 组合精品ppt课件,共30页。PPT课件主要包含了规定01,有顺序,无顺序,组合定义,组合数及其性质,你发现了什么,组合数公式,组合数的两个性质,两个重要性质等内容,欢迎下载使用。
这是一份高中数学北师大版 (2019)选择性必修 第一册2.1 排列与排列数完美版课件ppt,共36页。PPT课件主要包含了相应的排法,N3×26,故有6种不同的选法,不同排法如下图所示,有序性,互异性,排列数公式,全排列用表示,结构特点,全排列数公式等内容,欢迎下载使用。
这是一份高中数学北师大版 (2019)选择性必修 第一册4.2 直线与圆锥曲线的综合问题优质ppt课件,共60页。PPT课件主要包含了1弦长公式,2面积公式,变形1,变形2等内容,欢迎下载使用。
![文档详情页底部广告位](http://img.51jiaoxi.com/images/257d7bc79dd514896def3dc0b2e3f598.jpg)