人教A版普通高中数学一轮复习第十章第八节概率与统计的综合问题学案
展开考试要求:1.掌握概率与频率分布直方图的综合问题.
2.掌握概率与回归分析的综合问题.
3.掌握概率与独立性检验的综合问题.
频率分布直方图与分布列的综合问题
【例1】为了让学生了解毒品的危害,加强禁毒教育,某校组织了全体学生参加禁毒知识竞赛,现随机抽取50名学生的成绩(满分100分)进行分析,把他们的成绩分成以下6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],整理得到如图所示的频率分布直方图.
(1)求图中a的值并估计全校学生的平均成绩μ.(同一组中的数据用该组区间的中点值作代表)
(2)在(1)的条件下,若此次知识竞赛得分X~N(μ,122),为了激发学生学习禁毒知识的兴趣,对参赛学生制定如下奖励方案:得分不超过57分的不予奖励,得分超过57分但不超过81分的可获得学校食堂消费券5元,得分超过81分但不超过93分的可获得学校食堂消费券10元,超过93分的可获得学校食堂消费券15元.试估计全校1 000名学生参加知识竞赛共可获得食堂消费券多少元.(结果四舍五入保留整数)
附:P(μ-σ≤X≤μ+σ)≈0.682 7,P(μ-2σ≤X≤μ+2σ)≈0.954 5,P(μ-3σ≤X≤μ+3σ)≈0.997 3.
解:(1)由题意可知,(0.006×2+a+0.012+0.026+0.040)×10=1,
解得a=0.010.
μ=(45+95)×0.06+55×0.12+65×0.40+75×0.26+85×0.10=69.
(2)随机抽取一名学生,设获得的学校食堂消费券为Y元,
P(Y=0)=P(X≤57)≈0.5-0.682 72=0.158 65,
P(Y=5)=P(57<X≤81)≈0.682 7,
P(Y=10)=P(81<X≤93)≈0.954 5−0.682 72=0.135 9,
P(Y=15)=P(X>93)≈1−0.954 52=0.022 75,
所以Y的分布列为
即一名学生获得的学校食堂消费券的期望为E(Y)=0×0.158 65+5×0.682 7+10×0.135 9+15×0.022 75=5.113 75,
所以全校学生可获得食堂消费券1 000×5.113 75=5 113.75≈5 114(元).
故估计全校1 000名学生参加知识竞赛共可获得食堂消费券5 114元.
解频率分布直方图与分布列的综合问题的策略
解题时要正确理解频率分布直方图,能利用频率分布直方图正确计算出各组数据.概率问题以计算为主,往往和实际问题相结合,要注意理解实际问题的意义,使之和相应的概率计算对应起来.
为了不断提高教育教学能力,某地区教育局利用假期在某学习平台组织全区教职工进行网络学习.第一学习阶段结束后,为了解学习情况,负责人从平台数据库中随机抽取了300名教职工的学习时间(满时长为15小时),将其分成[3,5),[5,7),[7,9),[9,11),[11,13),[13,15]六组,并绘制成如图所示的频率分布直方图.(同一组中的数据用该组区间的中点值为代表)
(1)求a的值.
(2)用样本估计总体,该地区教职工学习时间ξ近似服从正态分布N(μ,σ2),其中μ近似为样本的平均数,经计算知σ≈2.39.若该地区有5 000 名教职工,试估计该地区教职工中学习时间在[7.45,14.62]内的人数.
(3)现采用分层随机抽样的方法从样本中学习时间在[7,9),[9,11)内的教职工中抽取5人,并从中随机抽取3人作进一步分析,分别求这3人中学习时间在[7,9)内的教职工平均人数.(四舍五入取整数)
附:若随机变量X服从正态分布N(μ,σ2),则P(μ-σ≤X≤μ+σ)≈0.682 7,P(μ-2σ≤X≤μ+2σ)≈0.954 5,P(μ-3σ≤X≤μ+3σ)≈0.997 3.
解:(1)由题意得2×(0.02+0.03+a+0.18+0.10+0.05)=1,解得a=0.12.
(2)由题意知样本的平均数为4×0.02×2+6×0.03×2+8×0.12×2+10×0.18×2+12×0.10×2+14×0.05×2=9.84,所以μ≈9.84.
又σ≈2.39,所以P(7.45≤ξ≤14.62)=P(μ-σ≤ξ≤μ+2σ)=12P(μ-σ≤ξ≤μ+σ)+12·P(μ-2σ≤ξ≤μ+2σ)≈12×(0.682 7+0.954 5)=0.818 6.
又5 000×0.818 6=4 093,
所以估计该地区教职工中学习时间在[7.45,14.62]内的人数约为4 093.
(3)因为[7,9),[9,11)对应的频率比为0.24∶0.36=2∶3,
所以抽取的5人中学习时间在[7,9),[9,11)内的人数分别为2,3.
设从这5人中抽取的3人学习时间在[7,9)内的人数为X,
则X的所有可能取值为0,1,2,
P(X=0)=C33C53=110,P(X=1)=C21C32C53=35,P(X=2)=C22C31C53=310,
所以E(X)=0×110+1×35+2×310=65≈1.
故这3人中学习时间在[7,9)内的教职工平均人数约为1.
回归模型与分布列的综合问题
【例2】近期,某公交公司推出扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示.
根据以上数据,绘制了散点图如下:
(1)根据散点图判断,在推广期内,y=a+bx与y=c·dx(c,d均为大于零的常数)哪一个适合作为扫码支付的人次y关于活动推出天数x的经验回归方程类型?给出判断,不必说明理由.
(2)根据(1)的判断结果及表中的数据,建立y关于x的经验回归方程,并预测活动推出第8天使用扫码支付的人次.
(3)推广期结束后,车队对乘客的支付方式进行统计,结果如下表:
车队为缓解周边居民出行压力,以80万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元.已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠.根据统计结果得知,使用扫码支付的乘客中有16的概率享受7折优惠,有13的概率享受8折优惠,有12的概率享受9折优惠.预计该车队每辆车每个月有1万人次乘车,根据所给数据,以事件发生的频率作为相应事件发生的概率,在不考虑其他因素的条件下,按照上述收费标准,假设这批车需要n(n∈N*)年才能开始盈利,求n的值.
附:其中vi=lg yi,.
对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线v=a+bu的斜率和截距的最小二乘估计分别为b=,a=v-bu.
解:(1)因为散点近似在指数型函数的图象上,所以y=c·dx适合作为扫码支付的人次y关于活动推出天数x的经验回归方程类型.
(2)因为y=c·dx,两边同时取常用对数,得lg y=lg (c·dx)=lg c+x lg d.
设lg y=v,所以v=lg c+x lg d.
因为x=4,v=1.54,=140,
所以lgd ==50.12−7×4×1.54140−7×16=728=0.25,
lg c=1.54-0.25×4=0.54,所以v=0.54+0.25x,
所以lg y=0.54+0.25x,
所以y关于x的经验回归方程是y=100.54+0.25x=100.54×100.25x=3.47×100.25x.
把x=8代入上式,得y=3.47×100.25×8=347,
347×10=3 470,
所以预测活动推出第8天使用扫码支付的人次为3 470.
(3)记一名乘客乘车支付的费用为Z,则Z的可能取值为2,1.8,1.6,1.4.
由题意知P(Z=2)=0.1,P(Z=1.8)=0.3×12=0.15,P(Z=1.6)=0.6+0.3×13=0.7,P(Z=1.4)=0.3×16=0.05,
所以一名乘客一次乘车的平均费用为
2×0.1+1.8×0.15+1.6×0.7+1.4×0.05=1.66(元).
由题意可知1.66×1×12×n-0.66×12×n-80>0,
得n>203.
又n∈N*,所以n=7.故估计这批车大概需要7年才能开始盈利.
解回归模型与分布列的综合问题的策略
求经验回归方程时要充分利用已知数据,合理利用公式减少运算.求解概率问题时要注意概率模型的应用,明确所求问题的事件类型是关键.
(2024·滨州模拟)2022年,中国新能源汽车销售火爆,A省相关部门调查了该省2022年1月至10月的新能源汽车销量情况,得到一组样本数据(xi,yi)(i=1,2,…,10),其中xi表示第i个月,yi表示第i个月A省新能源汽车的销量(单位:万辆),由样本数据的散点图可知,y与x具有线性相关关系,并将这10个月的数据作了初步处理,得到下面一些统计量的值:
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归方程y=a+bx的斜率和截距的最小二乘估计分别为b=,a=y-bx.
(1)建立y关于x的经验回归方程,并估计A省12月新能源汽车的销量;
(2)为鼓励新能源汽车销售商积极参与调查,A省汽车行业协会针对新能源汽车销售商开展抽奖活动,所有费用由某新能源汽车厂商赞助.奖项共设一、二、三等奖共三个奖项,其中一、二、三等奖分别奖励2万元、1万元、0.5万元,抽中一、二、三等奖的概率分别为16,13,12.现有甲、乙两家汽车销售商参加了抽奖活动,假设他们是否中奖相互独立,求这两家汽车销售商所获奖金总额X(单位:万元)的分布列及均值.
解:(1)由题意得,x=1+2+3+…+9+1010=5.5,
又y=1.5,=89.1,=385,
所以b==89.1−10×5.5×1.5385−10×5.52=0.08,
a=1.5-0.08×5.5=1.06,
所以y关于x的经验回归方程为y=1.06+0.08x,
当x=12时,y=2.02,
故A省12月份新能源汽车的销量约为2.02万辆.
(2)这两家汽车销售商所获得的奖金总额X的所有可能取值为4,3,2.5,2,1.5,1,
P(X=4)=16×16=136,
P(X=3)=2×16×13=19,
P(X=2.5)=2×16×12=16,
P(X=2)=13×13=19,
P(X=1.5)=2×13×12=13,
P(X=1)=12×12=14,
则X的分布列为
E(X)=4×136+3×19+2.5×16+2×19+1.5×13+1×14=116.
独立性检验与分布列的综合问题
【例3】(2022·新高考全国Ⅰ卷)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A 表示事件“选到的人卫生习惯不够良好”,B 表示事件“选到的人患有该疾病”.PBAPBA 与PBAPBA 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
①证明:R=PABPAB·PABPAB;
②利用该调查数据,给出P(A|B),P(A|B)的估计值,并利用①的结果给出R 的估计值.
附:χ2=nad−bc2a+bc+da+cb+d.
(1)解:零假设为H0:患该疾病群体与未患该疾病群体的卫生习惯无差异.由已知得
χ2=nad−bc2a+bc+da+cb+d
=200×40×90−60×102100×100×50×150=24.
又x0.010=6.635,且24>6.635,所以依据α=0.010的独立性检验,我们推断H0不成立,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)①证明:因为R=PBAPBA·PBAPBA=PABPA·PAPAB·PABPA·PAPAB,
所以R=PABPB·PBPAB·PABPB·PBPAB,
所以R=PABPAB·PABPAB.
②解:由题可得P(A|B)=40100=25,P(A|B)=10100=110,
又P(A|B)=60100=35,P(A|B)=90100=910,
所以R=PABPAB·PABPAB=6.
解独立性检验与分布列的综合问题的策略
解决独立性检验问题,要注意过好“三关”:假设关、公式关、对比关.解决概率问题要准确地把握题中所涉及的事件,明确所求问题的事件类型.
新修订的《中华人民共和国体育法》于2023年1月1日起施行,对于引领我国体育事业高质量发展,推进体育强国和健康中国建设具有十分重要的意义.某高校为调查学生性别与是否喜欢排球运动的关系,在全校范围内采用简单随机抽样的方法,分别抽取了男生和女生各100名作为样本,经统计,得到了如图所示的等高堆积条形图.
(1)根据等高堆积条形图,填写下列2×2列联表,并依据小概率值α=0.001的独立性检验,是否可以认为该校学生的性别与是否喜欢排球运动有关联?
单位:名
(2)将样本的频率视为概率,现从全校的学生中随机抽取50名学生,设其中喜欢排球运动的学生的人数为X,求使得P(X=k)取得最大值时的k值.
附:χ2=nad−bc2a+bc+da+cb+d,其中n=a+b+c+d,x0.001=10.828.
解:(1)由等高堆积条形图得2×2列联表如下:
单位:名
零假设为H0: 学生的性别与是否喜欢排球运动无关, 根据列联表中的数据,
得χ2=200×30×40−70×602100×100×90×110≈18.182>10.828=x0.001,
依据小概率值α=0.001的独立性检验,可以推断H0不成立,即认为该校学生的性别与是否喜欢排球运动有关联,此推断犯错误的概率不大于0.001.
(2)由(1)知,喜欢排球运动的频率为90200=920,
所以随机变量X~B50,920,
则P(X=k)=C50k920k1−92050-k(0≤k≤50,k∈N).
令C50k920 k1−920 50−k≥C50k−1920 k−11−920 51−k,C50k920 k1−920 50−k≥C50k+1920 k+11−920 49−k,
解得43920≤k≤45920.
因为k∈N,所以当k=22时,P(X=k)取得最大值.
课时质量评价(六十八)
1.为庆祝中国共产主义青年团成立100周年,某校团委组织团员参加知识竞赛.根据成绩(单位:分)制成如图所示的频率分布直方图.
(1)计算x的值;
(2)采用按比例分层随机抽样的方法从成绩在[80,90),[90,100]的两组中共抽取7人,再从这7人中随机抽取3人,记X为这3人中成绩落在[80,90)的人数,求X的分布列和期望.
解:(1)由题图可知0.005×10+0.010×10+0.015×10+10x+0.040×10=1,所以x=0.030.
(2)由题可知,7人中成绩在[80,90),[90,100]的人数分别为3,4,所以X的所有可能取值为0,1,2,3,则P(X=0)=C43C73=435,P(X=1)=C31C42C73=1835,P(X=2)=C32C41C73=1235,P(X=3)=C33C73=135,
所以X的分布列为
所以E(X)=0×435+1×1835+2×1235+3×135=97.
2.(2024·深圳模拟)某县城为活跃经济,特举办传统文化民俗节,小张弄了一个套小白兔的摊位,设xi表示第i天的平均气温,yi表示第i天参与活动的人数,i=1,2,…,20,根据统计,计算得到如下一些统计量的值:
(xi- eq \x\t(x))2=80,(yi- eq \x\t(y))2=9 000,(xi- eq \x\t(x))(yi- eq \x\t(y))=800.
(1)根据所给数据,用相关系数r判断是否可用线性回归模型拟合y与x的关系;(精确到0.01)
(2)现有两个家庭参与套圈,A家庭3位成员每轮每人套住小白兔的概率都为310,B家庭3位成员每轮每人套住小白兔的概率分别为13,14,16,每个家庭的3位成员均玩一次套圈为一轮,每轮每人收费20元,每个小白兔价值40元,且每人是否套住相互独立,以每个家庭的盈利的期望为决策依据,问:一轮结束后,哪个家庭损失较大?
附:相关系数r=.
解:(1)由题意可知,
r=
= eq \f(800,\r(80×9 000))
=223≈0.94,
故可用线性回归模型拟合y与x的关系.
(2)设A家庭中套中小白兔的人数为X1,则X1~B3,310,
所以E(X1)=3×310=910.
设A家庭的盈利为X2元,则X2=40X1-60,
所以E(X2)=40E(X1)-60=-24.
设B家庭中套中小白兔的人数为Y1,
则Y1的所有可能取值为0,1,2,3,
P(Y1=0)=23×34×56=512,
P(Y1=1)=13×34×56+23×14×56+23×34×16=3172,
P(Y1=2)=13×14×56+13×34×16+23×14×16=536,
P(Y1=3)=13×14×16=172,
所以E(Y1)=0×512+1×3172+2×536+3×172=34.
设B家庭的盈利为Y2元,则Y2=40Y1-60,
所以E(Y2)=40E(Y1)-60=40×34-60=-30.
因为-24>-30,所以B家庭的损失较大.
3.某学校共有3 000名学生,其中男生1 800人,为了解该校学生在校的月消费情况,采取比例分配的分层随机抽样的方式抽取100名学生进行调查,先统计他们某月的消费金额,然后按“男生、女生”分成两组,再分别将两组学生的月消费金额(单位:元)分成5组:[300,400),[400,500),[500,600),[600,700),[700,800]分别加以统计,得到如图所示的频率分布直方图.
(1)将月消费金额不低于600元的学生称为“高消费群”.请你根据已知条件完成下列2×2列联表,并根据小概率值α=0.05的独立性检验,分析该校学生属于“高消费群”是否与性别有关.
单位:人
(2)用样本估计总体,将调查所得到的频率视为概率,现从该校中每次随机抽取1名学生,共抽取4次,且每次抽取的结果是相互独立的,记被抽取的4名学生中属于“高消费群”的人数为X,求X的均值E(X)和方差D(X).
解:(1)由题意可得,抽取的100人中有男生60人,女生40人.根据题意及频率分布直方图可得2×2列联表如下:
单位:人
零假设为H0:该校学生属于“高消费群”与性别无关.
由列联表中数据得χ2=100×15×20−45×20260×40×35×65=60091≈6.593>3.841=x0.05,
所以根据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为该校学生属于“高消费群”与性别有关,该推断犯错误的概率不大于0.05.
(2)用样本估计总体,则从学校中随机抽取1名学生是“高消费群”的概率为35100=720,所以X~B4,720,
所以E(X)=4×720=75,D(X)=4×720×1−720=91100.
4.(2024·福州模拟)某网红店推出A,B两种不同风味的饮品.为了研究消费者性别和饮品偏好的关联性,店主调查了首次到店的消费者,整理得到如下列联表:
单位:人
(1)请画出等高堆积条形图,并依据小概率值α=0.01的独立性检验,判断首次到店消费者的性别与饮品风味偏好是否有关联.如果结论是性别与饮品风味偏好有关联,请解释它们之间如何相互影响.
(2)店主进一步调查发现:女性消费者若前一次选择A饮品,则下一次选择A,B两种饮品的概率分别为13,23;若前一次选择B饮品,则下一次选择A,B两种饮品的概率分别为23,13;如此循环下去,求女性消费者前三次选择A,B两种饮品的数学期望,并解释其实际含义.
解:(1)对于A饮品:女性消费者的频率为60100=0.6,男性消费者的频率为40100=0.4,
对于B饮品:女性消费者的频率为40100=0.4,男性消费者的频率为60100=0.6,
可得等高堆积条形图,如下图所示.
零假设为H0:首次到店消费者的性别与饮品风味偏好无关.
由列联表中数据得χ2=200×60×60−40×402100×100×100×100=8>6.635=x0.01,
所以根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为首次到店消费者的性别与饮品风味偏好有关,此推断犯错误的概率不大于0.01.
可知首次到店消费者中女性消费者更青睐于A饮品,男性消费者更青睐于B饮品.
(2)由题意可知,女性消费者第一次选择A,B两种饮品的概率分别为60100=35,40100=25.
设前三次选择A饮品的次数为X,则X的可能取值为0,1,2,3,
因为P(X=0)=25×13×13=245,
P(X=1)=35×23×13+25×23×23+25×13×23=25,
P(X=2)=35×13×23+35×23×23+25×23×13=2245,
P(X=3)=35×13×13=115,
所以X的分布列为
所以X的期望E(X)=0×245+1×25+2×2245+3×115=7145.
设前三次选择B饮品的次数为Y,则Y=3-X,所以Y的期望E(Y)=3-E(X)=3-7145=6445,
即女性消费者前三次中,平均有7145次选择A饮品,有6445次选择B饮品.
Y
0
5
10
15
P
0.158 65
0.682 7
0.135 9
0.022 75
x
1
2
3
4
5
6
7
y
6
11
21
34
66
101
196
支付方式
现金
乘车卡
扫码
比例
10%
60%
30%
y
v
100.54
62.14
1.54
2 535
50.12
3.47
y
1.5
89.1
385
15
X
4
3
2.5
2
1.5
1
P
136
19
16
19
13
14
不够良好
良好
病例组
40
60
对照组
10
90
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
性别
是否喜欢排球运动
合计
是
否
男
女
合计
100
性别
是否喜欢排球运动
合计
是
否
男
30
70
100
女
60
40
100
合计
90
110
200
X
0
1
2
3
P
435
1835
1235
135
性别
是否属于“高消费群”
合计
属于
不属于
男
女
合计
性别
是否属于“高消费群”
合计
属于
不属于
男
15
45
60
女
20
20
40
合计
35
65
100
性别
种类
合计
A饮品
B饮品
女
60
40
100
男
40
60
100
合计
100
100
200
X
0
1
2
3
P
245
25
2245
115
人教A版普通高中数学一轮复习第八章第八节第四课时圆锥曲线中的定点、定直线与定值问题学案: 这是一份人教A版普通高中数学一轮复习第八章第八节第四课时圆锥曲线中的定点、定直线与定值问题学案,共25页。
人教A版普通高中数学一轮复习第八章第八节第三课时圆锥曲线中的范围、最值问题学案: 这是一份人教A版普通高中数学一轮复习第八章第八节第三课时圆锥曲线中的范围、最值问题学案,共21页。
人教A版普通高中数学一轮复习第八章第八节第二课时圆锥曲线中的求值与证明问题学案: 这是一份人教A版普通高中数学一轮复习第八章第八节第二课时圆锥曲线中的求值与证明问题学案,共13页。