![第九章 第三节 变量间的相关关系、统计案例解析版第1页](http://img-preview.51jiaoxi.com/3/3/12270033/0/0.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![第九章 第三节 变量间的相关关系、统计案例解析版第2页](http://img-preview.51jiaoxi.com/3/3/12270033/0/1.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![第九章 第三节 变量间的相关关系、统计案例解析版第3页](http://img-preview.51jiaoxi.com/3/3/12270033/0/2.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
第九章 第三节 变量间的相关关系、统计案例解析版
展开
这是一份第九章 第三节 变量间的相关关系、统计案例解析版,共31页。
1.相关关系与回归方程
(1)相关关系的分类
①正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
②负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(2)线性回归方程
能用直线方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))近似表示的相关关系叫做线性相关关系,该方程叫线性回归方程.
(3)最小平方法是一种求回归直线的方法,用这种方法求得的回归直线能使样本数据的点到回归直线的距离的平方和最小.
(4)给出一组数据(x1,y1),(x2,y2),…,(xn,yn),用最小平方法求得线性回归方程的系数eq \(a,\s\up6(^)),eq \(b,\s\up6(^))满足
eq \b\lc\{\rc\ (\a\vs4\al\c1(\(b,\s\up11(^))=\f(n\(∑,\s\up6(n),\s\d4(i=1))xiyi-\(∑,\s\up6(n),\s\d4(i=1))xi\(∑,\s\up6(n),\s\d4(i=1))yi,n\(∑,\s\up6(n),\s\d4(i=1))x\\al(2,i)-\(∑,\s\up6(n),\s\d4(i=1))xi2),,\(a,\s\up6(^))=\x\t(y)-b\x\t(x).))
上式还可以表示为
eq \b\lc\{\rc\ (\a\vs4\al\c1(\(b,\s\up11(^))=\f(\(∑,\s\up6(n),\s\d4(i=1))xiyi-n\x\t(x) \x\t(y),\(∑,\s\up6(n),\s\d4(i=1))x\\al(2,i)-n\x\t(x)2)=\f(\(∑,\s\up6(n),\s\d4(i=1)) xi-\x\t(x)yi-\x\t(y),\(∑,\s\up6(n),\s\d4(i=1)) xi-\x\t(x)2),,,\(a,\s\up6(^))=\x\t(y)-b\x\t(x).))
(5)回归分析
①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
②样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(eq \x\t(x),eq \x\t(y))称为样本点的中心.
③相关系数
|r|≤1;
当r>0时,表明两个变量正相关;
当rr0.05,则否定H0,表明有95%的把握认为x与y之间具有线性相关关系;若|r|≤r0.05,则没有理由拒绝原来的假设H0,即就目前数据而言,没有充分理由认为y与x之间有线性相关关系.
2.独立性检验
(1)2×2列联表
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B,Ⅱ也有两类取值,即类1和类2,得到如下列联表所示的抽样数据:
上述表格称为2×2列联表.
|ad-bc|越小,说明两个分类变量x,y之间的关系越弱;
|ad-bc|越大,说明两个分类变量x,y之间的关系越强.
(2)χ2统计量
χ2=eq \f(nad-bc2,a+cb+da+bc+d).
用χ2的大小可判断事件A,B有关联的可信程度.
(3)独立性检验
①独立性检验的步骤
要判断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
a.提出假设H0:Ⅰ与Ⅱ没有关系;
b.根据2×2列联表及χ2公式,计算χ2的值;
c.查对临界值,作出判断.
其中临界值如表所示:
表示在H0成立的情况下,事件“χ2≥x0”发生的概率.
②推断依据
a.若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;
b.若χ2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;
c.若χ2>2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”;
d.若χ2≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,即不能认为Ⅰ与Ⅱ没有关系.
课前检测
1. 已知变量x,y之间具有线性相关关系,其散点图如图所示,回归直线l的方程为eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),则下列说法正确的是( )
A.eq \(a,\s\up6(^))>0,eq \(b,\s\up6(^))<0
B.eq \(a,\s\up6(^))>0,eq \(b,\s\up6(^))>0
C.eq \(a,\s\up6(^))<0,eq \(b,\s\up6(^))<0
D.eq \(a,\s\up6(^))<0,eq \(b,\s\up6(^))>0
【答案】选D 由题图可知,回归直线的斜率是正数,即eq \(b,\s\up6(^))>0;回归直线在y轴上的截距是负数,即eq \(a,\s\up6(^))<0,故选D.
2.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是( )
A.l1和l2必定平行
B.l1与l2必定重合
C.l1和l2一定有公共点(s,t)
D.l1与l2相交,但交点不一定是(s,t)
【答案】选C 注意到回归直线必经过样本中心点.
3.为调查中学生近视情况,测得某校150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
答案 C
解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
4.下面是2×2列联表:
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
答案 C
解析 ∵a+21=73,∴a=52.
又a+22=b,∴b=74.
5.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和χ2统计量研究患肺病是否与吸烟有关.计算得χ2=4.453,经查阅临界值表知P(χ2≥3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
答案 C
解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.
6.(多选)在统计中,由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)利用最小二乘法得到两个变量的线性回归方程为eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),那么下列说法正确的是( )
A.相关系数r不可能等于1
B.直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))必经过点(eq \x\t(x),eq \x\t(y))
C.直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))表示最接近y与x之间真实关系的一条直线
D.相关系数为r,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小
答案 BCD
解析 相关系数的取值范围是|r|≤1,故A错;直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))必过样本点中心即点(eq \x\t(x),eq \x\t(y)),故B正确;直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))是采用最小二乘法求解出的直线方程,接近真实关系,故C正确;相关系数r的绝对值越接近于1,表示相关程度越大,越接近于0,相关程度越小,故D正确.故选BCD.
7.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程eq \(y,\s\up6(^))=0.67x+54.9.
现发现表中有一个数据看不清,请你推断出该数据的值为________.
答案 68
解析 由eq \x\t(x)=30,得eq \x\t(y)=0.67×30+54.9=75.
设表中的“模糊数字”为a,
则62+a+75+81+89=75×5,∴a=68.
8.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为eq \(y,\s\up6(^))=0.85x-85.71,则下列结论中不正确的是________.(填序号)
①y与x具有正的线性相关关系;
②回归直线过样本点的中心(eq \x\t(x),eq \x\t(y));
③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;
④若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg.
答案 ④
解析 ①正确;②正确;③正确.对于④,当x=170 cm时,eq \(y,\s\up6(^))=0.85×170-85.71=58.79,但这是预测值,不可断定其体重为58.79 kg.故不正确.
课中讲解
考点一.相关关系的判断
例1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③D.①③②
【答案】选D 第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.
变式1.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
【答案】选C 因为y=-0.1x+1的斜率小于0,
故x与y负相关.因为y与z正相关,可设z=eq \(b,\s\up6(^))y+eq \(a,\s\up6(^)),eq \(b,\s\up6(^))>0,则z=eq \(b,\s\up6(^))y+eq \(a,\s\up6(^))=-0.1eq \(b,\s\up6(^))x+eq \(b,\s\up6(^))+eq \(a,\s\up6(^)),故x与z负相关.
例2.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
答案 B
解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.
变式2.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
答案 A
解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.
例3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=eq \f(1,2)x+1上,则这组样本数据的样本相关系数为( )
A.-1B.0
C.eq \f(1,2)D.1
【答案】选D 所有样本点均在同一条斜率为正数的直线上,则样本相关系数最大,为1,故选D.
变式.变量X与Y相应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2<r1<0B.0<r2<r1
C.r2<0<r1D.r2=r1
【答案】选C 对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选C.
考点二.回归分析
例1.(2020•安徽六安市)某搜索引擎广告按照付费价格对搜索结果进行排名,点击一次付费价格排名越靠前,被点击的次数也可能会提高,已知某关键词被甲、乙等多个公司竞争,其中甲、乙付费情况与每小时点击量结果绘制成如下的折线图.
(1)若甲公司计划从这10次竞价中随机抽取3次竞价进行调研,其中每小时点击次数超过7次的竞价抽取次数记为,求的分布列与数学期望;
(2)若把乙公司设置的每次点击价格为x,每小时点击次数为,则点近似在一条直线附近.试根据前5次价格与每小时点击次数的关系,求y关于x的回归直线.(附:回归方程系数公式:,).
【解析】(1)由题图可知,甲公司每小时点击次数为9,5,7,8,7,6,8,6,7,7,
由条件可知,的取值可能为0,1,2,3,且
,
所以,的分布列为
的数学期望为.(6分)
(2)根据折线图可得数据如下:
则,则,
所求回归直线方程为:.(12分
变式1.(2020•福建南平)某购物商场分别推出支付宝和微信“扫码支付”购物活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用“扫码支付”。现统计了活动刚推出一周内每天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次,统计数据如下表所示:
(1)根据散点图判断,在推广期内,扫码支付的人次y关于活动推出天数x的回归方程适合用y=c·dx来表示,求出该回归方程,并预测活动推出第8天使用扫码支付的人次;
(2)推广期结束后,商场对顾客的支付方式进行统计,结果如下表:
商场规定:使用现金支付的顾客无优惠,使用会员卡支付的顾客享受8折优惠,扫码支付的顾客随机优惠,根据统计结果得知,使用扫码支付的顾客,享受7折优惠的概率为,享受8折优惠的概率为,享受9折优惠的概率为。现有一名顾客购买了a元的商品,根据所给数据用事件发生的频率来估计相应事件发生的概率,估计该顾客支付的平均费用是多少?。
参考数据:设
参考公式:对于一组数据(ui,vi),(u2,v2),…(un,vn),其回归直线的斜率和截距的最小二乘估计公式分别为:。
【解析】
(1)由,两边同时取常用对数得:;
设…………………………………………………………1分
,,…………………2分
,………………………4分
把样本中心点代入,得: ,
……………………………………5分
关于的回归方程为:;
把代入上式, ;
活动推出第8天使用扫码支付的人次为331; …………………………………………7分
(2)记一名顾客购物支付的费用为,
则的取值可能为:,,,;…………………………………… 8分
;;
;…………………10分
分布列为:
所以,一名顾客购物的平均费用为:
(元)………………………12分
例2. 下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:eq \(y,\s\up6(^)) =-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:eq \(y,\s\up6(^)) =99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解 (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为eq \(y,\s\up6(^)) =-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为eq \(y,\s\up6(^)) =99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型eq \(y,\s\up6(^)) =99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
变式2.(2020•山东菏泽二模)李克强总理在2018年政府工作报告指出,要加快建设创新型国家,把握世界新一轮科技革命和产业变革大势,深入实施创新驱动发展战略,不断增强经济创新力和竞争力.某手机生产企业积极响应政府号召,大力研发新产品,争创世界名牌.为了对研发的一批最新款手机进行合理定价,将该款手机按事先拟定的价格进行试销,得到一组销售数据(xi,yi)(i=1,2,…,6),如表所示:
已知.
(1)若变量x,y具有线性相关关系,求产品销量y(百件)关于试销单价x(千元)的线性回归方程;
(2)用(1)中所求的线性回归方程得到与xi对应的产品销量的估计值.当销售数据(xi,yi)对应的残差的绝对值时,则将销售数据(xi,yi)称为一个“好数据”.现从6个销售数据中任取3个子,求“好数据”个数ξ的分布列和数学期望E(ξ).
(参考公式:线性回归方程中的估计值分别为.
【解析】【分析】(1)由题意计算平均数和回归系数,写出线性回归方程;
(2)利用所求的线性回归方程求得“好数据”的个数,知ξ的可能取值;计算对应的概率值,写出分布列,计算数学期望值.
解:(1)由=yi=60,得×(70+65+62+59+56+t)=60,解得t=48,
所以xiyi=3×70+4×65+5×62+6×59+7×56+8×48=1910,
n=6×5.5×60=1980,
=32+42+52+62+72+82=199,
n=6×5.52=181.5,
代入可得====﹣4,
=﹣=60﹣(﹣4)×5.5=82,
∴所求的线性回归方程为=﹣4x+82;
(2)利用(1)中所求的线性回归方程=﹣4x+82可得,
当x1=3时,=70;当x2=4时,=66;当x3=5时,=62;
当x4=6时,=58;当x5=7时,=54;当x6=8时,=50;
与销售数据对比可知满足|﹣yi|≤1的共有4个“好数据”:
(3,70)、(4,65)、(5,62)、(6,59);
由题意知ξ的可能取值为1,2,3;
计算P(ξ=1)==,
P(ξ=2)=2•=2×=,
P(ξ=3)==;
则ξ的分布列为
数学期望为E(ξ)=1×+2×+3×=2.
例3.张三同学从每年生日时对自己的身高测量后记录如表:
(附:回归直线的斜率和截距的最小二乘法估计公式分别为:,)
(1)求身高关于年龄的线性回归方程;(可能会用到的数据:(cm))
(2)利用(1)中的线性回归方程,分析张三同学岁起到岁身高的变化情况,如 岁之前都符合这一变化,请预测张三同学 岁时的身高。
【答案】(1);(2)173.5
【解析】
分析:(1)首先根据表格与公式求得相关数据,然后代入线性回归方程求得,由此求得线性回归方程;
(2)将x=15代入(1)中的回归方程,即可求得张三同学15岁时的身高.
详解:(1) 由题意得, ,
,
,
所以,,
所求回归方程为.
(2) 由(1)知,,故张三同学 岁至 岁的身高每年都在增高,平均每年增高 .将 代入(1)中的回归方程,得 ,故预测张三同学 岁的身高为 .
变式3.(2020山东高三模拟)某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.
表中,
(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费y与印刷数量x的回归方程?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(结果精确到0.01);
(3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80000元?(假设能够全部售出,结果精确到1)
附:对于一组数据(ω1,v1),(ω2,v2),…,(ωn,vn),其回归直线的斜率和截距的最小二乘估计分别为,.
【解析】
(1)由散点图判断,更适合作为该图书每册的成本费y(单位:元)与印刷数量(单位:千册)的回归方程.…………………………………………………………2分
(2)令,先建立y关于u的线性回归方程,
由于,………………………………………………………4分
所以,……………………………………6分
所以y关于u的线性回归方程为,
所以y关于x的回归方程为…………………………………………8分
(3)假设印刷千册,依题意得,…………………10分
解得,
所以至少印刷11120册才能使销售利润不低于80000元.………………………………12分
考点四.独立性检验
例1 (2020·湖北荆、荆、襄、宜四地七校联考)为积极响应国家“阳光体育运动”的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议.为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高三三个年级学生中按照4∶3∶3的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1 200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
附:χ2=eq \f(nad-bc2,a+bc+da+cb+d).
参考数据:
解 (1)该校学生每周平均体育运动时间为eq \x\t(x)=1×0.05+3×0.2+5×0.3+7×0.25+9×0.15+11×0.05=5.8.
样本中高一年级每周平均体育运动时间不足4小时的人数为300×eq \f(4,10)×(0.025×2+0.100×2)=30(人).
又样本中高一的人数有120人,所以估计高一年级每周平均体育运动时间不足4小时的人数约为1 200×eq \f(30,120)=300(人).
(2)列联表如下:
假设该校学生的每周平均体育运动时间是否优秀与年级无关,
则χ2=eq \f(300×105×60-105×302,210×90×135×165)
=eq \f(700,99)≈7.071>6.635.
又P(χ2≥6.635)=0.01.
所以有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
思维升华 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=eq \f(nad-bc2,a+ba+cb+dc+d)计算χ2.
变式1. (2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较.
附:
χ2=eq \f(nad-bc2,a+bc+da+cb+d).
解 (1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表如下:
χ2的观测值k=eq \f(200×62×66-34×382,100×100×96×104)≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
例2.(2019·河北名校联考)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
乙厂:
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据完成下面2×2列联表,并判断是否有99%的把握认为“两个分厂生产的零件的质量有差异”.
【答案】(1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为eq \f(360,500)×100%=72%;
乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为eq \f(320,500)×100%=64%.
(2)完成的2×2列联表如下:
由表中数据计算得,
K2=eq \f(1 000×360×180-320×1402,500×500×680×320)≈7.353>6.635,
所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
变式2. (2020•安徽省肥东县)“微信运动”已成为当下热门的运动方式,小王的微信朋友圈内也有大量好友参与了“微信运动”,他随机选取了其中的40人(男、女各20人),记录了他们某一天的走路步数,并将数据整理如下:
附:
(1)已知某人一天的走路步数超过8000步被系统评定为“积极型”,否则为“懈怠型”,根据题意完成下面的列联表,并据此判断能否有95%以上的把握认为“评定类型”与“性别”有关?
(2)若小王以这40位好友该日走路步数的频率分布来估计其所有微信好友每日走路步数的概率分布,现从小王的所有微信好友中任选2人,其中每日走路不超过5000步的有人,超过10000步的有人,设,求的分布列及数学期望.
解析:(1)
故没有95%以上的吧我认为二者有关
(2)由题知,小王的微信好友中任选一人,其每日走路步数不超过5000步的概率为,超过10000步的概率为,且当或时, ;
当或时, ;
当或时, ;
即的分布列为Ⅱ
类1
类2
合计
Ⅰ
类A
a
b
a+b
类B
c
d
c+d
合计
a+c
b+d
a+b+c+d
P(χ2≥x0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
零件数x
(个)
10
20
30
40
50
加工时间y
(min)
62
75
81
89
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
0
1
2
3
点击次数y
2
4
6
8
7
点击价格x
1
2
3
4
5
单价x(千元)
3
4
5
6
7
8
销量y(百件)
70
65
62
59
56
t
ξ
1
2
3
P
15.25
3.63
0.269
2085.5
-230.3
0.787
7.049
基础年级
高三
合计
优秀
非优秀
合计
300
P(χ2≥x0)
0.100
0.050
0.010
0.005
x0
2.706
3.841
6.635
7.879
基础年级
高三
合计
优秀
105
30
135
非优秀
105
60
165
合计
210
90
300
箱产量
![英语朗读宝](http://img.51jiaoxi.com/images/27f0ad84943772f8cdf3a353ba2877c5.jpg)