2023届高考一轮复习讲义(理科)第十一章 统计与统计案例 第3讲 变量间的相关关系、统计案例学案
展开一、知识梳理
1.变量间的相关关系
常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
(3)回归方程为eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),其中,eq \(a,\s\up6(^))=y-eq \(b,\s\up6(^))eq \x\t(x).
(4)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
(1)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:
(2)K2统计量
K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))(其中n=a+b+c+d为样本容量).
常用结论
1.求解回归方程的关键是确定回归系数eq \(a,\s\up6(^)),eq \(b,\s\up6(^)),应充分利用回归直线过样本中心点(eq \x\t(x),eq \x\t(y)).
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的eq \(y,\s\up6(^))值,仅是一个预报值,不是真实发生的值.
二、习题改编
1.(必修3P94A组T2改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
解析:选C.“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
2.(选修23P97练习改编)下面是2×2列联表:
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
解析:选C.因为a+21=73,所以a=52.又a+22=b,所以b=74.
3.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:
则y对x的线性回归直线方程为( )
A.eq \(y,\s\up6(^))=2.3x-0.7 B.eq \(y,\s\up6(^))=2.3x+0.7
C.eq \(y,\s\up6(^))=0.7x-2.3 D.eq \(y,\s\up6(^))=0.7x+2.3
解析:选C.因为eq \i\su(i=1,4, )eq^\( ,\s\d4(i=1))xiyi=6×2+8×3+10×5+12×6=158,eq \x\t(x)=eq \f(6+8+10+12,4)=9,eq \x\t(y)=eq \f(2+3+5+6,4)=4.所以eq \(b,\s\up6(^))=eq \f(158-4×9×4,36+64+100+144-4×81)=0.7,eq \(a,\s\up6(^))=4-0.7×9=-2.3.故线性回归直线方程为eq \(y,\s\up6(^))=0.7x-2.3.故选C.
一、思考辨析
判断正误(正确的打“√”,错误的打“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )
(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(4)事件X,Y的关系越密切,由观测数据计算得到的K2的观测值越大.( )
(5)通过回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))可以估计和观测变量的取值和变化趋势.( )
答案:(1)× (2)√ (3)√ (4)√ (5)√
二、易错纠偏
eq \a\vs4\al(常见误区)eq \b\lc\|(\a\vs4\al\c1(K))(1)混淆相关关系与函数关系;
(2)对独立性检验K2值的意义不清楚;
(3)不知道回归直线必过样本点中心.
1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③ D.①③②
解析:选D.第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.
2.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和K2统计量研究患肺病是否与吸烟有关.计算得K2=4.453,经查阅临界值表知P(K2≥3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
解析:选C.由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.故选C.
3.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程为eq \(y,\s\up6(^))=0.67x+54.9.
现发现表中有一个数据模糊看不清,则该数据为________.
解析:设表中那个模糊看不清的数据为m.由表中数据得eq \x\t(x)=30,eq \x\t(y)=eq \f(m+307,5),所以样本点的中心为eq \b\lc\(\rc\)(\a\vs4\al\c1(30,\f(m+307,5))),因为样本点的中心在回归直线上,所以eq \f(m+307,5)=0.67×30+54.9,解得m=68.
答案:68
相关关系的判断(自主练透)
1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:选C.由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.
2.某公司在2019年上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:
根据统计资料,则( )
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
解析:选C.月收入的中位数是eq \f(15+17,2)=16,收入增加,支出增加,故x与y有正线性相关关系.
3.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2
eq \a\vs4\al()
判断相关关系的2种方法
(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:利用相关系数判定,当|r|越趋近于1时,相关性越强.
回归分析(多维探究)
角度一 线形回归方程及其应用
(2020·福建福州模拟)随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,是昆虫大量活动与繁殖的季节,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如表:
(1)从这5天中任选2天,记这两天药用昆虫的产卵数分别为m,n,求事件“m,n均不小于25”的概率;
(2)科研人员确定的研究方案是:先从这五组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.
(i)若选取的是3月2日与30日的两组数据,请根据3月7日、15日和22日这三天的数据,求出y关于x的线性回归方程;
(ii)若由线性回归方程得到的估计数据与选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(i)中所得的线性回归方程是否可靠?
附:回归直线的斜率和截距的最小二乘估计公式分别为eq \(b,\s\up6(^))=
【解】 (1)依题意得,m,n的所有情况有{23,25},{23,30},{23,26},{23,16},{25,30},{25,26},{25,16},{30,26},{30,16},{26,16},共10个.
设“m,n均不小于25”为事件A,则事件A包含的基本事件有{25,30},{25,26},{30,26},共3个.
所以P(A)=eq \f(3,10),即事件A的概率为eq \f(3,10).
(2)(i)由数据得eq \x\t(x)=12,eq \x\t(y)=27,
eq \i\su(i=1,3, )eq^\( ,\s\d4(i=1))(xi-eq \x\t(x))(yi-eq \x\t(y))=5,eq \i\su(i=1,3, )eq^\( ,\s\d4(i=1))(xi-eq \x\t(x))2=2,
eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x)=27-eq \f(5,2)×12=-3,
所以y关于x的线性回归方程为eq \(y,\s\up6(^))=eq \f(5,2)x-3.
(ii)由(i)知,y关于x的线性回归方程为eq \(y,\s\up6(^))=eq \f(5,2)x-3,
当x=10时,eq \(y,\s\up6(^))=eq \f(5,2)×10-3=22,且|22-23|<2,
当x=8时,eq \(y,\s\up6(^))=eq \f(5,2)×8-3=17,且|17-16|<2.
所以所得到的线性回归方程eq \(y,\s\up6(^))=eq \f(5,2)x-3是可靠的.
角度二 相关系数及其应用
某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.
(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.
相关系数公式:r=eq \f(\i\su(i=1,n, )(xi-eq \x\t(x))(yi-eq \x\t(y)),\r(\i\su(i=1,n, )(xi-eq \x\t(x))2)\r(\i\su(i=1,n, )(yi-eq \x\t(y))2)),
参考数据:eq \r(0.3)≈0.55,eq \r(0.9)≈0.95.
【解】 (1)由已知数据可得eq \x\t(x)=eq \f(2+4+5+6+8,5)=5,eq \x\t(y)=eq \f(3+4+4+4+5,5)=4.
因为eq \i\su(i=1,5, )(xi-eq \x\t(x))(yi-eq \x\t(y))=(-3)×(-1)+0+0+0+3×1=6,
eq \r(\i\su(i=1,5, )(xi-eq \x\t(x))2)=eq \r((-3)2+(-1)2+02+12+32)=2eq \r(5),
eq \r(\i\su(i=1,5, )(yi-eq \x\t(y))2)=eq \r((-1)2+02+02+02+12)=eq \r(2),
所以相关系数r=eq \f(\i\su(i=1,5, )(xi-eq \x\t(x))(yi-eq \x\t(y)),\r(\i\su(i=1,5, )(xi-eq \x\t(x))2)\r(\i\su(i=1,5, )(yi-eq \x\t(y))2))=eq \f(6,2\r(5)×\r(2))=eq \r(\f(9,10))≈0.95.
因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
(2)由条件可得在过去50周里,
当X>70时,共有10周,此时只有1台光照控制仪运行,
每周的周总利润为1×3 000-2×1 000=1 000(元).
当50≤X≤70时,共有35周,此时有2台光照控制仪运行,
每周的周总利润为2×3 000-1×1 000=5 000(元).
当30
所以过去50周的周总利润的平均值为
eq \f(1 000×10+5 000×35+9 000×5,50)=4 600(元),
所以商家在过去50周的周总利润的平均值为4 600元.
eq \a\vs4\al()
线性回归分析问题的类型及解题方法
(1)求线性回归方程
①利用公式,求出回归系数eq \(b,\s\up6(^)),eq \(a,\s\up6(^));
②待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数eq \(b,\s\up6(^)).
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
(2020·福建三明月考)统计学中经常用环比、同比来进行数据比较.环比是指本期统计数据与上期比较,如2017年7月与2017年6月相比.
环比增长率=eq \f(本期数-上期数,上期数)×100%,
同比增长率=eq \f(本期数-同期数,同期数)×100%.
下表是某地区近17个月来的消费者信心指数的统计数据:
(1)①求该地区2018年5月消费者信心指数的同比增长率(百分比形式下保留整数);
②除2017年1月外,该地区消费者信心指数月环比增长率为负数的有几个月?
(2)由以上数据可判断,序号x与该地区消费者信心指数y具有线性相关关系,求出y关于x的线性回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))(eq \(a,\s\up6(^)),eq \(b,\s\up6(^))保留2位小数),并依此预测该地区2018年6月的消费者信心指数(结果保留1位小数).
参考数据与公式:
解:(1)①该地区2018年5月消费者信心指数的同比增长率为eq \f(124-112.6,112.6)×100%≈10%.
②若月环比增长率为负数,则本期数<上期数,从表中可以看出,2017年3月、2017年6月、2017年8月、2018年2月、2018年4月共5个月的月环比增长率为负数.
(2)由已知,得
eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x)=104.56,
所以线性回归方程为eq \(y,\s\up6(^))=1.16x+104.56.
当x=18时,eq \(y,\s\up6(^))=125.4,
故该地区2018年6月的消费者信心指数约为125.4.
独立性检验(师生共研)
(2020·河南名校联盟高三“尖子生”调研(二))为了调查一款电视机的使用寿命(单位:年),研究人员对该款电视机进行了相应的调查,得到的数据如下图所示.
并对不同年龄层的市民对这款电视机的购买意愿作出调查,得到的数据如下表所示.
(1)根据图中数据,试估计该款电视机的平均使用寿命;
(2)根据表中数据判断,是否有99.9%的把握认为“是否愿意购买该款电视机”与“市民的年龄”有关;
(3)若按照电视机的使用寿命进行分层抽样,从使用寿命在[0,4)和[4,20]内的电视机中抽取5台,再从这5台中随机抽取2台进行配件检测,求被抽取的2台电视机的使用寿命都在[4,20]内的概率.
附:K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),n=a+b+c+d.
【解】 (1)依题意,平均使用寿命为2×0.2+6×0.36+10×0.28+14×0.12+18×0.04=7.76(年).
(2)依题意,完善表格如下表所示,
故K2=eq \f(2 000×(800×600-200×400)2,1 000×1 000×1 200×800)≈333.333>10.828.
故有99.9%的把握认为“是否愿意购买该款电视机”与“市民的年龄”有关.
(3)依题意知,抽取的5台电视机中使用寿命在[0,4)内的有1台,使用寿命在[4,20]内的有4台,则从5台电视机中随机抽取2台,所有的情况有Ceq \\al(2,5)=10(种),其中满足条件的有Ceq \\al(2,4)=6(种),故所求概率P=eq \f(6,10)=eq \f(3,5).
eq \a\vs4\al()
(1)独立性检验的一般步骤
①根据样本数据制成2×2列联表;
②根据公式K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))计算K2的值;
③查表比较K2与临界值的大小关系,作出统计判断.
(2)解独立性检验的应用问题的关注点
①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题;
②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解K2.
某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),
解:(1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(2)由茎叶图知m=eq \f(79+81,2)=80.
列联表如下:
(3)由于K2=eq \f(40×(15×15-5×5)2,20×20×20×20)=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
数学建模 化非线性回归分析为线性回归分析
某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.
表中ui=eq \f(1,xi),eq \x\t(u)=eq \f(1,8)eq \i\su(i=1,8,u)i.
(1)根据散点图判断:y=a+bx与y=c+eq \f(d,x)哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01);
(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)
附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其回归直线eq \(υ,\s\up6(^))=eq \(α,\s\up6(^))+eq \(β,\s\up6(^))ω的斜率和截距的最小二乘估计分别为eq \(β,\s\up6(^))
【解】 (1)由散点图判断,y=c+eq \f(d,x)更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程.
(2)令u=eq \f(1,x),先建立y关于u的线性回归方程,
由于
所以eq \(c,\s\up6(^))=eq \x\t(y)-eq \(d,\s\up6(^))·eq \x\t(u)=3.63-8.96×0.269≈1.22,
所以y关于u的线性回归方程为eq \(y,\s\up6(^))=1.22+8.96u,
所以y关于x的回归方程为eq \(y,\s\up6(^))=1.22+eq \f(8.96,x).
(3)假设印刷x千册,依题意得10x-(1.22+eq \f(8.96,x))x≥78.840,所以x≥10,
所以至少印刷10 000册才能使销售利润不低于78 840元.
eq \a\vs4\al()
对非线性回归分析问题可通过适当的换元转化为线性回归分析问题求解.
某市一中学课外活动小组为了研究经济走势,对该市1996~2018年的GDP(国内生产总值)相关数据进行了初步处理,得到下面的散点图及一些统计量的值.
其中zi=ln yi,wi=ln ≈614.003,e6.63≈757.482,e6.84≈934.489,ln 24≈3.18,ln 25≈3.22,ln 26≈3.26.
(1)根据散点图判断,y=a+bx,y=ec+dx与y=m+nln x哪一个适合作为该市GDP值y关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)试预测该市2020年的GDP值.
解:(1)由散点图可以判断,y=ec+dx适宜作为该市GDP值y关于年份代码x的回归方程类型.
(2)令z=ln y,则z=c+dx,由参考数据得,
所以z关于x的线性回归方程为eq \(z,\s\up6(^))=1.38+0.21x,
所以y关于x的回归方程为eq \(y,\s\up6(^))=e1.38+0.21x.
(3)由(2)可知,当x=25时,eq \(y,\s\up6(^))=e1.38+0.21×25=e6.63≈757.482.
所以预测2020年该市GDP值约为757.482亿元.
[基础题组练]
1.根据如下样本数据:
得到的线性回归方程为eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),则( )
A.eq \(a,\s\up6(^))>0,eq \(b,\s\up6(^))>0 B.eq \(a,\s\up6(^))>0,eq \(b,\s\up6(^))<0
C.eq \(a,\s\up6(^))<0,eq \(b,\s\up6(^))>0 D.eq \(a,\s\up6(^))<0,eq \(b,\s\up6(^))<0
解析:选B.根据给出的数据可发现:整体上y与x呈现负相关,所以eq \(b,\s\up6(^))<0,由样本点(3,4.0)及(4,2.5)可知eq \(a,\s\up6(^))>0,故选B.
2.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=eq \f(1,2)x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C.eq \f(1,2) D.1
解析:选D.所有点均在直线上,则样本相关系数最大,即为1,故选D.
3.(2020·山东德州模拟)已知某产品连续4个月的广告费xi(千元)与销售额yi(万元)(i=1,2,3,4)满足eq \i\su(i=1,4, )xi=15, eq \i\su(i=1,4, )yi=12.若广告费用x和销售额y之间具有线性相关关系,且回归直线方程为 eq \(y,\s\up6(^))= eq \(b,\s\up6(^))x+ eq \(a,\s\up6(^)), eq \(b,\s\up6(^))=0.6,当广告费用为5千元时,可预测销售额为( ),
A.3万元 万元
C.3.5万元 万元,
解析:选D.由已知 eq \(∑,\s\up6(4),\s\d4(i=1))xi=15, eq \(∑,\s\up6(4),\s\d4(i=1))y i=12,得eq \x\t(x)=eq \f(15,4)=3.75,eq \x\t(y)=eq \f(12,4)=3,所以3=3.75×0.6+eq \(a,\s\up6(^)),解得eq \(a,\s\up6(^))=0.75.所以回归直线方程为eq \(y,\s\up6(^))=0.6x+0.75.则当x=5时,y=3.75万元.故选D.
4.千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦奠定坚实基础,某校积极响应国家号召,不断加大拔尖人才的培养力度,据不完全统计
根据上表可得回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))中的eq \(b,\s\up6(^))为1.35,该校2018届同学在学科竞赛中获省级一等奖及以上的学生人数为63,据此模型预测该校今年被清华、北大等世界名校录取的学生人数为( )
A.111 B.117
C.118 D.123
解析:选B.因为eq \x\t(x)=53,eq \x\t(y)=103.5,所以eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x)=103.5-1.35×53=31.95,所以回归直线方程为eq \(y,\s\up6(^))=1.35x+31.95.当x=63时,代入解得eq \(y,\s\up6(^))=117,故选B.
5.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
由K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),
得K2=eq \f(100×(45×22-20×13)2,65×35×58×42)≈9.616.
参照下表,
下列结论正确的是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
解析:选C.因为K2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有关”,故选C.
6.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且回归方程为eq \(y,\s\up6(^))=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为________.
解析:因为y与x具有线性相关关系,满足回归方程eq \(y,\s\up6(^))=0.6x+1.2,该城市居民人均工资为x=5,所以可以估计该城市的职工人均消费水平eq \(y,\s\up6(^))=0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为eq \f(4.2,5)=84%.
答案:84%
7.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:
给出散点图如下:
根据以上信息,判断下列结论:
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.
其中正确的个数为________.
解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学的数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为1.
答案:1
8.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-eq \f(1,3)附近波动.经计算eq \(∑,\s\up6(6),\s\d4(i=1))xi=11,eq \(∑,\s\up6(6),\s\d4(i=1))yi=13,eq \(∑,\s\up6(6),\s\d4(i=1))xeq \\al(2,i)=21,则实数b的值为________.
解析:令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-eq \f(1,3),此时eq \x\t(t)=eq \f(\(∑,\s\up6(6),\s\d4(i=1))xeq \\al(2,i),6)=eq \f(7,2),eq \x\t(y)=eq \f(\(∑,\s\up6(6),\s\d4(i=1))yi,6)=eq \f(13,6),代入y=bt-eq \f(1,3),得eq \f(13,6)=b×eq \f(7,2)-eq \f(1,3),解得b=eq \f(5,7).
答案:eq \f(5,7)
9.(2020·云南昆明诊断)某公司准备派出选手代表公司参加某职业技能挑战赛.经过层层选拔,最后集中在甲、乙两位选手在一项关键技能的区分上,选手完成该项挑战的时间越少越好.已知这两位选手在15次挑战训练中,完成该项关键技能挑战所用的时间t(单位:秒)及挑战失败(用“×”表示)的情况如表1:
据表1中的数据,应用统计软件得表2:
(1)根据上述回归方程,预测甲、乙分别在下一次完成该项关键技能挑战所用的时间;
(2)若该公司只有一个参赛名额,根据以上信息,判断哪位选手代表公司参加职业技能挑战赛更合适?请说明你的理由.
解:(1)当x=16时,eq \(t,\s\up6(^))甲=-1.59×16+99.31=73.87(秒),
eq \(t,\s\up6(^))乙=-1.73×16+100.26=72.58(秒).
(2)甲、乙两位选手完成关键技能挑战成功的次数都为10次,失败次数都为5次,所以,只需要比较他们完成关键技能挑战成功的情况即可,根据所给信息,结合(1)中预测结果,综合分析,选手乙代表公司参加技能挑战赛更合适,理由如下:
因为在相同次数的挑战练习中,两位选手在关键技能挑战的完成次数和失败次数都分别相同,x甲>x乙,乙选手用时更短;
由于Seq \\al(2,甲)
图1:设备改造前的样本的频率分布直方图
表1:设备改造后的样本的频数分布表
(1)完成下面的2×2列联表,并判断是否有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关.
(2)根据图1和表1提供的数据,试从产品合格率的角度对改造前后设备的优劣进行比较.
附
K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.
解:(1)根据题意填写2×2列联表
K2=eq \f(400×(172×8-192×28)2,364×36×200×200)≈12.210>6.635,
所以有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关.
(2)根据频率分布直方图和频数分布表知,设备改造前产品为合格品的概率为eq \f(172,200)=eq \f(43,50),
设备改造后产品为合格品的概率为eq \f(192,200)=eq \f(24,25)>eq \f(43,50),
显然设备改造后产品合格率更高,因此设备改造后性能更优.
[综合题组练]
1.中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65岁的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:
(1)由以上统计数据填写2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;
(2)若以45岁为分界点,从不支持“延迟退休”的人中按分层抽样的方法抽取8人参加某项活动.现从这8人中随机抽2人.
①抽到1人是45岁以下时,求抽到的另一人是45岁以上的概率;
②记抽到45岁以上的人数为X,求随机变量X的分布列及数学期望.
参考数据及公式:
K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))
解:(1)列联表如下:
因为K2=eq \f(100×(35×5-45×15)2,50×50×80×20)=eq \f(25,4)=6.25>3.841,
所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.
(2)从不支持“延迟退休”的人中抽取8人,则45岁以下的应抽6人,45岁以上的应抽2人.
①抽到1人是45岁以下的概率为eq \f(6,8)=eq \f(3,4),抽到1人是45岁以下且另一人是45岁以上的概率为eq \f(Ceq \\al(1,6)Ceq \\al(1,2),Ceq \\al(2,8))=eq \f(3,7).
故所求概率为eq \f(\f(3,7),\f(3,4))=eq \f(4,7).
②X=0,1,2.
P(X=0)=eq \f(Ceq \\al(2,6),Ceq \\al(2,8))=eq \f(15,28),P(X=1)=eq \f(Ceq \\al(1,6)Ceq \\al(1,2),Ceq \\al(2,8))=eq \f(12,28)=eq \f(3,7),
P(X=2)=eq \f(Ceq \\al(2,2),Ceq \\al(2,8))=eq \f(1,28).
可得随机变量X的分布列为
故E(X)=1×eq \f(3,7)+2×eq \f(1,28)=eq \f(1,2).
2.某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如下表:
他们用两种模型①y=bx+a,②y=aebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除.
(ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程;
(ⅱ)广告投入量x=18时,(1)中所选模型收益的预报值是多少?
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))的斜率和截距的最小二乘估计分别为eq \(b,\s\up6(^))=
解:(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.
(2)(ⅰ)剔除异常数据,即3月份的数据后,得eq \x\t(x)=eq \f(1,5)×(7×6-6)=7.2,,
eq \x\t(y)=eq \f(1,5)×(30×6-31.8)=29.64.
所以y关于x的回归方程为eq \(y,\s\up6(^))=3x+8.04.
(ⅱ)把x=18代入(ⅰ)中所求回归方程得eq \(y,\s\up6(^))=3×18+8.04=62.04,
故预报值为62.04万元.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
x
6
8
10
12
y
2
3
5
6
零件数x/个
10
20
30
40
50
加工时间y/min
62
○
75
81
89
月份
1月份
2月份
3月份
4月份
5月份
6月份
收入x
12.3
14.5
15.0
17.0
19.8
20.6
支出y
5.63
5.75
5.82
5.89
6.11
6.18
日期
2日
7日
15日
22日
30日
温度x/℃
10
11
13
12
8
产卵数y/个
23
25
30
26
16
周光照量X/小时
30
X>70
光照控制仪运行台数
3
2
1
愿意购买该款电视机
不愿意购买该款电视机
合计
40岁及以上
800
1 000
40岁以下
600
合计
1 200
P(K2≥k0)
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
愿意购买该款电视机
不愿意购买该款电视机
合计
40岁及以上
800
200
1 000
40岁以下
400
600
1 000
合计
1 200
800
2 000
超过m
不超过m
第一种生产方式
第二种生产方式
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
x
3
4
5
6
7
8
y
4.0
2.5
0.5
0.5
0.4
0.1
年份(届)
2014
2015
2016
2017
学科竞赛获省级一等奖
及以上的学生人数x
51
49
55
57
被清华、北大等世界名校录取的学生人数y
103
96
108
107
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
学生编号
1
2
3
4
5
6
7
8
数学成绩
60
65
70
75
80
85
90
95
物理成绩
72
77
80
84
88
90
93
95
序号x
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
t甲
×
96
93
×
92
×
90
86
×
×
83
80
78
77
75
t乙
×
95
×
93
×
92
×
88
83
×
82
80
80
74
73
均值(单位:秒)
方差
线性回归方程
甲
85
50.2
eq \(t,\s\up6(^))甲=-1.59x+99.31
乙
84
54
eq \(t,\s\up6(^))乙=-1.73x+100.26
质量指标值
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
[40,45]
频数
4
36
96
28
32
4
设备改造前
设备改造后
合计
合格品
不合格品
合计
P(K2≥k0)
0.150
0.100
0.050
0.025
0.010
k0
2.072
2.706
3.841
5.024
6.635
设备改造前
设备改造后
合计
合格品
172
192
364
不合格品
28
8
36
合计
200
200
400
年龄
[15,25)
[25,35)
[35,45)
[45,55)
[55,65]
支持“延迟退休”的人数
15
5
15
28
17
45岁以下
45岁以上
总计
支持
不支持
总计
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
45岁以下
45岁以上
总计
支持
35
45
80
不支持
15
5
20
总计
50
50
100
X
0
1
2
P
eq \f(15,28)
eq \f(3,7)
eq \f(1,28)
月份
1
2
3
4
5
6
广告投入量/万元
2
4
6
8
10
12
收益/万元
14.21
20.31
31.8
31.18
37.83
44.67
高考数学统考一轮复习第9章统计与统计案例第3节变量间的相关关系统计案例学案: 这是一份高考数学统考一轮复习第9章统计与统计案例第3节变量间的相关关系统计案例学案,共12页。
2023届高考一轮复习讲义(理科)第十一章 统计与统计案例 第2讲 高效演练分层突破学案: 这是一份2023届高考一轮复习讲义(理科)第十一章 统计与统计案例 第2讲 高效演练分层突破学案,共8页。
2023届高考一轮复习讲义(理科)第十一章 统计与统计案例 第3讲 高效演练分层突破学案: 这是一份2023届高考一轮复习讲义(理科)第十一章 统计与统计案例 第3讲 高效演练分层突破学案,共8页。