高考数学第一轮复习复习第3节 成对数据的统计分析(讲义)
展开1.会作两个相关变量的数据的散点图,能根据最小二乘原理建立经验回归方程并进行预测,了解样本相关系数的统计含义和残差分析.
2.了解独立性检验的基本思想,2×2列联表的统计意义,能对两个分类变量进行独立性检验.
1.成对数据的统计相关性
(1)变量的相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)散点图
每一个序号下的成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们把这样的统计图叫做散点图.
(3)正相关与负相关
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.
(4)线性相关与曲线相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
(5)样本相关系数
r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2
=∑i=1nxiyi-nxy(∑i=1nxi2-nx2)(∑i=1nyi2-ny2),
我们称r为变量x和变量y的样本相关系数.样本相关系数r的取值范围为[-1,1].
当r>0时,称成对样本数据正相关,这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
当r<0时,称成对样本数据负相关,这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
样本相关系数r的绝对值大小可以反映成对样本数据之间线性相关的程度:当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
2.一元线性回归模型及其应用
(1)一元线性回归模型
我们称式子Y=bx+a+e,E(e)=0,D(e)=σ2为Y关于x的一元线性回归模型,其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
(2)一元线性回归模型参数的最小二乘估计
当a,b的取值为b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-b^x时,
Q=∑i=1n(yi-bxi-a)2达到最小.此时,我们将y^=b^x+a^称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的b^,a^叫做b,a的最小二乘估计.
(3)残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的y^称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
如果在残差的散点图中,残差比较均匀地分布在横轴两边,说明残差比较符合一元线性回归模型的假定,是均值为0、方差为σ2的随机变量的观测值.
(4)决定系数R2及其意义
我们也可以用决定系数R2=1-∑i=1n(yi-y^i)2∑i=1n(yi-y)2来比较两个模型的拟合效果.在R2表达式中,∑i=1n(yi-y)2与经验回归方程无关,残差平方和∑i=1n(yi-y^i)2与经验回归方程有关,因此R2越大,表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.
3.分类变量与列联表
(1)我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
(2)人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.这种形式的数据统计表称为2×2列联表,关于分类变量X和Y的抽样数据的2×2列联表如表所示,
4.独立性检验
(1)独立性检验的概念
利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
(2)独立性检验的计算公式
χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d).
(3)独立性检验基于小概率值α的检验规则
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2
(1)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
(2)根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.
1.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
2.经验回归直线一定过点(x,y).
3.应用独立性检验应首先提出零假设H0:X和Y相互独立.
1.一组样本数据:(1,y1),(2,y2),(3,y3),(4,y4),(m,y5),由最小二乘法求得经验回归方程为y^=5x-7,若y1+y2+y3+y4+y5=45,则实数m的值为( B )
A.5B.6C.7D.8
解析:依题意,x=2+m5,y=9,
因此,9=5×(2+m5) -7,
解得m=6,所以实数m的值为6.
2.(多选题)给出以下四个说法,其中正确的是( BD )
A.由样本数据得到经验回归直线y^=b^ x+a^至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个
B.在回归分析中,用决定系数R2来比较两个模型拟合效果,R2越大,表示残差平方和越小,即模型的拟合效果越好
C.在经验回归方程y^=-0.5x+0.7中,当解释变量x每增加1个单位时,响应变量y平均增加0.5个单位
D.若变量y和x之间的样本相关系数r=-0.987 2,则变量y和x之间的线性相关程度很强
解析:经验回归直线y^=b^ x+a^经过点(x,y), 不一定经过样本点,故A不正确;用决定系数R2来比较两个模型的拟合效果,R2越大,表示残差平方和越小,即模型的拟合效果越好,故B正确;在经验回归方程y^=-0.5x+0.7中,当解释变量x每增加1个单位时,响应变量y平均减少0.5个单位,故C不正确;若变量y和x之间的样本相关系数r=-0.987 2,则变量y和x之间的线性相关程度很强,故D正确.
3.(2022·江苏南通模拟)某市卫健委用模型y=ln(kx+b)+1分析2022年4月份感染某病毒的人数,令z=ey后得到的经验回归方程为z^=3x+e,则b等于( A )
A.1B.e-1
C.eD.3e
解析:z^=ey=eln(kx+b)+1=e(kx+b)=kex+be=3x+e,所以be=e,解得b=1.
4.(2022·江西南昌一模)根据分类变量X与Y的观察数据,计算得到χ2=2.974,依据下表给出的χ2独立性检验中的小概率值和相应的临界值,作出下列判断,正确的是( D )
A.在犯错概率不超过5%的条件下,认为变量X与Y无关
B.在犯错概率不超过5%的条件下,认为变量X与Y有关
C.在犯错概率不超过10%的条件下,认为变量X与Y无关
D.在犯错概率不超过10%的条件下,认为变量X与Y有关
解析:因为χ2=2.974>2.706=x0.1,
所以在犯错误的概率不超过10%的条件下,
认为变量X与Y有关.
成对数据的统计相关性的判断
1.(多选题)(2022·山东临沂二模)对两组数据进行统计后得到的散点图如图所示,关于其样本相关系数的结论正确的是( AC )
A.r1<0B.r2>1
C.r1+r2>0D.|r1|>|r2|
解析:由散点图可知,样本相关系数r1的图象表示y与x负相关,故-1
因为样本相关系数r2的点较样本相关系数r1的点密集,故|r2|>|r1|,故r1+r2>0,故C正确,D错误.
2.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计数据如表所示.
根据表中数据,下列说法正确的是( A )
A.利润率与人均销售额呈现正相关关系
B.利润率与人均销售额呈现负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
解析:画出利润率与人均销售额的散点图如图所示.由图可知利润率与人均销售额呈现正相关关系.
3.变量X与Y相应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的样本相关系数,r2表示变量V与U之间的样本相关系数,则( C )
A.r2
判断线性相关关系中正相关与负相关的三种方法
(1)散点图法:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数法:当r>0时,成对样本数据正相关,当r<0时,成对样本数据负相关.
(3)经验回归方程法:当b^>0时,正相关;当b^<0时,负相关.
独立性检验
[例1] 甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)依据小概率值α=0.100的独立性检验,认为甲、乙两城之间的长途客车是否准点与客车的所属公司有关?
附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中,n=a+b+c+d),
解:(1)由题意可得A公司甲、乙两城之间的长途客车准点的概率为240240+20=1213,
B公司甲、乙两城之间的长途客车准点的概率为210210+30=78.
(2)零假设为H0:甲、乙两城之间的长途客车是否准点与客车的所属公司无关,χ2=
500×(240×30-20×210)2(240+20)×(210+30)×(240+210)×(20+30)≈3.205>2.706=x0.100,
根据小概率值α=0.100的独立性检验,我们推断H0不成立,即认为甲、乙两城之间的长途客车是否准点与客车的所属公司有关.
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算.
(3)比较χ2与临界值的大小关系,作统计推断.
[针对训练] 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如表所示.
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)依据小概率值α=0.01的独立性检验,能否以此推断甲机床的产品质量与乙机床的产品质量有差异?
解:(1)甲机床生产的产品中一级品的频率是150200=0.75,乙机床生产的产品中一级品的频率是120200=0.6.
(2)零假设为H0:甲机床的产品质量与乙机床的产品质量无差异.根据2×2列联表,可得
χ2=400×(150×80-50×120)2270×130×200×200
≈10.256>6.635=x0.01.
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异.
一元线性回归模型及残差分析
线性回归分析
[例2] 为促进新能源汽车的推广,某市逐渐加大充电基础设施的建设,该市统计了近五年新能源汽车充电站的数量(单位:个),得到表格如表所示.
(1)已知可用线性回归模型拟合y与x的关系,请用样本相关系数加以说明;
(2)求y关于x的经验回归方程,并预测2025年该市新能源汽车充电站的数量.
参考数据:∑i=15yi=710,∑i=15xiyi=2 600,
∑i=15(yi-y)2≈149.8,10≈3.16.
参考公式:
样本相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2,
经验回归方程y^=b^x+a^中斜率和截距的最小二乘估计公式分别为b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,
a^=y-b^x.
解:(1)由题表中数据可得,x=1+2+3+4+55=3,y=15∑i=15710=142,
∑i=15(xi-x)2=(-2)2+(-1)2+0+12+22=10,∑i=15(xi-x)(yi-y)=∑i=15xiyi-5x y=2 600-5×3×142=470,∑i=15(yi-y)2≈149.8,10≈3.16,
则r≈4703.16×149.8≈0.99,
因为y与x的样本相关系数近似为0.99,接近1,说明y与x的线性相关程度相当高,
所以可以用线性回归模型拟合y与x的关系.
(2)由(1)可得b^=∑i=15(xi-x)(yi-y)∑i=15(xi-x)2=47010=47,
所以a^=y-b^x=142-47×3=1,所以所求的经验回归方程为y^=47x+1,将2025年对应的年份编号x=9代入经验回归方程得y^=47×9+1=424,故预测2025年该市新能源汽车充电站的数量为424个.
(1)经验回归方程中系数的两种求法
①公式法:利用公式,求出b^,a^.
②待定系数法:利用回归直线过(x,y)求系数.
(2)回归分析的两种策略
①利用经验回归方程进行预测:把经验回归方程看作一次函数,求函数值.
②利用经验回归方程判断正、负相关:决定正相关还是负相关的是回归系数b^.
非线性回归分析
[例3] 某电影院统计了某部电影上映高峰后连续10场的观众人数,其中每场观众人数y(单位:百人)与场次x的统计数据如表所示,
通过散点图可以发现y与x之间具有相关性,且满足关系式y=aebx,设ω=ln y.
(1)利用表格中的前8组数据求样本相关系数r,并判断是否有99%的把握认为x与ω之间具有线性相关关系(当样本相关系数满足|r|>0.789时,则有99%的把握认为两个变量具有线性相关关系);
(2)利用x与ω的相关性及表格中的前8组数据求出y与x之间的经验回归方程(结果保留两位小数).
附:42≈6.48,6≈2.45,1.70≈1.30,e1.17≈3.22.前8组数据的相关量及公式:∑i=18xi=36,∑i=18yi=11.68,∑i=18ωi≈2.18,∑i=18(xi-x)2=42,∑i=18(yi-y)2≈3.61,∑i=18(ωi-ω)2≈1.70,∑i=18(xi-x)(yi-y)=-11.83,∑i=18(xi-x)(ωi-ω)≈-8.35,对于样本(vi,ui)(i=1,2,…,n),其经验回归方程的斜率和截距的最小二乘估计公式分别为b^=∑i=1n(vi-v)(ui-u)∑i=1n(vi-v)2=∑i=1nviui-nv u∑i=1nvi2-nv2,a^=u-b^v,样本相关系数
r=∑i=1n(vi-v)(ui-u)∑i=1n(vi-v)2∑i=1n(ui-u)2.
解:(1)因为r=∑i=18(xi-x)(ωi-ω)∑i=18(xi-x)2∑i=18(ωi-ω)2≈-×1.30≈-0.99,所以|r|≈0.99>0.789,
所以有99%的把握认为x与ω之间具有线性相关关系.
(2)因为y=aebx,所以ln y=ln a+bx,
b^=∑i=18(xi-x)(ωi-ω)∑i=18(xi-x)2=-8.3542≈-0.20,
a^=ω-b^x≈1.17,
所以ω^=-0.20x+1.17=ln y^,
所以y^=e-0.20x+1.17≈3.22e-0.20x.
求非线性经验回归方程的步骤
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出经验回归方程.
(4)分析拟合效果,通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性经验回归方程.
残差分析与决定系数
[例4] 现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本和企业利润的数据(单位:万元)如表所示,
根据最小二乘法公式求得经验回归方程为y^=3.2x-151.8.
(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值e^8;
(2)请先求出经验回归模型y^=3.2x-151.8的决定系数R2(精确到0.000 1);若根据非线性模型y=267.76ln x-1 069.2求得解释变量(物流成本)对于响应变量(利润)决定系数R02=0.905 7,请说明以上两种模型哪种模型拟合效果更好?
(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实后发现其真正利润应该为116万元.请重新根据最小二乘法的思想与公式,求出新的经验回归方程.
附1(修正前的参考数据):∑i=18xiyi=78 880,
∑i=18xi2=56 528,x=84,∑i=18(yi-y)2=904.
附2:R2=1-∑i=1n(yi-y^i)2∑i=1n(yi-y)2.
附3:b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nx y∑i=1nxi2-nx2,
a^=y-b^x.
解:(1)因为y^=3.2x-151.8,x=84,
所以y=3.2×84-151.8=117,
所以114+116+106+122+132+114+m+132=117×8,解得m=100,
8月份对应的残差值e^8=132-3.2×86.5+151.8=7.
(2)由已知公式得
∑i=18(yi-y^i)2=0.22+0.62+1.82+(-3)2+(-1)2+(-4.6)2+(-1)2+72=84.8,
R2=1-∑i=18(yi-y^i)2∑i=18(yi-y)2=1-84.8904≈0.906 2>R02,
故线性回归模型y^=3.2x-151.8拟合效果更好.
(3)由题意,第八组数据的利润应为116万元,
因为∑i=18xiyi=78 880-86.5×16=77 496,
∑i=18xi2=56 528,x=84,y=115,
所以b^=∑i=18xiyi-8xy∑i=18xi2-8x2=77 496-8×84×11556 528-8×842=2.7.
所以a^=115-2.7×84=-111.8,
故重新采集数据后,新的经验回归方程为
y^=2.7x-111.8.
决定系数R2对回归模型的检验
(1)我们可以用决定系数R2=1-∑i=1n(yi-y^i)2∑i=1n(yi-y)2来刻画回归的效果.
(2)在线性回归模型中,R2越接近于1,表示回归的效果越好.
[针对训练] 某市某企业坚持以市场需求为导向,合理配置生产资源,不断改革、探索销售模式.下表是该企业每月生产的一种核心产品的产量x(单位:吨)与相应的生产总成本y(单位:万元)的5组对照数据.
(1)根据上述数据,试求y关于x的经验回归方程y^=b^x+a^;
参考公式:b^=∑i=1nxiyi-nxy∑i=1nxi2-nx2,a^=y-b^x.
(2)记第(1)问中所求y与x的经验回归方程y^=b^x+a^为模型①,同时该企业科研人员利用计算机根据数据又建立了y与x的非线性回归模型②:y^=12x2+1.其中模型②的残差图(残差=观测值-预测值)如图所示.
请完成模型①的残差图,并根据残差图,判断哪一个模型更适合作为y关于x的回归方程?并说明理由;
(3)根据模型①中y与x的经验回归方程,预测产量为6吨时,生产总成本为多少万元?
解:(1)x=15×(1+2+3+4+5)=3,
y=15×(3+7+8+10+12)=8,
∑i=15xi2=12+22+32+42+52=55,
∑i=15xiyi=1×3+2×7+3×8+4×10+5×12=141,
b^=∑i=15xiyi-5x y∑i=15xi2-5x2=141-5×3×855-5×9=2.1,
a^=y-b^x=8-2.1×3=1.7.
因此,经验回归方程为y^=2.1x+1.7.
(2)模型①的残差表为
画出残差图,如图所示.
结论:模型①更适合作为y关于x的经验回归方程,
理由1:模型①的5个样本点的残差点落在的带状区域比模型②的带状区域更窄;
理由2:模型①的5个样本点的残差点比模型②的残差点更贴近x轴.
(3)根据模型①中y与x的经验回归方程,
当x=6时,y^=2.1×6+1.7=14.3,
所以预测产量为6吨时生产总成本为14.3万元.
[例1] 如图是一组试验数据的散点图,拟合方程y^=b^x+c^(x>0),令t=1x,则y关于t的经验回归直线过点(2,5),(12,25),则当y^∈(1.01,1.02)时,x的取值范围是( )
A.(0.01,0.02)B.(50,100)
C.(0.02,0.04)D.(100,200)
解析:根据题意可得y^=b^t+c^(t>0),由y关于t的经验回归直线过点(2,5),(12,25)可得
5=2b^+c^,25=12b^+c^,
所以b^=2,c^=1,所以y^=2t+1,由y^∈(1.01,1.02)可得0.005
并计算得∑i=110xi2=0.038,∑i=110yi2=1.615 8,
∑i=110xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:样本相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2,1.896≈1.377.
解:(1)估计该林区这种树木平均一棵的根部横截面积x=∑i=110xi10=0.610=0.06,
估计该林区这种树木平均一棵的材积量
y=∑i=110yi10=3.910=0.39.
(2)∑i=110(xi-x)(yi-y)=∑i=110xiyi-10x y=0.013 4,
∑i=110(xi-x)2=∑i=110xi2-10x2=0.002,
∑i=110(yi-y)2=∑i=110yi2-10y2=0.094 8,
所以∑i=110(xi-x)2∑i=110(yi-y)2=
0.002×0.094 8=0.000 1×1.896≈0.01×1.377=0.013 77,
所以样本相关系数r=∑i=110(xi-x)(yi-y)∑i=110(xi-x)2∑i=110(yi-y)2≈0.013 40.013 77≈0.97.
(3)设该林区这种树木总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以,
所以Y=186× 209,即该林区这种树木的总材积量的估计值为1 209 m3.
[选题明细表]
1.已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得经验回归方程可能为( A )
A.y^=0.4x+2.3B.y^=2x-2.4
C.y^=-2x+9.5 D.y^=-0.3x+4.4
解析:由变量x与y正相关,排除C,D选项.将点(3,3.5)代入A,B选项的方程中可知,选项A成立.
2.(多选题)(2022·广东惠州月考)某种产品的价格x(单位:元/kg)与需求量y(单位:kg)之间的对应数据如表所示,
根据表中的数据可得经验回归方程为y^=b^x+14.4,则以下结论正确的是( BC )
A.y与x正相关
B.y与x负相关
C.经验回归直线过点(20,8)
D.该产品价格为35元/kg时,日需求量大约为3.4 kg
解析:由表格数据可知,随着价格x的增加,需求量y随之减小,所以y与x负相关.
因为x=10+15+20+25+305=20,
y=11+10+8+6+55=8,
经验回归方程y^=b^x+14.4必过点(20,8),
所以8=b^·20+14.4,解得b^=-0.32,
所以当x=35时,y^=-0.32×35+14.4=3.2,日需求量大约为3.2 kg.
3.一只红铃虫的产卵数y和温度x有关,现收集了6组观测数据,y(单位:个)与温度x(单位:℃)得到样本数据(xi,yi)(i=1,2,3,4,5,6),令zi=ln yi,并将(xi,zi)绘制成如图所示的散点图.若用非线性经验回归方程y^=a^eb^x对y与x的关系进行拟合,则( A )
A.a^>1,b^>0 B.a^>1,b^<0
C.00 D.0解析:因为y^=a^eb^x,令z=ln y,则z与x的经验回归方程为z^=b^x+ln a^.根据散点图可知z与x正相关,所以b^>0.由经验回归方程图象可知,经验回归方程的纵截距大于0,即ln a^>0,所以a^>1.
4.(2022·辽宁大连二模)色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得如下数据:
已知该产品的色度y和色差x之间满足线性相关关系,且y^=0.8x+a^,现有一对测量数据为(33,25.2),则该数据的残差为( A )
A.0.6 B.0.4
C.-0.4D.-0.6
解析:由表中数据可得x=16×(21+23+25+27+29+31)=26,y=16×(15+16+
19+20+21+23)=19,
将(26,19)代入经验回归方程得a^=-1.8.
所以y^=0.8x-1.8.
将x=33代入,可得y^=0.8×33-1.8=24.6,
因此其残差为25.2-24.6=0.6.
5.某机构为研究中老年人坚持锻炼与患糖尿病、高血压、冠心病、关节炎四种慢性疾病之间的关系,随机调查部分中老年人,统计数据如下表1至表4,则这四种慢性疾病可以通过坚持锻炼来预防的可能性最大的是( B )
表1
表2
表3
表4
A.糖尿病B.高血压
C.冠心病D.关节炎
解析:由表1得χ12=52×(6×25-7×14)220×32×13×39≈0.43,
由表2得χ22=52×(2×21-11×18)220×32×13×39=3.9,
由表3得χ32=52×(4×23-9×16)220×32×13×39≈0.43,
由表4得χ42=52×(7×26-6×13)220×32×13×39≈1.73,
所以这四种慢性疾病可以通过坚持锻炼来预防的可能性最大的是高血压.
6.(2022·陕西西安模拟)小华为了研究数学名次和物理名次的相关关系,记录了本班五名同学的数学和物理的名次,如图.后来发现第四名同学数据记录有误,那么去掉数据D(3,10)后,下列说法错误的是( B )
A.样本相关系数r变大
B.残差平方和变大
C.变量x,y的相关程度变强
D.样本相关系数r越趋近于1
解析:由散点图知,去掉D(3,10)后,y与x的线性相关程度变强,且为正相关,
所以r变大,且样本相关系数r越趋近于1,去掉D(3,10)后,散点分布更均匀,残差平方和变小.故A,C,D正确,B错误.
7.有两个分类变量X和Y,其中一组观测值为如表的2×2列联表:
其中a,15-a均为大于5的整数,则a= 时,依据小概率值α=
0.01的独立性检验,认为“X和Y之间有关系”.
附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中,n=a+b+c+d).
解析:由题意知χ2≥6.635,则65[a(30+a)-(20-a)(15-a)]220×45×15×50=13(13a-60)25 400≥6.635,解得a≥8.65或a≤0.58,因为a>5且15-a>5,a∈N,所以
8.65≤a<10,a∈N,
所以a=9.
答案:9
8.某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取100件产品作为样本称出它们的质量(单位:
mg),质量值落在(175,225]的产品为合格品,否则为不合格品.统计数据如下列2×2列联表,
(1)依据小概率值α=0.15的独立性检验,能否认为产品的包装的合格性与流水线的选择有关联?
附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
临界值表:
(2)公司工程师抽取几组一小时生产的产品数据进行不合格品情况检查分析,在数量为x(单位:百件)的产品中,得到不合格品数量y(单位:件)的情况汇总如表所示,
求y关于x的经验回归方程y^=b^x+a^,并预测一小时生产2 000件时的不合格品数.(精确到1)
附:b^=∑i=1nxiyi-nxy∑i=1nxi2-nx2=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2;
a^=y-b^x.
解:(1)根据2×2列联表可得χ2=200×(92×4-96×8)2100×100×188×12≈1.418<2.072,
所以依据小概率值α=0.15的独立性检验,不能认为产品包装的合格性与流水线的选择有关联.
(2)由已知可得x=1+4+7+8+105=6,
y=2+14+24+35+405=23,
又∑i=15xiyi=1×2+4×14+7×24+8×35+10×40=906,
∑i=15xi2=12+42+72+82+102=230,
所以b^=∑i=15xiyi-5xy∑i=15xi2-5x2=906-5×6×23230-5×62=21650=4.32,所以a^=y-b^x=23-4.32×
6=-2.92,
所以y关于x的经验回归方程为y^=4.32x-2.92,
当x=20时,y^=4.32×20-2.92=83.48≈83,
所以估计一小时生产2 000件时的不合格品数约为83件.
9.(多选题)有甲、乙两个班级进行数学考试,按照大于等于120分为优秀,120分以下为非优秀统计成绩,得到如下2×2列联表,
已知在这105人中随机抽取1人,成绩优秀的概率为27(视频率为概率),则下列说法正确的是( BC )
附表及公式:
χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
A.2×2列联表中c的值为30,b的值为35
B.2×2列联表中c的值为20,b的值为45
C.根据2×2列联表中的数据,若依据小概率值α=0.05的独立性检验,则能认为成绩与班级有关系
D.根据2×2列联表中的数据,若依据小概率值α=0.05的独立性检验,则不能认为成绩与班级有关系
解析:因为在这105人中随机抽取1人,成绩优秀的概率为27,
所以成绩优秀的人数为105×27=30,非优秀的人数为105-30=75,
所以c=30-10=20,b=75-30=45,
所以χ2=105×(10×30-20×45)230×75×50×55≈6.109>3.841=x0.05,
所以依据小概率值α=0.05的独立性检验,能认为成绩与班级有关系.
10.(2022·安徽芜湖模拟)为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0;“这种血清不能起到预防感冒的作用”,利用2×2列联表计算的结果,根据小概率值α=0.01的独立性检验,可以认为H0成立,那么χ2的一个可能取值为( A )
解析:由题意,χ2>6.635,由选项知χ2的一个可能取值为7.879.
11.疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性生物制品,为了考察某种疫苗预防效果,在试验时,得到如下统计数据,
附表及公式:
χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
现从试验动物中任取一只,取到“注射疫苗”动物的概率为0.5,则下列判断错误的是( D )
A.注射疫苗发病的动物数为10
B.从该试验未注射疫苗的动物中任取一只,发病的概率为 25
C.能在犯错概率不超过0.05的前提下,认为疫苗有效
D.该疫苗的有效率为80%
解析:现从试验动物中任取一只,取到“注射疫苗”动物的概率为0.5,则注射疫苗发病的动物数为100×0.5-40=10,故A正确;
2×2列联表如下:
从该试验未注射疫苗的动物中任取一只,发病的概率为2050=25,故B正确;
因为χ2=100×(30×10-40×20)270×30×50×50≈4.762>3.841=x0.05,
根据小概率值α=0.05的独立性检验,认为疫苗有效,故C正确;
对于D选项,未考虑未注射疫苗的动物中也有不发病的情况,故D
错误.
12.某二手车经销商对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到数据如表所示,
如图所示,z关于x的折线图:
(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用样本相关系数加以说明;
(2)求y关于x的经验回归方程,并预测某辆A型号二手车使用年数为9年时售价约为多少;(b^,a^小数点后保留两位有效数字)
(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的经验回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年.
参考公式:b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nxy∑i=1nxi2-nx2,
a^=y-b^x,r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2.
参考数据:∑i=16xiyi=187.4,∑i=16xizi=47.64,∑i=16xi2=139,∑i=16(xi-x)2≈4.18,∑i=16(yi-y)2≈13.96,∑i=16(zi-z)2≈1.53,ln 1.46≈0.38,
ln 0.711 8≈-0.34.
解:(1)由题意知
x=16×(2+3+4+5+6+7)=4.5,
z=16×(3+2.48+2.08+1.86+1.48+1.10)=2,
又∑i=16xizi=47.64,∑i=16(xi-x)2≈4.18,
∑i=16(zi-z)2≈1.53,
所以r≈47.64-6×4.5×24.18×1.53=- 4≈-0.99,
所以z与x的样本相关系数大约为-0.99,说明z与x的线性相关程度很高.
(2)b^=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36,
所以a^=z-b^x=2+0.36×4.5=3.62,
所以z与x的经验回归方程是z^=-0.36x+3.62,又z=ln y,
所以y关于x的经验回归方程是y^=e-0.36x+3.62.
令x=9,得y^=e-0.36×9+3.62=e0.38.
因为ln 1.46≈0.38,所以y^≈1.46,
即预测某辆A型号二手车使用年数为9年时售价约为1.46万元.
(3)当y^≥0.711 8,
即e-0.36x+3.62≥0.711 8=eln 0.711 8≈e-0.34时,
则有-0.36x+3.62≥-0.34,解得x≤11,
因此,预测在收购该型号二手车时车辆的使用年数不得超过11年.
13.(多选题)某中学课外活动小组为了研究经济走势,根据该市
1999—2021年的GDP(国内生产总值)数据绘制出下面的散点图.
该小组选择了如下2个模型来拟合GDP值y随年份x的变化情况,模型一:y=kx+b(k>0,x>0);模型二:y=kex+b(k>0,x>0),下列说法正确的是( AD )
A.变量y与x正相关
B.根据散点图的特征,模型一能更好地拟合GDP值随年份的变化情况
C.若选择模型二,y=kex+b的图象一定经过点(x,y)
D.当x=13时,通过模型计算得GDP值为70,实际GDP值为71,则残差为1
解析:根据散点图易得变量y与x正相关,故A正确;由散点图可得y与x的变化趋向于一条曲线,所以模型二能更好地拟合GDP值随年份的变化情况,故B错误;若选择模型二y=kex+b,令t=ex,则图象经过点(t,y),故C错误;当x=13时,通过模型计算得GDP值为70,实际GDP值为71,则残差为1,故D正确.
14.某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:h)都在30 h以上,其中不足50 h的有5周,不低于50 h且不超过70 h的有35周,超过70 h的有10周.根据统计,该基地的西红柿增加量y(单位:kg)与使用某种液体肥料的质量x(单位:kg)之间的对应数据如折线图所示.
(1)依据折线图计算样本相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系;(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如表所示的关系:
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损
1 000元.若商家提供了3台光照控制仪,求商家在过去50周的周总利润的平均值.
参考公式:r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2,
参考数据:0.3≈0.55,0.9≈0.95.
解:(1)由已知数据可得x=2+4+5+6+85=5,y=3+4+4+4+55=4.
因为∑i=15(xi-x)(yi-y)=(-3)×(-1)+0+0+0+3×1=6,
∑i=15(xi-x)2=(-3)2+(-1)2+02+12+32=25,
∑i=15(yi-y)2=(-1)2+02+02+02+12=2,
所以样本相关系数
r=∑i=15(xi-x)(yi-y)∑i=15(xi-x)2∑i=15(yi-y)2=625×2=910≈0.95.
因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
(2)由条件可得在过去的50周里,当X>70时,共有10周,此时只有
1台光照控制仪运行,每周的总利润为1×3 000-2×1 000=1 000(元).
当50≤X≤70时,共有35周,此时有2台光照控制仪运行,
每周的总利润为2×3 000-1×1 000=5 000(元).
当30
1 000×10+5 000×35+9 000×550=4 600(元),
所以商家在过去50周的周总利润的平均值为 4 600元.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率/%
12.6
10.4
18.5
3.0
8.1
16.3
准点班次数
未准点班次数
A
240
20
B
210
30
α
0.100
0.050
0.010
xα
2.706
3.841
6.635
机床
产品质量
合计
一级品
二级品
甲
150
50
200
乙
120
80
200
合计
270
130
400
年份编号x
1
2
3
4
5
年份
2017
2018
2019
2020
2021
新能源汽
车充电站
数量y/个
37
104
147
196
226
x
1
2
3
4
5
y
2.77
2
1.92
1.36
1.12
x
6
7
8
9
10
y
1.09
0.74
0.68
0.62
0.55
月份
1
2
3
4
5
6
7
8
物流
成本x
83
83.5
80
86.5
89
84.5
79
86.5
利润y
114
116
106
122
132
114
m
132
残差
e^i=yi-y^i
0.2
0.6
1.8
-3
-1
-4.6
-1
产量x/吨
1
2
3
4
5
生产总成本
y/万元
3
7
8
10
12
x
1
2
3
4
5
y
3
7
8
10
12
y^
3.8
5.9
8
10.1
12.2
e^
-0.8
1.1
0
-0.1
-0.2
样本号i
根部横截面积xi
材积量yi
1
0.04
0.25
2
0.06
0.40
3
0.04
0.22
4
0.08
0.54
5
0.08
0.51
6
0.05
0.34
7
0.05
0.36
8
0.07
0.46
9
0.07
0.42
10
0.06
0.40
总和
0.6
3.9
知识点、方法
题号
散点图、回归分析
1,2,3,4,6
独立性检验
5,7,9,10,11
综合应用
8,12,13,14
x
10
15
20
25
30
y
11
10
8
6
5
色差x
21
23
25
27
29
31
色度y
15
16
19
20
21
23
患糖尿病
未患糖尿病
坚持锻炼
6
14
不坚持锻炼
7
25
患高血压
未患高血压
坚持锻炼
2
18
不坚持锻炼
11
21
患冠心病
未患冠心病
坚持锻炼
4
16
不坚持锻炼
9
23
患关节炎
未患关节炎
坚持锻炼
7
13
不坚持锻炼
6
26
X
Y
合计
Y1
Y2
X1
a
15-a
15
X2
20-a
30+a
50
合计
20
45
65
α
0.1
0.05
0.025
0.01
0.005
xα
2.706
3.841
5.024
6.635
7.879
质量
流水线
合计
甲
乙
合格品
92
96
188
不合格品
8
4
12
合计
100
100
200
α
0.15
0.1
0.05
0.025
xα
2.072
2.706
3.841
5.024
α
0.01
0.005
0.001
—
xα
6.635
7.879
10.828
—
x/百件
1
4
7
8
10
y/件
2
14
24
35
40
班级
成绩
合计
优秀
非优秀
甲班
10
b
乙班
c
30
合计
105
α
0.05
0.01
0.001
xα
3.841
6.635
10.828
α
0.05
0.025
0.01
0.005
0.001
xα
3.841
5.024
6.635
7.879
10.828
疫苗
传染病
合计
未发病
发病
未注射
30
注射
40
合计
70
30
100
α
0.05
0.01
0.005
0.001
xα
3.841
6.635
7.879
10.828
疫苗
传染病
合计
未发病
发病
未注射
30
20
50
注射
40
10
50
合计
70
30
100
使用年数x
2
3
4
5
6
7
售价y
20
12
8
6.4
4.4
3
z=ln y
3.00
2.48
2.08
1.86
1.48
1.10
周光照
量X/ h
30
X>70
光照控制仪
运行台数
3
2
1
高考数学复习第十章 第三节 成对数据的统计分析(导学案): 这是一份高考数学复习第十章 第三节 成对数据的统计分析(导学案),共23页。
2024年高考数学重难点突破讲义:学案 第1讲 数据分析——成对数据的统计分析: 这是一份2024年高考数学重难点突破讲义:学案 第1讲 数据分析——成对数据的统计分析,共12页。
备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第3讲成对数据的统计分析: 这是一份备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第3讲成对数据的统计分析,共11页。