高中数学人教B版 (2019)选择性必修 第二册4.3.1 一元线性回归模型多媒体教学ppt课件
展开www.ks5u.com第2课时 相关系数与非线性回归
学 习 目 标 | 核 心 素 养 |
1.了解两个变量间的线性相关系数r,并能利用公式求相关系数r.(重点) 2.能利用相关系数r判断两个变量线性相关程度的大小,从而判断回归直线方程拟合的效果.(重点) 3.掌握非线性回归转化为线性回归的方法,会求非线性回归方程,并作出预测.(难点) | 1.通过学习相关系数,培养数学运算的素养. 2.借助非线性回归方程的学习,提升数据分析和数学建模的素养. |
据隆众资讯数据统计,2017~2019年截止到10月底的数据显示,聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2017年二者相关系数高达90.86%,2018年降至83.97%,2019年截止到10月底二者相关系数为65.23%.
问题:什么是相关系数,如何计算,它有什么作用?
1.相关系数
(1)定义:统计学里一般用
r==
来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).
(2)性质
①|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0;
②|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值;
③|r|=1的充要条件是成对数据构成的点都在回归直线上.
2.非线性回归方程
如果具有相关关系的两个变量x,y不是线性相关关系,那么称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程).
思考:如何猜测非线性回归方程的类型?
[提示] 可以通过作出散点图,结合已学的函数模型进行猜测.
1.思考辨析(正确的打“√”,错误的打“×”)
(1)若相关系数为0,则说明两变量x,y之间没任何关系. ( )
(2)两个变量相关系数越大,说明它们的相关性越强. ( )
(3)求回归方程时,最好用相关系数判断一下,两变量相关性的强弱.
( )
(4)非线性回归方程可借助线性回归方程求得. ( )
[答案] (1)× (2)× (3)√ (4)√
2.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r如下表:
| 甲 | 乙 | 丙 | 丁 |
r | 0.82 | 0.78 | 0.69 | 0.85 |
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲 B.乙
C.丙 D.丁
D [r的绝对值越接近1,相关性越强,故选D.]
3.在一项调查中有两个变量x和y,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y关于x的回归方程的函数类型是( )
A.y=a+bx B.y=c+d
C.y=m+nx2 D.y=p+qcx(q>0)
B [散点图呈曲线,排除A选项,且增长速度变慢,排除选项C、D,故选B.]
4.在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的相关系数为________.
-1 [法一:=1.5,=1,x=22,y=56,xiyi=-20,
相关系数r==-1.
法二:观察四个点,发现其在一条单调递减的直线上,故y与x的相关系数为-1.]
相关系数的性质 |
【例1】 (1)在一组数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若这组样本数据的相关系数为-1,则所有的样本点(xi,yi)(i=1,2,…,n)满足的方程可以是( )
A.y=-x+1 B.y=x-1
C.y=x+1 D.y=-x2
(2)设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线方程的回归系数为,回归截距是,那么必有( )
A.与r的符号相同 B.与r的符号相同
C.与r的符号相反 D.与r的符号相同
(1)A (2)A [(1)∵这组样本数据的相关系数为-1,
∴这一组数据(x1,y1),(x2,y2),…(xn,yn)线性相关,且是负相关,
∴可排除D,B,C,故选A.
(2)由公式可知与r的符号相同.]
线性相关强弱的判断方法:
1.散点图(越接近直线,相关性越强);
2.相关系数(绝对值越大,相关性越强).
1.如图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的5个点所对应的数据的相关系数最大,则应当去掉的点是( )
A.D B.E
C.F D.A
B [因为相关系数的绝对值越大,越接近1,则说明两个变量的相关性越强.因为点E到直线的距离最远,所以去掉点E,余下的5个点所对应的数据的相关系数最大.]
相关系数的计算及应用 |
【例2】 假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x | 2 | 3 | 4 | 5 | 6 |
y | 2.2 | 3.8 | 5.5 | 6.5 | 7.0 |
已知x=90,y≈140.8,xiyi=112.3,≈8.9,≈1.4.
(1)计算y与x之间的相关系数(精确到0.001),并求出回归直线方程;
(2)根据回归方程,预测假设使用年限为10年时,维修费用约是多少万元?
[解] (1)∵==4,
==5.
xiyi-5=112.3-5×4×5=12.3,
x-52=90-5×42=10,
y-52=140.8-125=15.8,
所以r===≈≈0.987.
又===1.23.
=-=5-1.23×4=0.08.
所以回归直线方程为=1.23x+0.08.
(2)当x=10时,=1.23×10+0.08=12.38(万元),
即假设使用10年时,维修费用约为12.38万元.
2.某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:
x | 2 | 4 | 6 | 8 |
y | 30 | 40 | 50 | 70 |
(1)计算x与y之间的相关系数,并求其回归直线方程;
(2)若实际销售额不少于80百万元,则原料耗费应该不少于多少?
[解] (1)画出(x,y)的散点图如图所示,由图可知x,y有线性关系.
=5,=47.5,x=120,y=9 900,xiyi=1 080,
故相关系数r=
=≈0.982 7.
===6.5,
=-=47.5-6.5×5=15.
故回归直线方程为=6.5x+15.
(2)由回归直线方程知,
当≥80,即6.5x+15≥80时,
x≥10.
故原料耗费应不少于10百万元.
非线性回归方程 |
[探究问题]
已知x和y之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?
x | 1 | 2 | 3 |
y | 3 | 5.99 | 12.01 |
①y=3×2x-1;②y=log2x;③y=4x;④y=x2.
[提示] 作出散点图(图略),观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近.①作为回归模型最好.
【例3】 某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
x | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
y | 112 | 61 | 44.5 | 35 | 30.5 | 28 | 25 | 24 |
根据以上数据,绘制了散点图.
观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型y=a+和指数函数模型y=cedx分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为=96.54e-0.2x,ln y与x的相关系数r1=-0.94.
参考数据:
uiyi | 2 | u | yi | y | e-2 | ||
183.4 | 0.34 | 0.115 | 1.53 | 360 | 22 385.5 | 61.4 | 0.135 |
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;
(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出).根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选择100元还是90元,请说明理由.
参考公式:对于一组数据(u1,υ1),(u2,υ2),…,(un,υn),其回归直线υ=α+βu的斜率和截距的最小二乘估计分别为:=,=-,
相关系数r=
[思路点拨] (1)首先可令u=并将y=a+转化为y=a+bu,然后根据题目所给数据以及线性回归方程的相关公式计算出以及,即可得出结果;
(2)计算出反比例函数模型的相关系数r并通过对比即可得出结果;
(3)可分别计算出单价为100元和90元时产品的利润,通过对比即可得出结果.
[解] (1)令u=,则y=a+可转化为y=a+bu,因为==45,所以
====100,
则=-=45-100×0.34=11,
所以=11+100u,
所以y关于x的回归方程为=11+.
(2)y与的相关系数为:
r2==≈0.99.
因为|r1|<|r2|,所以用反比例函数模型拟合效果更好,
当x=10时,y=+11=21(元),
所以当产量为10千件时,每件产品的非原料成本为21元.
(3)①当产品单价为100元,设订单数为x千件,因为签订9千件订单的概率为0.8,签订10千件订单的概率为0.2,
所以E(x)=9×0.8+10×0.2=9.2,
所以企业利润为100×9.2-9.2×=626.8(千元).
②当产品单价为90元,设订单数为y千件,
因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7,
所以E(y)=10×0.3+11×0.7=10.7,
所以企业利润为
90×10.7-10.7×=638.3(千元).
故企业要想获得更高利润,产品单价应选择90元.
非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:
3.二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:
使用年数x | 2 | 3 | 4 | 5 | 6 | 7 |
售价y | 20 | 12 | 8 | 6.4 | 4.4 | 3 |
z=ln y | 3.00 | 2.48 | 2.08 | 1.86 | 1.48 | 1.10 |
下面是z关于x的折线图:
(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;
(2)求y关于x的回归方程并预测某辆A型号二手车当使用年数为9年时售价约为多少? (b,a小数点后保留两位有效数字)
(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?
参考数据:
xiyi=187.4,xizi=47.64,x=139,
≈4.18,=13.96,
=1.53,
ln 1.46≈0.38,ln 0.711 8≈-0.34.
参考公式:回归直线方程=x+中斜率和截距的最小二乘估计公式分别为:
==,=-.
r=,,为样本平均值.
[解] (1)由题意,计算
=×(2+3+4+5+6+7)=4.5,
=×(3+2.48+2.08+1.86+1.48+1.10)=2,
且xizi=47.64,≈4.18,
=1.53,所以
r===-≈-0.99.
所以z与x的相关系数大约为-0.99,说明z与x的线性相关程度很高.
(2)利用最小二乘估计公式计算
===-≈-0.36,
所以=-=2+0.36×4.5=3.62,
所以z关于x的线性回归方程是=-0.36x+3.62,
又z=ln y,所以y关于x的回归方程是=e-0.36x+3.62.
令x=9,解得y=e-0.36×9+3.62≈1.46,即预测某辆A型号二手车当使用年数为9年时售价约1.46万元.
(3)当y≥0.711 8时,
e-0.36x+3.62≥0.711 8=eln 0.711 8=e-0.34,
所以-0.36x+3.62≥-0.34,解得x≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年.
1.判断变量的相关性通常有两种方式:一是散点图,二是相关系数r,前者只能粗略的说明变量间具有相关性,而后者从定量的角度分析变量相关性的强弱.
2.只有当两变量间呈线性相关关系时,才可以求回归系数,得到回归直线方程=x+;若两变量间的关系不是线性相关关系,应观察分析其散点图,找出拟合函数,通过变量代换把非线性回归问题转化为线性回归问题.
1.两个变量之间的线性相关程度越低,其线性相关系数的数值( )
A.越接近于-1 B.越接近于0
C.越接近于1 D.越小
B [由相关系数的含义可得:两个变量之间的线性相关程度越低,其线性相关系数的数值越接近于0.故选B.]
2.如图所示,给出了样本容量均为7的A,B两组样本数据的散点图,已知A组样本数据的相关系数为r1,B组数据的相关系数为r2,则( )
A.r1=r2 B.r1<r2
C.r1>r2 D.无法判定
C [根据A,B两组样本数据的散点图知,A组样本数据几乎在一条直线上,且成正相关,∴相关系数为r1应最接近1,B组数据分散在一条直线附近,也成正相关,∴相关系数为r2,满足r2<r1,即r1>r2,故选C.]
3.对于线性相关系数r,叙述正确的是( )
A.r∈(-∞,+∞),且r越大,相关程度越大
B.r∈(-∞,+∞),且|r|越大,相关程度越大
C.r∈[-1,1],且r越大,相关程度越大
D.r∈[-1,1],且|r|越大,相关程度越大
D [相关系数r是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大.故选D.]
4.若回归直线方程中的回归系数=0,则相关系数r=________.
0 [相关系数r=与=的分子相同,故r=0.]
5.根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合);
(2)求y关于x的回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量y约为多少?
附:相关系数公式r==,参考数据:≈0.55,
≈0.95.
回归方程=x+中斜率和截距的最小二乘估计公式分别为:==,
=-.
[解] (1)由已知数据可得==5,
==4.
所以 (xi-)(yi-)=(-3)×(-1)+(-1)×0+0×0+1×0+3×1=6,
==2,
==,
所以相关系数r=
==≈0.95.
因为r>0.75,所以可用线性回归模型拟合y与x的关系.
(2)===0.3.
那么=4-5×0.3=2.5.
所以回归方程为=0.3x+2.5.
当x=12时,=0.3×12+2.5=6.1,
即当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为6.1百千克.
数学4.3.1 一元线性回归模型课前预习ppt课件: 这是一份数学4.3.1 一元线性回归模型课前预习ppt课件,文件包含人教B版高中数学选择性必修第二册431《相关关系与回归直线方程》第1课时课件ppt、人教B版高中数学选择性必修第二册431《相关关系与回归直线方程》第1课时教案doc等2份课件配套教学资源,其中PPT共58页, 欢迎下载使用。
高中数学人教B版 (2019)选择性必修 第二册4.2.3 二项分布与超几何分布示范课ppt课件: 这是一份高中数学人教B版 (2019)选择性必修 第二册4.2.3 二项分布与超几何分布示范课ppt课件,文件包含人教B版高中数学选择性必修第二册423《超几何分布》第2课时课件ppt、人教B版高中数学选择性必修第二册423《超几何分布》第2课时教案doc等2份课件配套教学资源,其中PPT共48页, 欢迎下载使用。
数学选择性必修 第二册3.1.3 组合与组合数背景图ppt课件: 这是一份数学选择性必修 第二册3.1.3 组合与组合数背景图ppt课件,文件包含人教B版高中数学选择性必修第二册313第2课时《组合数的性质及应用》课件ppt、人教B版高中数学选择性必修第二册313第2课时《组合数的性质及应用》教案doc等2份课件配套教学资源,其中PPT共41页, 欢迎下载使用。