新高考数学一轮复习课件 第9章 §9.3 一元线性回归模型及其应用(含详解)
展开1.了解样本相关系数的统计含义.2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.
1.变量的相关关系(1)相关关系:两个变量 ,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类: 和 .(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在 附近,我们就称这两个变量线性相关.
(2)当r>0时,称成对样本数据 ;当r<0时,称成对样本数据 .(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越 ;当|r|越接近0时,成对样本数据的线性相关程度越 .
(2)残差:观测值减去 称为残差.
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系是一种非确定性关系.( )(2)散点图是判断两个变量相关关系的一种重要方法和手段.( )(3)经验回归直线 至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )(4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( )
根据回归分析的思想,可知对两个变量x,y进行回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求经验回归方程,最后对所求的经验回归方程作出解释.
1.在对两个变量x,y进行回归分析时有下列步骤:①对所求出的经验回归方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求经验回归方程;④根据所收集的数据绘制散点图.则下列操作顺序正确的是A.①②④③ B.③②④①C.②③①④ D.②④③①
2.对于x,y两变量,有四组成对样本数据,分别算出它们的样本相关系数r如下,则线性相关性最强的是A.-0.82 C.-0.69
由样本相关系数的绝对值|r|越大,变量间的线性相关性越强知,各选项中r=0.87的绝对值最大.
3.某单位为了了解办公楼用电量y(度)与气温x(℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:
A.68度 B.52度C.12度 D.28度
例1 (1)(2023·保定模拟)已知两个变量x和y之间有线性相关关系,经调查得到如下样本数据:
由已知数据可知y随着x的增大而减小,则变量x和y之间存在负相关关系,
A.0
根据统计资料,则利润中位数A.是16,x与y有正相关关系B.是17,x与y有正相关关系C.是17,x与y有负相关关系D.是18,x与y有负相关关系
跟踪训练1 (1)某公司2017~2022年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如表所示:
由题意知,利润中位数是 =17,而且随着年利润x的增加,广告支出y也在增加,故x与y有正相关关系.
(2)已知相关变量x和y的散点图如图所示,若用y=b1·ln(k1x)与y=k2x+b2拟合时的样本相关系数分别为r1,r2则比较r1,r2的大小结果为A.r1>r2 B.r1=r2C.r1
(1)在给出的坐标系中画出上表数据的散点图;
(3)已知现行利率下的日均存款总额为0.625亿元,试根据(2)中的经验回归方程,预测日均存款总额为现行利率下的2倍时,利率需上升多少个百分点?
设利率需上升x个百分点,由(2)得,0.625×2=1.5x+0.05,解得x=0.8,所以预测利率需上升0.8个百分点.
命题点2 非线性回归模型例3 (2023·保山模拟)某印刷企业为了研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步整理,得到了如图所示的散点图及一些统计量的值.
(1)根据散点图判断y=a+bx与y=c+ 哪一个模型更适合作为该图书每册的成本费y与印刷数量x的经验回归方程?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据求出y关于x的经验回归方程;
(3)若该图书每册的售价为9元,则预测至少应该印刷多少册,才能使销售利润不低于80 000元(假设能够全部售出).
所以预测至少应该印刷12 000册图书,才能使销售利润不低于80 000元.
跟踪训练2 (2022·南充模拟)某特色餐馆开通了某APP的外卖服务,在一周内的某特色菜外卖份数x(单位:份)与收入y(单位:元)之间有如下的对应数据:
(1)在给出的坐标系中画出数据散点图;
(2)请根据以上数据用最小二乘法求出收入y关于份数x的经验回归方程;
(3)据此估计外卖份数为12时,收入为多少元.
即外卖份数为12时,预测收入为95.5元.
例4 (1)(多选)下列说法正确的是A.在经验回归方程 =-0.85x+2.3中,当解释变量x每增加1个单位时, 响应变量 平均减少2.3个单位B.在经验回归方程 =-0.85x+2.3中,相对于样本点(1,1.2)的残差为-0.25C.在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效 果越好D.若两个变量的决定系数R2越大,表示残差平方和越小,即模型的拟合 效果越好
对于C,在残差图中,残差分布的水平带状区域的宽度越窄,说明拟合精度越高,即拟合效果越好,故C正确;对于D,由决定系数R2的意义可知,R2越大,表示残差平方和越小,即模型的拟合效果越好,故D正确.
(2)新能源汽车的核心部件是动力电池,电池占了新能源整车成本的很大一部分,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,如表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:
检验回归模型的拟合效果的两种方法(1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建立模型的拟合效果.(2)R2分析:通过公式计算R2,R2越大,残差平方和越小,模型的拟合效果越好;R2越小,残差平方和越大,模型的拟合效果越差.
B.可以用样本相关系数r来刻画两个变量x和y线性相关程度的强弱,r的 值越小,说明两个变量线性相关程度越弱C.在回归分析中,决定系数R2=0.80的模型比决定系数R2=0.98的模型拟 合的效果要好D.残差平方和越小的模型,拟合的效果越好
跟踪训练3 (1)下列命题是真命题的为
对于B,由样本相关系数的意义,当|r|越接近0时,表示变量y与x之间的线性相关程度越弱,所以B是假命题;对于C,用决定系数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好,所以C是假命题;对于D,由残差的统计学意义知,D是真命题.
(2)两个线性相关变量x与y的统计数据如表:
所以残差为11-11.2=-0.2.
1.下列有关线性回归的说法,不正确的是A.具有相关关系的两个变量不是因果关系B.散点图能直观地反映数据的相关程度C.回归直线最能代表线性相关的两个变量之间的关系D.任一组数据都有经验回归方程
根据两个变量具有相关关系的概念,可知A正确;散点图能直观地描述呈相关关系的两个变量的相关程度,且回归直线最能代表它们之间的相关关系,所以B,C正确;具有相关关系的成对样本数据才有经验回归方程,所以D不正确.
样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强,故D错误.
2.对于样本相关系数,下列说法错误的是A.样本相关系数可以用来判断成对样本数据相关的正负性B.样本相关系数可以是正的,也可以是负的C.样本相关系数r∈[-1,1]D.样本相关系数越大,成对样本数据的线性相关程度也越强
因为样本数据对应的点均在一条直线上,所以R2=1.
3.(2023·运城模拟)在线性回归模型中,变量x与y的一组样本数据对应的
A.变量x与y正相关B.y与x的样本相关系数r<0D.当产量为8吨时,预测所需材料约为5.95吨
4.(多选)某工厂研究某种产品的产量x(单位:吨)与所需某种材料y(单位:吨)之间的相关关系,在生产过程中收集4组数据如表所示.根据表中数据
所以变量x与y呈正相关,所以样本相关系数r>0,故A正确,B错误;
即产量为8吨时,预测所需材料约为5.95吨,故D正确.
5.(多选)(2023·唐山模拟)某制衣品牌为使成衣尺寸更精准,选择了10名志愿者,对其身高(单位:cm)和臂展(单位:cm)进行了测量,这10名志愿者身高和臂展的折线图如图所示.已知这10名志愿者身高的平均值为176 cm,根据这10名志愿者的数据求得臂展u关于身高v的经验回归方程为 =1.2v-34,则下列结论正确的是A.这10名志愿者身高的极差小于臂展的 极差B.这10名志愿者的身高和臂展呈负相关C.这10名志愿者臂展的平均值为176.2 cmD.根据经验回归方程可估计身高为160 cm 的人的臂展为158 cm
对于选项A,因为这10名志愿者臂展的最大值大于身高的最大值,而臂展的最小值小于身高的最小值,所以这10名志愿者身高的极差小于臂展的极差,故A正确;对于选项B,因为1.2>0,所以这10名志愿者的身高和臂展呈正相关关系,故B错误;对于选项C,因为这10名志愿者身高的平均值为176 cm,所以这10名志愿者臂展的平均值为1.2×176-34=177.2(cm),故C错误;
A.-0.96 B.-0.8 C.0.8
6.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中:已知该产品的色度y和色差x之间满足线性相关关系,且 现有一对测量数据为(30,23.6),则该数据的残差为
所以该数据的残差为23.6-22.8=0.8.
7.某智能机器人的广告费用x(万元)与销售额y(万元)的统计数据如表所示:根据此表可得经验回归方程为 据此模型预测广告费用为8万元时销售额为_____万元.
所以预测当广告费用为8万元时,销售额为5×8+17=57(万元).
8.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=2e2x+1的图象附近,设z=ln y,将其变换后得到经验回归方程为z=mx+n,则mn=__________.
由z=ln y,则ln y=ln 2e2x+1,即z=ln 2+ln e2x+1=ln 2+2x+1,则z=2x+ln 2+1,故m=2,n=ln 2+1,所以mn=2ln 2+2.
9.假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
(2)计算y与x的样本相关系数r(精确到0.001),并判断该设备的使用年限与所支出的维修费用的相关程度.
r接近1,说明该设备的使用年限与所支出的维修费用之间具有很高的相关性.
10.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m2,平均一棵的材积量为0.39 m3.
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
设该林区这种树木的总材积量的估计值为Y m3,又已知树木的材积量与其根部横截面积近似成正比,
解得Y=1 209.则该林区这种树木的总材积量的估计值为1 209 m3.
C.此回归模型第4周的残差为5D.估计第6周治愈人数为220
11.(多选)针对某疾病,各地医疗机构采取了各种有针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示,由表格可得y关于x的经验回归方程为 则下列说法正确的是
12.2020年,全球开展了某疫苗研发竞赛,我国处于领先地位,为了研究疫苗的有效率,在某地进行临床试验,对符合一定条件的10 000名试验者注射了该疫苗,一周后有20人感染,为了验证疫苗的有效率,同期,从相同条件下未注射疫苗的人群中抽取2 500人,分成5组,各组感染人数如下:
故N=0.011×10 000-0.5=110-0.5=109.5≈110,
13.在一组样本数据(x1,y1),(x2,y2),…,(x7,y7)的散点图中,若所有样本点(xi,yi)(i=1,2,…,7)都在曲线y=aln(x-1 895)+12.15附近波动,经计算 (xi-1 895)=210.77, yi=73.50, ln(xi-1 895)=23.10,则实数a等于A.-0.5 B.0.5 C.-1 D.1
所以10.5=3.3a+12.15,解得a=-0.5.
14.(多选)已知由样本数据(xi,yi)(i=1,2,3,…,10)组成的一个样本,得到经验回归方程为 ,去除两个歧义点(-2,1)和(2,-1)后,得到新的经验回归直线的斜率为3.则下列说法正确的是A.相关变量x,y具有正相关关系B.去除两个歧义点后,新样本中变量xj(j=1,2,…,8)的平均值变大C.去除两个歧义点后的经验回归方程为D.去除两个歧义点后,样本数据(4,8.9)的残差为0.1
对于A,因为经验回归直线的斜率大于0,所以相关变量x,y具有正相关关系,故A正确;
2025高考数学一轮复习-9.3-变量的相关关系与一元线性回归模型【课件】: 这是一份2025高考数学一轮复习-9.3-变量的相关关系与一元线性回归模型【课件】,共54页。PPT课件主要包含了课前双基巩固,课堂考点突破等内容,欢迎下载使用。
新高考数学一轮复习讲练测课件第9章§9.3一元线性回归模型及其应用 (含解析): 这是一份新高考数学一轮复习讲练测课件第9章§9.3一元线性回归模型及其应用 (含解析),共60页。PPT课件主要包含了落实主干知识,有关系,正相关,负相关,一条直线,样本相关系数,一元线性回归模型,预测值,探究核心题型,如图所示等内容,欢迎下载使用。
2024年高考数学一轮复习(新高考版) 第9章 §9.3 一元线性回归模型及其应用课件PPT: 这是一份2024年高考数学一轮复习(新高考版) 第9章 §9.3 一元线性回归模型及其应用课件PPT,共60页。PPT课件主要包含了落实主干知识,探究核心题型,课时精练,有关系,正相关,负相关,一条直线,样本相关系数,一元线性回归模型,预测值等内容,欢迎下载使用。