高考数学一轮复习【考点题型归纳讲练】导学案(新高考专用)第02课时成对数据的统计分析(原卷版+解析)
展开【回归教材】
1.变量间的相关关系
(1)相关关系的定义
相关关系是非确定性关系,因变量的取值具有一定的 ,那么这两个变量之间的关系叫做相关关系,两个变量之间的关系分为 和 .
(2)散点图
将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中得到的图形叫做散点图.
(3)正相关与负相关
①正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为 .
②负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为 .
2.相关系数
(1)样本相关系数r的计算公式
我们可以利用相关系数来定量地衡量两个变量之间的线性相关关系,计算公式为.
(2)样本相关系数r的性质
①;
②当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;
③|r|越接近于1,表明两个变量的线性相关性越 ;
④|r|越接近于0,表明两个变量的线性相关性越 .
3.回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的 的方法叫做最小二乘法.
(2)经验回归方程
若变量x与y具有线性相关关系,有n个样本数据,.则经验回归方程中,.称为样本点的中心.
其中,
4.刻画回归效果的方式
5.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的 ,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的 ,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
构造一个随机变量,其中n= 为样本容量.
(3)独立性检验
利用随机变量 来判断“两个分类变量 ”的方法称为独立性检验.
(4)独立性检验的具体做法
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定 k0.
②利用公式计算随机变量K2的 k.
③如果 ,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,
否则就认为在 不超过α的前提下不能推断“X与Y有关系”,
或者在样本数据中 支持结论“X与Y有关系”.
【典例讲练】
题型一 变量的相关关系
【例1-1】对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A. B. C. D.
【例1-2】如图,在一组样本数据,,,,的散点图中,若去掉后,则下列说法正确的为( )
A.样本相关系数r变小
B.残差平方和变大
C.相关指数变小
D.自变量x与因变量y的相关程度变强
【例1-3】下列命题是真命题的有( )
A.经验回归方程至少经过其样本数据点中的一个
B.可以用相关系数r来刻画两个变量x和y线性相关程度的强弱,r的值越小,说明两个变量线性相关程度越弱
C.在回归分析中,决定系数的模型比决定系数的模型拟合的效果要好
D.残差平方和越小的模型,拟合的效果越好
归纳总结:
【练习1-1】已知变量与相对应的一组数据为,变量与相对应的一组数据为表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,则和0三者之间的大小关系是___________.(用符号“<”连接).
【练习1-2】【多选题】变量与的成对数据的散点图如下图所示,并由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为;经过残差分析确定第二个点为离群点(对应残差过大),把点去掉后,再用剩下的7组数据计算得到回归直线的方程为,相关系数为,决定系数为.则以下结论中正确的是( )
A.B.
C.D.
题型二 一元线性回归模型
【例2-1】我国机床行业核心零部件对外依存度较高,我国整机配套的中高档功能部件大量依赖进口,根据中国机床工具工业协会的数据,国内高档系统自给率不到10%,约90%依赖进口.因此,迅速提高国产数控机床功能部件制造水平,加快国产数控机床功能部件产业化进程至关重要.通过对某机械上市公司近几年的年报公布的研发费用x(亿元)与产品的直接收益y(亿元)的数据进行统计,得到下表:
根据数据,可建立y关于x的两个回归模型:模型①:;模型②:.
(1)根据表格中的数据,分别求出模型①,②的相关指数的大小(结果保留三位有效数字);
(2)(i)根据(1)选择拟合精度更高、更可靠的模型;
(ii)若2022年该公司计划投入研发费用17亿元,使用(i)中的模型预测可为该公司带来多少直接收益.
附:.
【例2-2】如图是某采矿厂的污水排放量单位:吨与矿产品年产量单位:吨的折线图:
(1)依据折线图计算相关系数精确到,并据此判断是否可用线性回归模型拟合y与x的关系?若,则线性相关程度很高,可用线性回归模型拟合
(2)若可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测年产量为10吨时的污水排放量.
归纳总结:
【练习2-1】某种农作物可以生长在滩涂和盐碱地,它的灌溉方式是将海水稀释后进行灌溉.某实验基地为了研究海水浓度x(%)对亩产量y(t)的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表
绘制散点图发现,可以用线性回归模型拟合亩产量y(t)与海水浓度x(%)之间的相关关系,用最小二乘法计算得y与x之间的线性回归方程为
(1)求,m,n的值;
(2)统计学中常用相关指数来刻画回归效果,越大,回归效果越好,如假设,就说明预报变量y的差异有85%是解释变量x引起的.请计算相关指数(精确到0.01),并指出亩产量的变化多大程度上是由浇灌海水浓度引起的?
附:残差,相关指数,其中
题型三 一元非线性回归模型
【例3-1】5G网络是指第五代移动网络通讯技术,它的主要特点是传输速度快,峰值传输速度可达每秒钟数十GB.作为新一代移动通讯技术,它将要支持的设备远不止智能手机,而是会扩展到未来的智能家居,智能穿戴等设备.某科技创新公司基于领先技术的支持,经济收入在短期内逐月攀升,该公司1月份至6月份的经济收入y(单位:万元)关于月份x的数据如下表所示,并根据数据绘制了如图所示的散点图.
(1)根据散点图判断,与(a,b,c,d均为常数)哪一个更适合作为经济收入y关于月份x的回归方程类型(给出判断即可,不必说明理由)?
(2)根据(1)的结果及表中数据,求出y关于x的回归方程(结果保留两位小数);
(3)根据(2)所求得的回归方程,预测该公司7月份的经济收入(结果保留两位小数).
参考公式及参考数据:回归方程中斜率和截距的最小二乘估计公式为:,;
其中,().
归纳总结:
【练习3-1】红铃虫是棉花的主要害虫之一,也侵害木棉、锦葵等植物.为了防治虫害,从根源上抑制害虫数量.现研究红铃虫的产卵数和温度的关系,收集到7组温度和产卵数的观测数据于表Ⅰ中.根据绘制的散点图决定从回归模型①与回归模型②中选择一个来进行拟合.
表Ⅰ
(1)请借助表Ⅱ中的数据,求出回归模型①的方程:
表Ⅱ(注:表中)
(2)类似的,可以得到回归模型②的方程为,试求两种模型下温度为时的残差;
(3)若求得回归模型①的相关指数,回归模型②的相关指数,请结合(2)说明哪个模型的拟合效果更好.
参考数据:.
附:回归方程中,
相关指数.
题型四 独立性检验
【例4-1】观察下面频率等高条形图,其中两个分类变量x,y之间的随机变量的观测值最小的是( )
A.B.C.D.
【例4-2】在某次社会机构的招聘考试中,参加考试的文科大学生与理科大学生的人数比例为,且成绩(单位:分)分布在,为调研此次考试的整体状况,按文理科用分层抽样的方法抽取160人的成绩作为样本,得到成绩的频率分布直方图如图所示,且规定70及其以上为优秀.
(1)填写列联表;
(2)通过计算判断是否有90%的把握认为成绩优秀与大学生的文理科有关.
参考公式:,其中.
参考数据:
归纳总结:
【练习4-1】为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性40人,女性60人,绘制不同群体中倾向选择生育二胎与选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则关于样本下列叙述中正确的是( )
A.是否倾向选择生育二胎与户籍无关
B.是否倾向选择生育二胎与性别有关
C.倾向选择生育二胎的人员中,男性人数与女性人数相同
D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数
【练习4-2】电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的列联表;
(2)据此资料你是否认为在犯错误的概率不超过0.10的前提下,“体育迷”与性别有关?
附:参考公式:,其中
【完成课时作业(六十四)】
【课时作业(六十四)】
A组 础题巩固
1.在一次试验中,测得的五组数据分别为,,,,,去掉一组数据后,下列说法正确的是( )
A.样本数据由正相关变成负相关B.样本的相关系数不变
C.样本的相关性变弱D.样本的相关系数变大
2.在一组样本数据互不相等 的散点图中,若所有样本点都在直线上,则这组样本数据的样本相关系数为( )
A.B.C.D.1
3.下列四个命题:
①由样本数据得到的回归直线方程至少经过样本点中的一个;
②在回归分析中,若模型一的相关指数,模型二的相关指数,则模型一的拟合效果比模型二的好;
③回归直线一定经过样本点的中心;
④在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高.
正确命题的个数为( )
A.1B.2C.3D.4
4.下图是某地区2001年至2021年环境保护建设投资额(单位:万元)的折线图.
根据该折线图判断,下列结论正确的是( )
A.为预测该地2022年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠
B.为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠
C.投资额与年份负相关
D.投资额与年份的相关系数
5.下列说法正确的个数是( )
(1)在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差
(2)某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学
(3)回归分析模型中,残差平方和越小,说明模型的拟合效果越好
(4)在回归直线方程,当解释变量每增加1个单位时,预报变量多增加0.1个单位
A.2B.3C.4D.1
6.某高中调查学生对2022年冬奥会的关注是否与性别有关,随机抽样调查150人,进行独立性检验,经计算得,临界值表如下:
则下列说法中正确的是:( )
A.有97.5%的把握认为“学生对2022年冬奥会的关注与性别无关”
B.有99%的把握认为“学生对2022 年冬奥会的关注与性别有关”
C.在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别有关”
D.在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别无关”
7.【多选题】下列命题中正确的是( )
A.在回归分析中,成对样本数据的样本相关系数r的绝对值越大,成对样本数据的线性相关程度越强
B.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好
C.比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型拟合效果越差
D.对分类变量X与Y,统计量的值越大,则判断“X与Y有关系”的把握程度越大
8.已知回归直线的斜率的估计值为1.27,样本点的中心为,则回归直线方程为__________.
9.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
10.某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
B组 挑战自我
1.一只红铃虫的产卵数y和温度x有关,现收集了6组观测数据,y(单位:个)与温度x(单位:℃)得到样本数据(,2,3,4,5,6),令,并将绘制成如图所示的散点图.若用方程对y与x的关系进行拟合,则( )
A., B., C., D.,
2.某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关,面向全体学生开展了一次随机调查,其中参加调查的男、女生人数相同,并绘制成等高条形图(如图所示),则下列说法正确的是( )
参考公式:,.
A.参与调查的学生中喜欢攀岩的女生人数比喜欢攀岩的男生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若调查的男、女生人数均为100人,则能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关
D.无论调查的男、女生人数为多少,都能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关
3.新能源汽车的核心部件是动力电池,电池占了新能源整车成本的大头,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格一路水涨船高,下表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:
根据表中数据,得出y关于x的经验回归方程为,根据数据计算出在样本点处的残差为,则表中______.
4.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量(=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)已知这种产品的年利率与、的关系为.根据(Ⅱ)的结果回答下列问题:
(i)年宣传费时,年销售量及年利润的预报值是多少(ii)年宣传费为何值时,年利率的预报值最大?
附:对于一组数据,,……,,其回归线的斜率和截距的最小二乘估计分别为:方式方法
计算公式
刻画效果
越接近于1,表示回归的效果越好
残差图
称为相应于点的残差,
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和
残差平方和越小,模型的拟合效果越好
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
年份
2015
2016
2017
2018
2019
2020
2021
x
2
3
4
6
8
10
13
y
15
22
27
40
48
54
60
回归模型
模型①
模型②
79.13
18.86
海水浓度x(%)
3
4
5
6
7
亩产量y(t)
0.56
0.52
0.46
0.35
0.31
残差
0.01
m
n
0.01
月份x
1
2
3
4
5
6
收入y
6
11
23
37
72
124
3.5
45.5
3.34
17.5
393.5
10.63
239.85
温度x/℃
20
22
25
27
29
31
35
产卵数y/个
7
11
21
24
65
114
325
189
567
25.27
162
78106
11.06
3040
41.86
825.09
文科生
理科生
合计
优秀
4
不优秀
合计
160
0.15
0.10
0.05
0.025
0.01
2.072
2.706
3.841
5.024
6.635
非体育迷
体育迷
总计
男
女
10
55
总计
0.15
0.10
0.05
0.025
0.010
2.072
2.076
3.841
5.024
6.635
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
月份代码
1
2
3
4
5
碳酸锂价格(万元/kg)
0.5
0.6
1
1.5
46.6
563
6.8
289.8
1.6
1469
108.8
第 2 课时 成对数据的统计分析
编写:廖云波
【回归教材】
1.变量间的相关关系
(1)相关关系的定义
相关关系是非确定性关系,因变量的取值具有一定的_随机性__,那么这两个变量之间的关系叫做相关关系,两个变量之间的关系分为函数关系和相关关系.
(2)散点图
将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中得到的图形叫做散点图.
(3)正相关与负相关
①正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.
②负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.
2.相关系数
(1)样本相关系数r的计算公式
我们可以利用相关系数来定量地衡量两个变量之间的线性相关关系,计算公式为.
(2)样本相关系数r的性质
①;
②当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;
③|r|越接近于1,表明两个变量的线性相关性越强;
④|r|越接近于0,表明两个变量的线性相关性越弱.
3.回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
(2)经验回归方程
若变量x与y具有线性相关关系,有n个样本数据,.则经验回归方程中,.称为样本点的中心.
其中,
4.刻画回归效果的方式
5.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
构造一个随机变量K2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(4)独立性检验的具体做法
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
②利用公式计算随机变量K2的观测值k.
③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,
否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,
或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
【典例讲练】
题型一 变量的相关关系
【例1-1】对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A. B. C. D.
【答案】A
【分析】利用正负相关与线性相关的强弱进行求解即可
【详解】都是正线性相关,
所以,
并且相关性最强,
所以;
都是负线性相关并,
所以,
且相关性强,
所以,
所以;
所以;
故选:A
【例1-2】如图,在一组样本数据,,,,的散点图中,若去掉后,则下列说法正确的为( )
A.样本相关系数r变小
B.残差平方和变大
C.相关指数变小
D.自变量x与因变量y的相关程度变强
【答案】D
【分析】根据散点图结合相关系数,相关系数及残差平方和的意义判断即得.
【详解】从散点图分析可知,只有D点偏离直线较远,去掉D点后,x与y的线性相关程度变强,
所以相关系数r变大,相关指数变大,残差平方和变小,
故选:D.
【例1-3】下列命题是真命题的有( )
A.经验回归方程至少经过其样本数据点中的一个
B.可以用相关系数r来刻画两个变量x和y线性相关程度的强弱,r的值越小,说明两个变量线性相关程度越弱
C.在回归分析中,决定系数的模型比决定系数的模型拟合的效果要好
D.残差平方和越小的模型,拟合的效果越好
【答案】D
【分析】根据经验回归方程、相关系数、决定系数、残差等知识确定正确答案.
【详解】对于A,经验回归方程是由最小二乘法计算出来的,它不一定经过其样本数据点,一定经过,所以A是假命题;
对于B,由相关系数的意义,当越接近1时,表示变量y与x之间的线性相关程度越强,所以B是假命题;
对于C,用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好,所以C是假命题;
由残差的统计学意义知,D为真命题.
故选: D
归纳总结:
【练习1-1】已知变量与相对应的一组数据为,变量与相对应的一组数据为表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,则和0三者之间的大小关系是___________.(用符号“<”连接).
【答案】
【分析】根据已知分析两组数据中变量的相关关系,从而判断出相关系数的符号,即可得出的结论.
【详解】解:由已知中的数据可知,
第一组数据中变量与间呈正相关,相关系数,
第二组数据中变量与间呈负相关,相关系数,
所以.
故答案为:.
【练习1-2】【多选题】变量与的成对数据的散点图如下图所示,并由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为;经过残差分析确定第二个点为离群点(对应残差过大),把点去掉后,再用剩下的7组数据计算得到回归直线的方程为,相关系数为,决定系数为.则以下结论中正确的是( )
A.B.C.D.
【答案】BD
【分析】根据点的特点判断选项AB,由于去掉,其它点的线性关系更强,从而可判断CD选项
【详解】因为共8个点且离群点的横坐标较小而纵坐标相对过大,去掉离群点后回归方程的斜率更大,而截距变小,所以正确,而错误;
去掉离群点后相关性更强,拟合效果也更好,且还是正相关,所以,故错误,D正确.
故选:BD
题型二 一元线性回归模型
【例2-1】我国机床行业核心零部件对外依存度较高,我国整机配套的中高档功能部件大量依赖进口,根据中国机床工具工业协会的数据,国内高档系统自给率不到10%,约90%依赖进口.因此,迅速提高国产数控机床功能部件制造水平,加快国产数控机床功能部件产业化进程至关重要.通过对某机械上市公司近几年的年报公布的研发费用x(亿元)与产品的直接收益y(亿元)的数据进行统计,得到下表:
根据数据,可建立y关于x的两个回归模型:模型①:;模型②:.
(1)根据表格中的数据,分别求出模型①,②的相关指数的大小(结果保留三位有效数字);
(2)(i)根据(1)选择拟合精度更高、更可靠的模型;
(ii)若2022年该公司计划投入研发费用17亿元,使用(i)中的模型预测可为该公司带来多少直接收益.
附:.
【答案】(1)模型①:;模型②:
(2)(i)模型②;(ii)72.93亿元
【分析】(1)根据所给数据公式求相关系数;
(2)(i)比较相关系数可得;(ii)代入模型①回归方程计算.
(1)
因为,
所以,
则模型①的相关指数,
模型②的相关指数;
(2)
(i)由(1)知,,所以模型②的拟合精度更高、更可靠;
(ii)由回归方程,可得当时,,
所以若2022年该公司计划投入研发费用17亿元,大约可为该公司带来72.93亿元的直接收益.
【例2-2】如图是某采矿厂的污水排放量单位:吨与矿产品年产量单位:吨的折线图:
(1)依据折线图计算相关系数精确到,并据此判断是否可用线性回归模型拟合y与x的关系?若,则线性相关程度很高,可用线性回归模型拟合
(2)若可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测年产量为10吨时的污水排放量.
相关公式:,参考数据:.
回归方程中,
【答案】(1)相关系数,可用线性回归模型拟合y与x的关系
(2),吨
【分析】(1)代入数据,算出相关系数r,将其绝对值与比较,即可判断可用线性回归模型拟合y与x的关系.
(2)先求出回归方程,求出当时的值,即为预测值.
(1)由折线图得如下数据计算得:,,,所以相关系数,因为,所以可用线性回归模型拟合y与x的关系
(2),所以回归方程为,当时,,所以预测年产量为10吨时的污水排放量为吨
归纳总结:
【练习2-1】某种农作物可以生长在滩涂和盐碱地,它的灌溉方式是将海水稀释后进行灌溉.某实验基地为了研究海水浓度x(%)对亩产量y(t)的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表
绘制散点图发现,可以用线性回归模型拟合亩产量y(t)与海水浓度x(%)之间的相关关系,用最小二乘法计算得y与x之间的线性回归方程为
(1)求,m,n的值;
(2)统计学中常用相关指数来刻画回归效果,越大,回归效果越好,如假设,就说明预报变量y的差异有85%是解释变量x引起的.请计算相关指数(精确到0.01),并指出亩产量的变化多大程度上是由浇灌海水浓度引起的?
附:残差,相关指数,其中
【答案】(1),,;
(2),亩产量的变化有是由浇灌海水浓度引起的.
【分析】(1)求出样本中心点代入回归方程求,再利用残差公式求m、n即可.
(2)根据相关指数公式求,进而写出结论即可.
(1)由题设,,,
所以,可得,
,
.
(2)由(1)知:,,
所以,
故亩产量的变化有是由浇灌海水浓度引起的.
题型三 一元非线性回归模型
【例3-1】5G网络是指第五代移动网络通讯技术,它的主要特点是传输速度快,峰值传输速度可达每秒钟数十GB.作为新一代移动通讯技术,它将要支持的设备远不止智能手机,而是会扩展到未来的智能家居,智能穿戴等设备.某科技创新公司基于领先技术的支持,经济收入在短期内逐月攀升,该公司1月份至6月份的经济收入y(单位:万元)关于月份x的数据如下表所示,并根据数据绘制了如图所示的散点图.
(1)根据散点图判断,与(a,b,c,d均为常数)哪一个更适合作为经济收入y关于月份x的回归方程类型(给出判断即可,不必说明理由)?
(2)根据(1)的结果及表中数据,求出y关于x的回归方程(结果保留两位小数);
(3)根据(2)所求得的回归方程,预测该公司7月份的经济收入(结果保留两位小数).
参考公式及参考数据:回归方程中斜率和截距的最小二乘估计公式为:,;
其中,().
【答案】(1)更适合
(2)
(3)239.85万元
【分析】(1)由散点图可知;
(2)的两边取自然对数,把非线性回归方程转化为线性回归方程,用最小二乘法计算得解;
(3)根据(2)的方程进行预测.
(1)由散点图可知,更适合作为经济收入y关于月份x的回归方程类型.
(2)的两边取自然对数,得.因为,,,,所以,,所以,所以经济收入y关于月份x的回归方程为.
(3)当时,.预测该公司7月份的经济收入约为239.85万元.
归纳总结:
【练习3-1】红铃虫是棉花的主要害虫之一,也侵害木棉、锦葵等植物.为了防治虫害,从根源上抑制害虫数量.现研究红铃虫的产卵数和温度的关系,收集到7组温度和产卵数的观测数据于表Ⅰ中.根据绘制的散点图决定从回归模型①与回归模型②中选择一个来进行拟合.
表Ⅰ
(1)请借助表Ⅱ中的数据,求出回归模型①的方程:
表Ⅱ(注:表中)
(2)类似的,可以得到回归模型②的方程为,试求两种模型下温度为时的残差;
(3)若求得回归模型①的相关指数,回归模型②的相关指数,请结合(2)说明哪个模型的拟合效果更好.
参考数据:.
附:回归方程中,
相关指数.
【答案】(1)(或)
(2)模型①:1.54;模型②:65.54
(3)模型①
【分析】(1)利用两边取自然对数,利用表中的数据即可求解;
(2)分别计算模型①、②在时残差;
(3)根据相关指数的大小判断摸型①、②的残差平方和,再得出那个模型的拟合效果更好.
(1)
由,得,
令,得,
由表Ⅱ数据可得,,
,
所以,
所以回归方程为(或).
(2)
由题意可知,模型①在时残差为,
模型②在时残差为.
(3)
因为,即模型①的相关指数大于模型②的相关指数,由相关指数公式知,模型①的残差平方和小于模型②的残差平方和,因此模型①得到的数据更接近真实数据,所以模型①的拟合效果更好.
题型四 独立性检验
【例4-1】观察下面频率等高条形图,其中两个分类变量x,y之间的随机变量的观测值最小的是( )
A.B.
C.D.
【答案】B
【分析】直接由等高条形图中所占比例相差越小,随机变量的观测值越小判断即可.
【详解】等高的条形图中所占比例相差越小,随机变量的观测值越小.
故选:B.
【例4-2】在某次社会机构的招聘考试中,参加考试的文科大学生与理科大学生的人数比例为,且成绩(单位:分)分布在,为调研此次考试的整体状况,按文理科用分层抽样的方法抽取160人的成绩作为样本,得到成绩的频率分布直方图如图所示,且规定70及其以上为优秀.
(1)填写列联表;
(2)通过计算判断是否有90%的把握认为成绩优秀与大学生的文理科有关.
参考公式:,其中.
参考数据:
【答案】(1)列联表见解析;
(2)有90%的把握认为成绩优秀与大学生的文理科有关.
【分析】(1)利用分层抽样求出文理科人数,再根据频率分布直方图求出优秀的人数,完善列联表作答.
(2)计算的观测值,再与临界值表比对即可作答.
(1)由题意可知,文理科人数的比例为且按分层抽样抽取160人,则文科生有人,理科生有人,70分及以上为优秀,则优秀的共有人,所以列联表为:
(2)由(1)知,,所以有90%的把握认为成绩优秀与大学生的文理科有关.
归纳总结:
【练习4-1】为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性40人,女性60人,绘制不同群体中倾向选择生育二胎与选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则关于样本下列叙述中正确的是( )
A.是否倾向选择生育二胎与户籍无关
B.是否倾向选择生育二胎与性别有关
C.倾向选择生育二胎的人员中,男性人数与女性人数相同
D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数
【答案】D
【分析】结合所给比例图,依次分析判断4个选项即可.
【详解】对于A,城镇户籍中选择生育二胎,农村户籍中选择生育二胎,相差较大,则是否倾向选择生育二胎与户籍有关,A错误;
对于B,男性和女性中均有选择生育二胎,则是否倾向选择生育二胎与性别无关,B错误;
对于C,由于男性和女性中均有选择生育二胎,但样本中男性40人,女性60人,则倾向选择生育二胎的人员中,男性人数与女性人数不同,C错误;
对于D,倾向选择不生育二胎的人员中,农村户籍有人,城镇户籍有人,农村户籍人数少于城镇户籍人数,D正确.
故选:D.
【练习4-2】电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的列联表;
(2)据此资料你是否认为在犯错误的概率不超过0.10的前提下,“体育迷”与性别有关?
附:参考公式:,其中
参考数据:
【答案】(1)填表见解析
(2)在犯错误的概率不超过0.10的前提下可以认为“体育迷”与性别有关
【分析】(1)由频率分布直方图可求得“体育迷”人数,即可得“非体育迷”人数,完成联表即可.
(2)将表中数据代入公式,求得的值,分析即可得答案.
(1)
由所给的频率分布直方图知,
“体育迷”人数为,“非体育迷”人数为75,
则据题意完成2×2列联表:
(2)
将2×2列联表的数据代入公式计算:
.
所以在犯错误的概率不超过0.10的前提下可以认为“体育迷”与性别有关.
【完成课时作业(六十四)】
【课时作业(六十四)】
A组 础题巩固
1.在一次试验中,测得的五组数据分别为,,,,,去掉一组数据后,下列说法正确的是( )
A.样本数据由正相关变成负相关B.样本的相关系数不变
C.样本的相关性变弱D.样本的相关系数变大
【答案】D
【分析】由正负相关、相关系数的含义及相关性强弱依次判断即可.
【详解】由题意,去掉离群点后,仍然为正相关,相关性变强,相关系数变大,故A、B、C错误,D正确.
故选:D.
2.在一组样本数据互不相等 的散点图中,若所有样本点都在直线上,则这组样本数据的样本相关系数为( )
A.B.C.D.1
【答案】D
【分析】根据所有样本点都在直线上可知样本数据完全正相关,相关系数取到最大值,可得答案.
【详解】由题意可知,所有样本点都在直线上,
则这组样本数据完全正相关,且相关系数为1,
故选:D
3.下列四个命题:
①由样本数据得到的回归直线方程至少经过样本点中的一个;
②在回归分析中,若模型一的相关指数,模型二的相关指数,则模型一的拟合效果比模型二的好;
③回归直线一定经过样本点的中心;
④在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高.
正确命题的个数为( )
A.1B.2C.3D.4
【答案】C
【分析】根据回归直线方程的特点依次判断即可.
【详解】回归直线方程经过样本中心点,不一定过样本点,所以①错误,③正确;
在回归分析中,模型的相关指数越大拟合效果越好,所以②正确.
在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,所以④正确.
故选:C.
4.下图是某地区2001年至2021年环境保护建设投资额(单位:万元)的折线图.
根据该折线图判断,下列结论正确的是( )
A.为预测该地2022年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠
B.为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠
C.投资额与年份负相关
D.投资额与年份的相关系数
【答案】B
【分析】根据折线图数据变化趋势,结合回归分析思想即可逐项判断.
【详解】因2009年之前与2010年之后投资额变化较大,故为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠,所以A错误,B正确;
随年份的增长,投资额总体上在增长,所以投资额与年份正相关,,故CD错误.
故选:B.
5.下列说法正确的个数是( )
(1)在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差
(2)某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学
(3)回归分析模型中,残差平方和越小,说明模型的拟合效果越好
(4)在回归直线方程,当解释变量每增加1个单位时,预报变量多增加0.1个单位
A.2B.3C.4D.1
【答案】A
【分析】根据残差分析的性质判断(1),(3)选项,由概率的意义判断(2)选项,根据回归直线方程的意义判断(4).
【详解】解:对(1),在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好,故错误;
对(2),概率只说明事件发生的可能性,某次事件不一定发生,所以并不能说明天气预报不科学,故错误;
对(3),在回归分析模型中,残差平方和越小,说明模型的拟合效果越好,故正确;
对(4),在回归直线方程,当解释变量每增加1个单位时,预报变量增加0.1个单位,故正确.
故选:A.
6.某高中调查学生对2022年冬奥会的关注是否与性别有关,随机抽样调查150人,进行独立性检验,经计算得,临界值表如下:
则下列说法中正确的是:( )
A.有97.5%的把握认为“学生对2022年冬奥会的关注与性别无关”
B.有99%的把握认为“学生对2022 年冬奥会的关注与性别有关”
C.在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别有关”
D.在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别无关”
【答案】C
【分析】根据独立性检验的方法即可求解.
【详解】由题意可知,,
所以在犯错误的概率不超过的前提下可认为“学生对2022 年冬奥会的关注与性别有关”.
故选:C.
7.【多选题】下列命题中正确的是( )
A.在回归分析中,成对样本数据的样本相关系数r的绝对值越大,成对样本数据的线性相关程度越强
B.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好
C.比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型拟合效果越差
D.对分类变量X与Y,统计量的值越大,则判断“X与Y有关系”的把握程度越大
【答案】ABD
【分析】根据相关系数、决定系数、残差平方和,以及统计量的意义直接判断可得.
【详解】相关系数的绝对值越大,相关程度越强,A正确;
决定系数越大,拟合效果越好,故B正确;
残差平方和越小,模拟效果越好,故C错误;
统计量的值越大,分类变量X与Y相互独立的概率越小,即判断“X与Y有关系”的把握程度越大,故D正确.
故选:ABD
8.已知回归直线的斜率的估计值为1.27,样本点的中心为,则回归直线方程为__________.
【答案】
【分析】本题考查线性回归直线方程,可根据回归直线方程一定经过样本中心点这一信息,即可求出答案.
【详解】解:设回归直线方程为,因为样本点的中心为,所以,解得,所以,
故答案为:
【点睛】本题考查运用了样本中心点的坐标求回归直线方程,属于基础题.
9.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
【答案】(1)75%;60%;
(2)能.
【分析】根据给出公式计算即可
【详解】(1)甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.
(2),
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
10.某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
【答案】(1);
(2)
(3)
【分析】(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)代入题给相关系数公式去计算即可求得样本的相关系数值;
(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估计值.
(1)样本中10棵这种树木的根部横截面积的平均值样本中10棵这种树木的材积量的平均值据此可估计该林区这种树木平均一棵的根部横截面积为,平均一棵的材积量为
(2)则
(3)设该林区这种树木的总材积量的估计值为,又已知树木的材积量与其根部横截面积近似成正比,可得,解之得.则该林区这种树木的总材积量估计为
B组 挑战自我
1.一只红铃虫的产卵数y和温度x有关,现收集了6组观测数据,y(单位:个)与温度x(单位:℃)得到样本数据(,2,3,4,5,6),令,并将绘制成如图所示的散点图.若用方程对y与x的关系进行拟合,则( )
A.,B.,
C.,D.,
【答案】A
【分析】令,可得z与x的回归方程为,根据散点图,可得z与x正相关,所以,根据纵截距大于0,可得a的范围,即可得答案.
【详解】因为,令,则z与x的回归方程为.
根据散点图可知z与x正相关,所以.
由回归直线图象可知:回归直线的纵截距大于0,即,
所以,
故选:A.
2.某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关,面向全体学生开展了一次随机调查,其中参加调查的男、女生人数相同,并绘制成等高条形图(如图所示),则下列说法正确的是( )
参考公式:,.
A.参与调查的学生中喜欢攀岩的女生人数比喜欢攀岩的男生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参与调查的男、女生人数均为100人,则能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关
D.无论参与调查的男、女生人数为多少,都能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关
【答案】C
【分析】A选项,根据男生女生参加调查人数相同和喜欢攀岩的人数比例,得到喜欢攀岩的男生人数比喜欢攀岩的女生多;B选项,参与调查的女生中喜欢攀岩的人数占30%,不喜欢攀岩的人数占70%,从而作出判断;C选项,列出列联表,计算卡方,与6.635比较大小得到结论;D选项,如果不确定参与调查的男、女生人数,无法计算,故D选项错误.
【详解】对于选项A:因为参加调查的男、女生人数相同,而男生中喜欢攀岩的占80%,女生中喜欢攀岩的占30%,所以参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多,所以选项A错误;
对于选项B:参与调查的女生中喜欢攀岩的人数占30%,不喜欢攀岩的人数占70%,所以参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数少,所以选项B错误;
对于选项C:若参与调查的男、女生人数均为100人,根据图表,列出2×2列联表如下:
所以,
所以在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关,C正确;
对于选项D:如果不确定参与调查的男、女生人数,无法计算,D错误.
故选:C.
3.新能源汽车的核心部件是动力电池,电池占了新能源整车成本的大头,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格一路水涨船高,下表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:
根据表中数据,得出y关于x的经验回归方程为,根据数据计算出在样本点处的残差为,则表中______.
【答案】#
【分析】根据残差的定义用观测值减去预测值,列方程求参数a,再根据样本中心在回归方程上求m值.
【详解】由题设,,可得.
又,,
所以,可得.
故答案为:
4.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量(=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中,.
(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)已知这种产品的年利率与、的关系为.根据(Ⅱ)的结果回答下列问题:
(i)年宣传费时,年销售量及年利润的预报值是多少?
(ii)年宣传费为何值时,年利率的预报值最大?
附:对于一组数据,,……,,其回归线的斜率和截距的最小二乘估计分别为:、
【答案】(1)适合
(2)
(3)46.24
【分析】(1)根据散点图中点的变化趋势判断回归方程的类型;
(2)利用最小二乘法求回归方程系数,即可得回归方程;
(3)根据回归方程估计的销售量和利润,结合二次函数性质求年利润的预报值最大时的值.
(1)解:由散点图知:各点呈非线性递增趋势,所以作为回归方程比较合适.
(2)解:由,则,由,,则,所以.
(3)解:①当时,;此时年利润千元.②由题意,,所以,当,即时,年利润的预报值最大.
方式方法
计算公式
刻画效果
越接近于1,表示回归的效果越好
残差图
称为相应于点的残差,
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和
残差平方和越小,模型的拟合效果越好
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
年份
2015
2016
2017
2018
2019
2020
2021
x
2
3
4
6
8
10
13
y
15
22
27
40
48
54
60
回归模型
模型①
模型②
79.13
18.86
海水浓度x(%)
3
4
5
6
7
亩产量y(t)
0.56
0.52
0.46
0.35
0.31
残差
0.01
m
n
0.01
月份x
1
2
3
4
5
6
收入y
6
11
23
37
72
124
3.5
45.5
3.34
17.5
393.5
10.63
239.85
温度x/℃
20
22
25
27
29
31
35
产卵数y/个
7
11
21
24
65
114
325
189
567
25.27
162
78106
11.06
3040
41.86
825.09
文科生
理科生
合计
优秀
4
不优秀
合计
160
0.15
0.10
0.05
0.025
0.01
2.072
2.706
3.841
5.024
6.635
文科生
理科生
合计
优秀
4
28
32
不优秀
36
92
128
合计
40
120
160
非体育迷
体育迷
总计
男
女
10
55
总计
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
非体育迷
体育迷
总计
男
30
15
45
女
45
10
55
总计
75
25
100
0.15
0.10
0.05
0.025
0.010
2.072
2.076
3.841
5.024
6.635
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
0.050
0.010
0.001
k
3.841
6.635
10.828
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
0.05
0.01
3.841
6.635
喜欢
不喜欢
合计
男
80
20
100
女
30
70
100
合计
110
90
200
月份代码
1
2
3
4
5
碳酸锂价格(万元/kg)
0.5
0.6
1
1.5
46.6
563
6.8
289.8
1.6
1469
108.8
高考数学一轮复习【考点题型归纳讲练】导学案(新高考专用)第1课时数列的概念及简单表示(原卷版+解析): 这是一份高考数学一轮复习【考点题型归纳讲练】导学案(新高考专用)第1课时数列的概念及简单表示(原卷版+解析),共29页。
高考数学一轮复习【考点题型归纳讲练】导学案(新高考专用)第1课时导数的概念与运算(原卷版+解析): 这是一份高考数学一轮复习【考点题型归纳讲练】导学案(新高考专用)第1课时导数的概念与运算(原卷版+解析),共31页。
高考数学一轮复习【考点题型归纳讲练】导学案(新高考专用)第1课时向量的概念及线性运算(原卷版+解析): 这是一份高考数学一轮复习【考点题型归纳讲练】导学案(新高考专用)第1课时向量的概念及线性运算(原卷版+解析),共28页。