高中数学人教A版 (2019)选择性必修 第三册8.1 成对数据的相关关系优秀导学案
展开1.结合实例,会通过相关系数比较多组成对数据的相关性.
2.了解样本相关系数与标准化数据向量夹角的关系.
重点难点
1.重点:一元线性回归模型的基本思想,经验回归方程,最小二乘法.
2.难点:求最小二乘估计,残差分析.
课前预习 自主梳理
知识点一 相关关系的刻画
1.散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
2.样本相关系数
(1)我们常用样本相关系数r来确切地反映成对样本数据(xi,yi)的相关程度,
其中r=.
(2)样本相关系数r的取值范围为[-1,1].
①若r>0时,成对样本数据正相关;
②若r<0时,成对样本数据负相关;
③当|r|越接近1时,成对样本数据的线性相关程度越强;
④当|r|越接近0时,成对样本数据的线性相关程度越弱.
知识点二 相关系数r的性质
(1)当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.
(2)样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
知识点三 样本相关系数与标准化数据向量夹角的关系
r=eq \f(1,n)x′·y′=eq \f(1,n)|x′||y′|cs θ=cs θ(其中x′=(x1′,x2′,…,xn′),y′=(y1′,y2′,…,yn′),|x′|=|y′|=eq \r(n),θ为向量x′和向量y′的夹角).
自主检测
1.判断正误,正确的画“√”,错误的画“×”.
回归分析中,若r=±1说明x,y之间具有完全的线性关系.( )
若r=0,则说明成对样本数据间是函数关系.( )
样本相关系数r的范围是r∈(-∞,+∞).( )
变量之间只有函数关系,不存在相关关系.( )
两个变量之间产生相关关系的原因受许多不确定的随机因素的影响.( )
两个变量的相关系数越大,它们的相关程度越强.( )
若相关系数r=0,则两变量x,y之间没有关系.( )
【答案】(1)√(2)×(3)×(4)×(5)√(6)×(7)×
2.在线性回归模型中相关指数越大,则模型的拟合效果( )
A.越差B.越好
C.与拟合效果的好坏没有关系D.三者都不正确
【答案】B
【分析】根据相关指数的概念分析判断.
【详解】因为相关指数,且越接近于1,拟合效果越好,
即相关指数越大,拟合效果越好.
故选:B.
3.在一组样本数据,,…,(不全相等)的散点图中,若所有样本点()都在直线上,则这组样本数据的样本相关系数为
A.-1B.0C.2D.1
【答案】D
【解析】由所有数据的样本点都在一条直线上,这组样本数据完全相关,其相关系数为1,得出结果.
【详解】在一组样本数据的散点图中,所有样本点(xi,yi)(i=1,2,…,n)都在一条直线y=2x+1上,
那么这组样本数据完全正相关,且相关系数为1.
故选D.
【点睛】本题考查了线性相关的判断问题,也考查了线性相关系数的应用问题,属于基础题.
4.某学校开展研究性学习活动,某同学获得一组实验数据如下表:
对于表中数据,现给出以下拟合曲线,其中拟合程度最好的是( )
A.B.C.D.
【答案】D
【分析】根据所给选项分析利用拟合曲线所得数据与所给数据的关系求解.
【详解】由实验数据知,相邻的自变量之差大约为1,相邻的函数值之差大约为2.5、3.5、4.5、6,基本上是逐渐增加的,在增函数中二次曲线拟合程度最好;
另,也可比较四个函数值的大小,可以采用特殊值代入法.可取x=4,经检验易知比较适合.
故选:D
5.对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是( )
A.0.2B.0.8C.-0.98D.-0.7
【答案】C
【分析】由相关系数的绝对值越大,越具有强大相关性,即可求解
【详解】∵相关系数的绝对值越大,越具有强大相关性,
C相关系数的绝对值最大约接近1,
∴C拟合程度越好.故选:C
新课导学
学习探究
环节一 创设情境,引入课题
通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等.散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.
能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
对于变量x和变量y,设经过随机抽样获得的成对样本数据为,,…,,其中,,…,和,,…,的均值分别为和.将数据以为零点进行平移,得到平移后的成对数据为
,,…,.
并绘制散点图.
【师生活动】观察撒点图代表的数据的正负大小等特征,并根据特征尝试进行构造统计量。
预设结果:没有明显的特征
【师生活动】对数据进行中心化处理再观察数值特征
利用上述方法处理表8.1-1中的数据,得到图8.1-3.我们发现,这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号.显然,这样的规律是由人体脂肪含量与年龄正相关所决定的.
环节二 观察分析,感知概念
一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如图8.1-4(1)所示;如果变量x和y负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如图8.1-4(2)所示.
预设结果:线性负相关:基本异号;线性正相关:基本同号
思考:根据上述分析.你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?
从上述讨论得到启发,利用散点的横、纵坐标是否同号,可以构造一个量
.
一般情形下,表明成对样本数据正相关;表明成对样本数据负相关.
环节三 抽象概括,形成概念
思考:你认为的大小一定能度量出成对样本数据的相关程度吗?
因为的大小与数据的度量单位有关,所以不宜直接用它度量成对样本数据相关程度的大小.例如,在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米,则相应的将变为原来的100倍,但单位的改变并不会导致体重与身高之间相关程度的改变.
追问3 如果数据的单位发生变化,上面的统计量是否仍适用?
为了消除度量单位的影响,需要对数据作进一步的“标准化”处理.我们用
,.
分别除和,得
,,…,,
为简单起见,把上述“标准化”处理后的成对数据分别记为
,,…,.
仿照的构造,可以得到
. (1)
【师生活动】用具体的实例进行验证。在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高单位由米改为厘米,单位的改变不会改变体重与身高之间的相关程度。考查的变化。
我们称r为变量x和变量y的样本相关系数(sample crrelatin cefficient).
这样,我们利用成对样本数据构造了样本相关系数r.样本相关系数r是一个描述成对样本数据的数字特征,它的正负性和绝对值的大小可以反映成对样本数据的变化特征:
问题4样本相关系数r的正负能反映出成对变量的什么关系?
当时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
当时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
问题5样本相关系数r的取值与成对样本数据的相关程度有什么内在联系?
那么,样本相关系数r的大小与成对样本数据的相关程度有什么内在联系呢?为此,我们先考察一下r的取值范围.
【设计意图】从创设认知需求,从学生的已有经验出发,层层引导,让学生经历构造一个新的统 计量的过程,体会用数据描述客观事实的精确性,以及数学的合理性和严谨性。
【师生活动】类比向量的数量积进行研究。
观察r的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,我们将向量的维数推广到n维,n维向量,的数量积仍然定义为
,
其中为向量,的夹角.类似于平面或空间向量的坐标表示,
对于向量和,我们有
.
设“标准化”处理后的成对数据,,…,的第一分量构成n维向量
,
第二分量构成n维向量
,
则有
.
因为,所以样本相关系数
,
其中为向量和向量的夹角.
由,可知
.
环节四 辨析理解 深化概念
思考:当时,成对样本数据之间具有怎样的关系呢?
当时,中的或,向量和向量共线.由向量的知识可知,存在实数,使得
,即
.
这表明成对样本数据都落在直线
,.
上.这时,成对样本数据的两个分量之间满足一种线性关系.
由此可见,样本相关系数的取值范围为.样本相关系数的绝对值大小可以反映成对样本数据之间线性相关的程度:
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
样本相关系数有时也称样本线性相关系数,刻画了样本点集中于某条直线的程度.当时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
图8.1-5是不同成对样本数据的散点图和相应的样本相关系数.图(1)中的散点有明显的从左下角到右上角沿直线分布的趋势,说明成对样本数据呈现出线性相关关系;样本相关系数,表明成对样本数据的正线性相关程度很强.图(2)中的散点有明显的从左上角到右下角沿直线分布的趋势,说明成对样本数据也呈现出线性相关关系;样本相关系数,表明成对样本数据的负线性相关程度比较强.从样本相关系数来看,图(1)中成对样本数据的线性相关程度要比图(2)中强一些;图(3)和图(4)中的成对样本数据的线性相关程度很弱,其中图(4)中成对样本数据的线性相关程度极弱.
综上可知,两个随机变量的相关性可以通过成对样本数据进行分析,而样本相关系数r可以反映两个随机变量之间的线性相关程度:r的符号反映了相关关系的正负性;的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度.
在有限总体中,若要确切地了解两个变量之间相关关系的正负性及线性相关的程度,我们可以利用这两个变量取值的所有成对数据,通过公式(1)就可以计算出两个变量的相关系数.例如,要确切了解脂肪含量y与年龄x的线性相关程度,需要调查所有人的年龄及其脂肪含量,再将得到的成对数据代入公式(1),计算出相关系数.这个相关系数就能确切地反映变量之间的相关程度.
不过,在实际中,获得总体中所有的成对数据往往是不容易的.因此,我们还是要用样本估计总体的思想来解决问题.也就是说,我们先要通过抽样获取两个变量的一些成对样本数据,再计算出样本相关系数,通过样本相关系数去估计总体相关系数,从而了解两个变量之间的相关程度.对于简单随机样本而言,样本具有随机性,因此样本相关系数r也具有随机性.一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.
【师生活动】根据式子特征进行分析。
【设计意图】让学生经历概念的自主建构过程,并让学生体会r的完备性与纯粹性。
环节五 概念应用,巩固内化
例1根据表8.1-1中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
解:先画出散点图,如图8.1-1所示.观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关.
根据样本相关系数的定义,
①
利用计算工具计算可得
,,,,.
代入①式,得
.
由样本相关系数,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.
利用统计软件计算样本相关系数,Excel软件用函数CORREL;R软件用函数cr.
【师生活动】教师带领学生一起计算,提醒学生答题的规范性和得分点。
例2有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如表8.1-2所示.
表8.1-2
画出散点图,推断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.
解:画出成对样本数据的散点图,如图8.1-6所示.从散点图看,A商品销售额与居民年收入的样本数据呈现出线性相关关系.
由样本数据计算得样本相关系数.由此可以推断,A商品销售额与居民年收入正线性相关,即A商品销售额与居民年收入有相同的变化趋势,且相关程度很强.
【师生活动】一名学生上台板演,其余学生写在作业本上。师生共同批改和纠错。
例3 在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如表8.1-3所示.
表8.1-3
体重与身高、臂展与身高分别具有怎样的相关性?
解:根据样本数据画出体重与身高、臂展与身高的散点图,分别如图8.1-7(1)和(2)所示,两个散点图都呈现出线性相关的特征.
通过计算得到体重与身高、臂展与身高的样本相关系数分别约为0.34和0.78,都为正线性相关.其中,臂展与身高的相关程度更高.
环节六 归纳总结,反思提升
本节课学习的概念有哪些?
(1)一元线性回归模型;(2)最小二乘法.(3)残差.
在解决问题时,用到了哪些数学思想?
思想方法数形结合.
【设计意图】梳理本节课的研究问题和研究思路,让学生不仅掌握知识和技能,还学会一种新的统 计量的研究路径。
环节七目标检测,作业布置
完成教材:第103页练习第3,4题.
备用练习
1.为研究女儿身高与母亲身高的关系,现经过随机抽样获得成对样本数据,,下列说法正确的是( )
A.落在回归直线上的样本点越多,回归直线方程的拟合效果越好
B.样本相关系数越大,变量线性相关程度越强
C.决定系数越小,残差平方和越大,模型的拟合效果越好
D.决定系数越大,残差平方和越小,模型的拟合效果越好
【答案】BD
【分析】根据变量间的相关关系中,决定系数或相关系数的意义进行判断即可.
【详解】对于A:回归直线方程拟合效果的好坏是由决定系数来判断的,故A错误;
对于B:因为,且相关系数越接近,变量线性相关程度越强,故B正确;
对于C:决定系数越小,残差平方和越大,模型的拟合效果越差,故C错误;
对于D:决定系数越大,残差平方和越小,模型的拟合效果越好,故D正确.
故选:BD.
2.(多选)为了检验变量与的线性相关程度,由样本点、、、,求得两个变量的样本相关系数为,则下列说法正确的是( )
A.若所有样本点都在直线上,则
B.若所有样本点都在直线上,则
C.若越大,则变量与的线性相关程度越强
D.若越小,则变量与的线性相关程度越强
【答案】BC
【分析】利用相关系数的定义与性质可判断各选项的正误.
【详解】若所有样本点都在直线上,则,A错B对;
若越大,则变量与的线性相关程度越强,
若越小,则变量与的线性相关程度越若,C对D错.
故选:BC.
3.下列命题:
①相关指数越小,则残差平方和越小,模型的拟合效果越好.
②在的列联表中我们可以通过等高条形图直观判断两个变量是否有关.
③残差点比较均匀地落在水平带状区域内,带状区域越窄,说明模型拟合精度越高.
④两个随机变量相关性越强,则相关系数r越接近1.
其中正确命题的个数为( ).
A.1B.2C.3D.4
【答案】B
【分析】对用来衡量拟合效果好坏的几个量,即相关指数、残差平方和及残差图中带状区域的宽窄进行分析;随机变量相关性强弱,用相关系数的绝对值大小来体现;在独立性检验中,可用两等高条形图直观判断两个变量是否有关.
【详解】①相关指数越小,则残差平方和越大,
模型的拟合效果不好,所以错误;
②在的列联表中我们可以通过等高条形图直观判断两个变量是否有关,
所以正确;
③残差点比较均匀地落在水平带状区域内,
带状区域越窄,说明模型拟合精度越高,所以正确;
④两个随机变量相关性越强,则相关系数r的绝对值越接近1,
所以错误.
故选:B.
【点睛】本题考查回归分析、独立性检验,解题的关键是理解拟合效果的几个量的大小反映拟合效果的好坏,属于基础题.
4.在一组样本数据(,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的样本相关系数为( )
A.B.1C.D.
【答案】B
【解析】根据样本数据的所有样本点都在一条直线上,得出这组样本数据完全相关,再根据直线的斜率得出是正相关还是负相关即可.
【详解】解:这组样本数据的所有样本点都在直线上,
这组样本数据完全相关,
即说明这组数据的样本完全正相关,其相关系数是1.
故选:B.
【点睛】本题考查变量的正负相减,一般在散点图中,所有点都在一条斜率为正的直线,则这两个变量正相关,如果所有点在一条斜率为负的直线附近,则这两个变量呈负相关.
5.下列说法错误的是( )
A.回归直线过样本点的中心.
B.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小
C.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1
D.在回归直线方程=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量平均增加0.2个单位
【答案】B
【解析】利用线性回归的有关知识即可判断出.
【详解】A.回归直线过样本点的中心,故A正确;
B.对分类变量X与Y的随机变量K2的观测值k来说,k越大,“X与Y有关系”可信程度越大,故B不正确;
C.两个随机变量相关性越强,则相关系数的绝对值越接近1,故C正确;
D.在线性回归方程=0.2x+0.8中,当x每增加1个单位时,预报量平均增加0.2个单位,故D正确.
故选:B
【点睛】本题考查了线性回归的有关知识,考查了推理能力,属于基础题.
x
1.99
3
4
5.1
6.12
y
1.5
4.04
7.5
12
18.01
第n年
1
2
3
4
5
6
7
8
9
10
居民年收入/亿元
32.2
31.1
32.9
35.8
37.1
38.0
39.0
43.0
44.6
46.0
A商品销售额/万元
25.0
30.0
34.0
37.0
39.0
41.0
42.0
44.0
48.0
51.0
编号
身高/cm
体重/kg
臂展/cm
编号
身高/cm
体重/kg
臂展/cm
1
173
55
169
14
166
66
161
2
179
71
170
15
176
61
166
3
175
52
172
16
176
49
165
4
179
62
177
17
175
60
173
5
182
82
174
18
169
48
162
6
173
63
166
19
184
86
189
7
180
55
174
20
169
58
164
8
170
81
169
21
182
54
170
9
169
54
166
22
171
58
164
10
177
54
176
23
177
61
173
11
177
59
170
24
173
58
165
12
178
67
174
25
173
51
169
13
174
56
170
数学7.4 二项分布与超几何分布精品导学案: 这是一份数学<a href="/sx/tb_c4000359_t4/?tag_id=42" target="_blank">7.4 二项分布与超几何分布精品导学案</a>,文件包含人教A版数学高二选择性必修第三册742超几何分布导学案原卷版docx、人教A版数学高二选择性必修第三册742超几何分布导学案解析版docx等2份学案配套教学资源,其中学案共19页, 欢迎下载使用。
数学选择性必修 第三册7.1 条件概率与全概率公式优秀学案: 这是一份数学选择性必修 第三册<a href="/sx/tb_c4000356_t4/?tag_id=42" target="_blank">7.1 条件概率与全概率公式优秀学案</a>,文件包含人教A版数学高二选择性必修第三册711条件概率导学案原卷版docx、人教A版数学高二选择性必修第三册711条件概率导学案解析版docx等2份学案配套教学资源,其中学案共20页, 欢迎下载使用。
人教A版 (2019)选择性必修 第三册6.2 排列与组合精品学案设计: 这是一份人教A版 (2019)选择性必修 第三册<a href="/sx/tb_c4000352_t4/?tag_id=42" target="_blank">6.2 排列与组合精品学案设计</a>,文件包含人教A版数学高二选择性必修第三册624组合数导学案原卷版docx、人教A版数学高二选择性必修第三册624组合数导学案解析版docx等2份学案配套教学资源,其中学案共22页, 欢迎下载使用。