(艺术生)高考数学一轮复习讲与练:考点51 变量间的相关关系与统计案例 (含解析)
展开考点五十一 变量间的相关关系与统计案例
知识梳理
1.相关关系
常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.散点图
通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.
3.正相关与负相关
从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
4.回归直线方程
(1)曲线拟合
从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合.
(2)线性相关
在两个变量x和y的散点图中,若所有点看上去都在一条直线附近波动,则称变量间是线性相关,这条直线叫回归直线.若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.
(3)最小二乘法
如果有n个点(x1,y1),(x2,y2),…,(xn,yn),可以用[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2来刻画这些点与直线y=a+bx的接近程度,使得上式达到最小值的直线y=a+bx就是所要求的直线,这种方法称为最小二乘法.
(4)回归方程
方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a,b是待定参数.
说明:回归直线必过样本中心(,),但是样本数据不一定在回归直线上,甚至可能所有的样本数据点都不在直线上.
5.相关系数
相关系数r= = ;
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.
6.独立性检验
设A,B为两个变量,每一个变量都可以取两个值,
变量A:A1,A2=1;变量B:B1,B2=1;
2×2列联表:
B1
B2
总计
A1
a
b
a+b
A2
c
d
c+d
总计
a+c
b+d
n=a+b+c+d
构造一个随机变量χ2=.
利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.
当χ2≤2.706时,没有充分的证据判定变量A,B有关联;
当χ2>2.706时,有90%的把握判定变量A,B有关联;
当χ>3.841时,有95%的把握判定变量A,B有关联;
当χ>6.635时,有99%的把握判定变量A,B有关联.
典例剖析
题型一 相关关系判断
例1 变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则________.
①r2
解析 对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,所以有r2<0
①y与x负相关且=2.347x-6.423; ②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493; ④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是________.
答案 ①④
解析 由回归直线方程=x+,知当>0时,x与y正相关,当<0时,x与y负相关,所以①④一定错误.
解题要点 判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.
题型二 回归分析
例2 已知x,y取值如下表:
x
0
1
4
5
6
8
y
1.3
1.8
5.6
6.1
7.4
9.3
从所得的散点图分析可知:y与x线性相关,且=0.95x+a,则a=________.
答案 1.45
解析 ∵==4,==5.25,
又=0.95x+a过(,),∴5.25=0.95×4+a,得a=1.45.
变式训练 已知x与y之间的一组数据:
x
0
1
2
3
y
m
3
5.5
7
已求得关于y与x的线性回归方程=2.1x+0.85,则m的值为________.
答案 0.5
解析 ==,==,把(,)代入线性回归方程,=2.1×+0.85,m=0.5.
解题要点 回归直线方程=x+必过样本点中心(,).利用这一结论,可以快速求出回归方程中的参数.
例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
解析 (1)由题意,作散点图如图.
(2)由对照数据,计算得iyi=66.5,
=32+42+52+62=86,
=4.5,=3.5,
===0.7,
=-=3.5-0.7×4.5=0.35,
所以回归方程为=0.7x+0.35.
(3)当x=100时,y=100×0.7+0.35=70.35(吨标准煤),预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).
变式训练 (2015新课标Ⅰ文)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量(单位:t)和年利润z(单位:千元)的影响,对近8年的宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)·
(yi-)
(wi-)·
(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,=i.
(I)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(II)根据(I)的判断结果及表中数据,建立y关于x的回归方程;
(III)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(II)的结果回答下列问题:
(i)当年宣传费时,年销售量及年利润的预报值时多少?
(ii)当年宣传费为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=- .
解析 (I)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(II)令w=,先建立y关于w的线性回归方程,由于
===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(III)(i)由(II)知,当x=49时,年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
(ii)根据(II)的结果知,年利润z的预报值=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时, 取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
解题要点 (1)正确运用计算b,a的公式和准确的计算,是求线性回归方程的关键.
(2)分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
(3) 求解回归方程关键是确定回归系数,,因求解的公式计算量太大,一般题目中给出相关的量,如,,x,xiyi等,便可直接代入求解.充分利用回归直线过样本中心点(,),即有y=+,可确定.
题型三 相关分析
例4 有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
b
乙班
c
30
总计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是________.
① 列联表中c的值为30,b的值为35
② 列联表中c的值为15,b的值为50
③ 根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”
④ 根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”
答案 ③
解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c=20,b=45,选项A、B错误.根据列联表中的数据,得到χ2=≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.
变式训练 在研究色盲与性别的关系调查中,调查了男性480人,其中有38人患色盲,调查的520名女性中,有6人患色盲.
(1)根据以上数据建立一个2×2列联表;
(2)若认为“性别与患色盲有关系”,求出错的概率.
解析 (1)2×2列联表如下:
患色盲
不患色盲
总计
男
38
442
480
女
6
514
520
总计
44
956
1 000
(2)假设H0:“性别与患色盲没有关系”,根据(1)中2×2列联表中数据,可求得
χ2=≈27.14,
又P(χ2≥10.828)=0.001,即H0成立的概率不超过0.001,故若认为“性别与患色盲有关系”,则出错的概率为0.1%.
解题要点 (1)独立性检验的关键是正确列出2×2列联表,并计算出χ2的值.
(2)弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.
当堂练习
1.(2015湖北文)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是________.
①x与y正相关,x与z负相关 ②x与y正相关,x与z正相关
③x与y负相关,x与z负相关 ④x与y负相关,x与z正相关
答案 ③
解析 因为y=-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设z=ay+b(a>0),所以z=-0.1ax+a+b,-0.1a<0,所以x与z负相关.
2.(2014·湖北卷) 根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=bx+a,则________.
①a>0,b<0 ②a>0,b>0 ③a<0,b<0 ④a<0,b>0
答案 ①
解析 作出散点图如下:
由图象不难得出,回归直线=bx+a的斜率b<0,截距a>0,所以a>0,b<0.
3. 通过随机询问110名大学生是否爱好某项运动,得到如下列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=,得K2=≈7.8.
附表:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
参照附表,得到的正确结论是________.
① 有99%以上的把握认为“爱好该项运动与性别有关”
② 有99%以上的把握认为“爱好该项运动与性别无关”
③ 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
④ 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
答案 ①
解析 因为7.8>6.635,所以选项①正确.
4.下列有关样本相关系数的说法不正确的是________.
①相关系数用来衡量变量x与y之间的线性相关程度
②|r|≤1,且|r|越接近于1,相关程度越大
③|r|≤1,且|r|越接近0,相关程度越小
④|r|≥1,且|r|越接近1,相关程度越小
答案 ④
5.两个相关变量满足如下关系:
x
10
15
20
25
30
y
1 003
1 005
1 010
1 011
1 014
则两变量的回归方程为________.
答案 =0.56x+997.4
解析 回归直线经过样本中心点(20,1 008.6),经检验只有选项A符合题意.
课后作业
一、 填空题
1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为_____.
答案 1
解析 根据相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.
2.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是______.
①y与x具有正的线性相关关系
②回归直线过样本点的中心(,)
③若该大学某女生身高增加1cm,则其体重约增加0.85kg
④若该大学某女生身高为170cm,则可断定其体重必为58.79kg
答案 ④
解析 由回归方程为=0.85x-85.71知随的增大而增大,所以y与x具有正的线性相关关系,由最小二乘法建立的回归方程得过程知,所以回归直线过样本点的中心(,),利用回归方程可以预测估计总体,所以④不正确.
3.(2015新课标II文)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图.以下结论不正确的是________.
① 逐年比较,2008年减少二氧化硫排放量的效果最显著
② 2007年我国治理二氧化硫排放显现成效
③2006年以来我国二氧化硫年排放量呈减少趋势
④2006年以来我国二氧化硫年排放量与年份正相关
答案 ④
解析 从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,①选项正确;
2007年二氧化硫排放量较2006年降低了很多,②选项正确;
虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,即③选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,④选项错误,故选④.
4.下面是一个2×2列联表
y1
y2
总计
x1
a
21
73
x2
22
25
47
合计
b
46
120
其中a,b处填的值分别为________.
答案 52 74
解析 由a+21=73,得a=52,a+22=b,得b=74.
5.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算K2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握性约为________.
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
答案 99%
解析 因为K2=8.01>6.635,所以有99%以上的把握认为“喜欢乡村音乐与性别有关系”.
6.下表提供了某厂节能降耗技术改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据:
x
3
4
5
6
y
2.5
t
4
4.5
根据上表提供的数据,求出y关于x的线性回归方程为 =0.7x+0.35,那么表中t的值为________.
答案 3
解析 由=0.7+0.35得=0.7×+0.35⇒=3.5⇒t=3.
7.(2014·江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是________.
表1 表2
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
视力
性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3 表4
智商
性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
阅读量
性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
答案 阅读量
解析 通过计算可得,表1中的χ2≈0.009,表2中的χ2≈1.769,表3中的χ2=1.300,表4中的χ2≈23.481.
8.已知某车间加工零件的个数x与所花费时间y(h)之间的线性回归方程为=0.01x+0.5,则加工600个零件大约需要的时间为________.
答案 6.5 h
解析 将600代入线性回归方程=0.01x+0.5中得需要的时间为6.5 h.
9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
合计
男
13
10
23
女
7
20
27
合计
20
30
50
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2的观测值k=≈4.844,则认为选修文科与性别有关系出错的可能性约为________.
答案 5%
解析 由K2的观测值k≈4.844>3.841,故认为选修文科与性别有关系出错的可能性约为5%.
10.考古学家通过始祖鸟化石标本发现:其股骨长度x(cm)与肱骨长度y(cm)的线性回归方程为=1.197x-3.660,由此估计,当股骨长度为50 cm时,肱骨长度的估计值为________cm.
答案 56.19
解析 根据回归方程=1.197x-3.660,将x=50代入,得y=56.19,则肱骨长度的估计值为56.19 cm.
11.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线的回归方程为________.
答案 =1.23x+0.08
解析 设回归直线方程为=1.23x+a,由题意得:5=1.23×4+a,得a=0.08,故回归方程为=1.23x+0.08.
二、解答题
12. (2013·重庆文)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭的月储蓄y对月收入x的线性回归方程y=bx+a;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程y=bx+a中,
b=,a=-b,其中,为样本平均值,
线性回归方程也可写为=x+.
解析 (1)由题意知n=10,=i==8,
=i==2,
又-n2=720-10×82=80,
iyi-n =184-10×8×2=24,
由此得b===0.3,
a=-b=2-0.3×8=-0.4,
故所求回归方程为=0.3x-0.4.
(2)由于变量y的值随x的值增加而增加(b=0.3>0),故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄约为y=0.3×7-0.4=1.7千元.
13.近年空气质量逐步恶化,雾霾天气现象出现增多,大气污染危害加重,大气污染可引起心悸,呼吸困难等心肺疾病,为了解某市心肺疾病是否与性别有关,在某医院随机对入院50人进行了问卷调查,得到了如下的列联表.
患心肺疾病
不患心肺疾病
合计
男
20
5
25
女
10
15
25
合计
30
20
50
(1)用分层抽样的方法在患心肺疾病的人群中抽6人,其中男性抽多少人?
(2)为了研究心肺疾病是否与性别有关,请计算出统计量K2,并回答有多大把握认为心肺疾病与性别有关?
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:K2=,其中n=a+b+c+d.
解析 (1)在患心肺疾病人群中抽6人,则抽取比例为=,∴男性应该抽取20×=4人.
(2)∵K2≈8.333,且P(K2≥7.879)=0.005=0.5%,所以有99.5%的把握认为患心肺疾病与性别有关系.
艺术生高考数学专题讲义:考点51 变量间的相关关系与统计案例: 这是一份艺术生高考数学专题讲义:考点51 变量间的相关关系与统计案例,共13页。试卷主要包含了相关关系,散点图,正相关与负相关,回归直线方程,相关系数,独立性检验等内容,欢迎下载使用。
艺术生高考数学专题讲义:考点51 变量间的相关关系与统计案例: 这是一份艺术生高考数学专题讲义:考点51 变量间的相关关系与统计案例,共13页。试卷主要包含了相关关系,散点图,正相关与负相关,回归直线方程,相关系数,独立性检验等内容,欢迎下载使用。
(艺术生)高考数学一轮复习讲与练:考点48 事件与概率 (含解析): 这是一份(艺术生)高考数学一轮复习讲与练:考点48 事件与概率 (含解析),共10页。试卷主要包含了随机事件和确定事件,频率与概率,事件的关系与运算,概率的几个基本性质,互斥事件与对立事件的区别与联系等内容,欢迎下载使用。