


还剩12页未读,
继续阅读
所属成套资源:2020高考理科数学北师大版一轮复习教学案()
成套系列资料,整套一键下载
2020版新一线高考理科数学(北师大版)一轮复习教学案:第9章第4节变量间的相关关系与统计案例
展开
第四节 变量间的相关关系与统计案例
[考纲传真] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a,b是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
4.独立性检验
设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=;变量B:B1,B2=.
2×2列联表
B
A
B1
B2
总计
A1
a
b
a+b
A2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个统计量
χ2=.
利用统计量χ2来判断“两个分类变量有关系”的方法称为独立性检验.
1.回归直线必过样本点的中心(,).
2.当两个变量的相关系数|r|=1时,两个变量呈函数关系.
[基础自测]
1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)通过回归直线方程y=bx+a可以估计预报变量的取值和变化趋势.( )
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越大.( )
[答案] (1)√ (2)√ (3)× (4)√
2.为了调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.要检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
C [“近视”与“性别”是两类变量,其是否相关,应用独立性检验判断.]
3.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),若自变量的值为10,则因变量的值约为( )
A.16.3 B.17.3
C.12.38 D.2.03
C [设回归直线方程为y=bx+a,根据已知得5=1.23×4+a,所以a=0.08,所以当x=10时,y=1.23×10+0.08=12.38.]
4.下面是一个2×2列联表
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
则表中a,b处的值分别为________.
52,54 [因为a+21=73,所以a=52.又因为a+2=b,所以b=54.]
5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025.
根据表中数据,得到χ2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为________.
5% [χ2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]
相关关系的判断
1.已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
C [由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.]
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
A [由相关系数的定义以及散点图可知r2<r4<0<r3<r1.]
[规律方法] 判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归直线方程中:b>0时,正相关;b<0时,负相关.
回归分析
【例1】 (2018·广州一模)某地1~10岁男童年龄xi(岁)与身高的中位数yi(cm)(i=1,2,…,10)如下表:
x/岁
1
2
3
4
5
6
7
8
9
10
y/cm
76.5
88.5
96.8
104.1
111.3
117.7
124.0
130.0
135.4
140.2
对上表的数据作初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(yi-)2
(xi-)(yi-)
5.5
112.45
82.50
3 947.71
566.85
(1)求y关于x的线性回归方程(回归方程系数精确到0.01);
(2)某同学认为,y=px2+qx+r更适宜作为y关于x的回归方程类型,他求得的回归方程是y=-0.30x2+10.17x+68.07.经调查,该地11岁男童身高的中位数为145.3 cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?
附:回归方程y=a+bx中的斜率和截距的最小二乘估计公式分别为b=,a=-b.
[解] (1)b==≈6.87,
a=-b≈112.45-6.87×5.5≈74.67,
所以y关于x的线性回归方程为y=6.87x+74.67.
(2)若回归方程为y=6.87x+74.67,
当x=11时,y=150.24.
若回归方程为y=-0.30x2+10.17x+68.07,
当x=11时,y=143.64.
因为|143.64-145.3|=1.66<|150.24-145.3|=4.94,
所以回归方程y=-0.30x2+10.17x+68.07对该地11岁男童身高中位数的拟合效果更好.
[规律方法] 1.求回归直线方程的步骤
2.(1)若已知回归直线方程(方程中无参数)进行预测时,把变量x代入回归直线方程即可对变量y进行估计.
(2)若回归直线方程中有参数,则根据回归直线一定经过点(,)求出参数值,得到回归直线方程,进而完成预测.
(1)(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为y=bx+a.已知xi=225,yi=1 600,b=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163
C.166 D.170
(2)(2016·全国卷Ⅲ)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1-7分别对应年份2008-2014.
①由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
②建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,回归方程y=a+bt中斜率和截距的最小二乘估计公式分别为b=,a=-b.
(1)C [∵xi=225,∴=xi=22.5.
∵yi=1 600,∴=yi=160.
又b=4,∴a=-b=160-4×22.5=70.
∴回归直线方程为y=4x+70.
将x=24代入上式得y=4×24+70=166.
故选C.]
(2)[解] ①由折线图中的数据和附注中的参考数据得
=4, (ti-)2=28,=0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,
所以r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
②由=≈1.331及①得
b==≈0.103.
a=-b≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为y=0.92+0.10t.
将2016年对应的t=9代入回归方程得y=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
独立性检验
【例2】 (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:χ2=,
P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
[解] (1)第二种生产方式的效率更高.
理由如下:
(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,答出其中任意一种或其他合理理由均可)
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于χ2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
[规律方法] 1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式χ2=计算χ2的观测值k;
(3)比较观测值k与临界值的大小关系,作统计推断.
某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:
使用智能手机
不使用智能手机
合计
学习成绩优秀
4
8
12
学习成绩不优秀
16
2
18
估计
20
10
30
附表:
P(χ2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
经计算χ2的值为10,则下列选项正确的是( )
A.有99.5%的把握认为使用智能手机对学习有影响
B.有99.5%的把握认为使用智能手机对学习无影响
C.有99.9%的把握认为使用智能手机对学习有影响
D.有99.9%的把握认为使用智能手机对学习无影响
A [依题意,注意到7.879<10<10.828,因此有99.5%的把握认为使用智能手机对学习有影响,故选A.]
1.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)·(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,w]=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β=,α=-β.
[解] (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于d===68,
c=-d =563-68×6.8=100.6,
所以y关于w的线性回归方程为y=100.6+68w,
因此y关于x的回归方程为y=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值y=100.6+68=576.6,
年利润z的预报值z=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
z=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,z取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
2.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:
P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
χ2=.
[解] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
χ2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为
(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为
(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法产量的中位数的估计值为
50+≈52.35(kg).
第四节 变量间的相关关系与统计案例
[考纲传真] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a,b是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
4.独立性检验
设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=;变量B:B1,B2=.
2×2列联表
B
A
B1
B2
总计
A1
a
b
a+b
A2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个统计量
χ2=.
利用统计量χ2来判断“两个分类变量有关系”的方法称为独立性检验.
1.回归直线必过样本点的中心(,).
2.当两个变量的相关系数|r|=1时,两个变量呈函数关系.
[基础自测]
1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)通过回归直线方程y=bx+a可以估计预报变量的取值和变化趋势.( )
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越大.( )
[答案] (1)√ (2)√ (3)× (4)√
2.为了调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.要检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
C [“近视”与“性别”是两类变量,其是否相关,应用独立性检验判断.]
3.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),若自变量的值为10,则因变量的值约为( )
A.16.3 B.17.3
C.12.38 D.2.03
C [设回归直线方程为y=bx+a,根据已知得5=1.23×4+a,所以a=0.08,所以当x=10时,y=1.23×10+0.08=12.38.]
4.下面是一个2×2列联表
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
则表中a,b处的值分别为________.
52,54 [因为a+21=73,所以a=52.又因为a+2=b,所以b=54.]
5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025.
根据表中数据,得到χ2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为________.
5% [χ2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]
相关关系的判断
1.已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
C [由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.]
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
A [由相关系数的定义以及散点图可知r2<r4<0<r3<r1.]
[规律方法] 判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归直线方程中:b>0时,正相关;b<0时,负相关.
回归分析
【例1】 (2018·广州一模)某地1~10岁男童年龄xi(岁)与身高的中位数yi(cm)(i=1,2,…,10)如下表:
x/岁
1
2
3
4
5
6
7
8
9
10
y/cm
76.5
88.5
96.8
104.1
111.3
117.7
124.0
130.0
135.4
140.2
对上表的数据作初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(yi-)2
(xi-)(yi-)
5.5
112.45
82.50
3 947.71
566.85
(1)求y关于x的线性回归方程(回归方程系数精确到0.01);
(2)某同学认为,y=px2+qx+r更适宜作为y关于x的回归方程类型,他求得的回归方程是y=-0.30x2+10.17x+68.07.经调查,该地11岁男童身高的中位数为145.3 cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?
附:回归方程y=a+bx中的斜率和截距的最小二乘估计公式分别为b=,a=-b.
[解] (1)b==≈6.87,
a=-b≈112.45-6.87×5.5≈74.67,
所以y关于x的线性回归方程为y=6.87x+74.67.
(2)若回归方程为y=6.87x+74.67,
当x=11时,y=150.24.
若回归方程为y=-0.30x2+10.17x+68.07,
当x=11时,y=143.64.
因为|143.64-145.3|=1.66<|150.24-145.3|=4.94,
所以回归方程y=-0.30x2+10.17x+68.07对该地11岁男童身高中位数的拟合效果更好.
[规律方法] 1.求回归直线方程的步骤
2.(1)若已知回归直线方程(方程中无参数)进行预测时,把变量x代入回归直线方程即可对变量y进行估计.
(2)若回归直线方程中有参数,则根据回归直线一定经过点(,)求出参数值,得到回归直线方程,进而完成预测.
(1)(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为y=bx+a.已知xi=225,yi=1 600,b=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163
C.166 D.170
(2)(2016·全国卷Ⅲ)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1-7分别对应年份2008-2014.
①由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
②建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,回归方程y=a+bt中斜率和截距的最小二乘估计公式分别为b=,a=-b.
(1)C [∵xi=225,∴=xi=22.5.
∵yi=1 600,∴=yi=160.
又b=4,∴a=-b=160-4×22.5=70.
∴回归直线方程为y=4x+70.
将x=24代入上式得y=4×24+70=166.
故选C.]
(2)[解] ①由折线图中的数据和附注中的参考数据得
=4, (ti-)2=28,=0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,
所以r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
②由=≈1.331及①得
b==≈0.103.
a=-b≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为y=0.92+0.10t.
将2016年对应的t=9代入回归方程得y=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
独立性检验
【例2】 (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:χ2=,
P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
[解] (1)第二种生产方式的效率更高.
理由如下:
(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,答出其中任意一种或其他合理理由均可)
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于χ2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
[规律方法] 1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式χ2=计算χ2的观测值k;
(3)比较观测值k与临界值的大小关系,作统计推断.
某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:
使用智能手机
不使用智能手机
合计
学习成绩优秀
4
8
12
学习成绩不优秀
16
2
18
估计
20
10
30
附表:
P(χ2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
经计算χ2的值为10,则下列选项正确的是( )
A.有99.5%的把握认为使用智能手机对学习有影响
B.有99.5%的把握认为使用智能手机对学习无影响
C.有99.9%的把握认为使用智能手机对学习有影响
D.有99.9%的把握认为使用智能手机对学习无影响
A [依题意,注意到7.879<10<10.828,因此有99.5%的把握认为使用智能手机对学习有影响,故选A.]
1.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)·(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,w]=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β=,α=-β.
[解] (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于d===68,
c=-d =563-68×6.8=100.6,
所以y关于w的线性回归方程为y=100.6+68w,
因此y关于x的回归方程为y=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值y=100.6+68=576.6,
年利润z的预报值z=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
z=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,z取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
2.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:
P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
χ2=.
[解] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
χ2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为
(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为
(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法产量的中位数的估计值为
50+≈52.35(kg).
相关资料
更多