人教版高考数学一轮复习第10章统计与统计案例第3节变量间的相关关系与统计案例学案理含解析
展开第三节 变量间的相关关系与统计案例
[最新考纲] | [考情分析] | [核心素养] |
1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程. 3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. 4.了解回归分析的基本思想、方法及其简单应用. | 两个变量线性相关的判断及应用,回归直线方程的求法及应用,利用2×2列联表判断两个变量的相关关系是2021年高考考查的热点,题型为选择题或填空题,分值为5分.或者在解答题中综合考查,分值为12分. | 1.数学建模 2.数据分析 3.数学运算 |
‖知识梳理‖
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为=x+,其中=,=-.
(3)通过求Q= (yi-bxi-a)2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
| y1 | y2 | 总计 |
x1 | a | b | a+b |
x2 | c | d | c+d |
总计 | a+c | b+d | a+b+c+d |
K2=(其中n=a+b+c+d为样本容量).
►常用结论
(1)分类变量的取值一定是离散的,分类变量的取值有时可用数字来表示.
(2)分类变量也称为属性变量或定性变量,其不同取值仅表示个体属性的类别.
‖基础自测‖
一、疑误辨析
1.判断下列结论是否正确(请在括号中打“√”或“×”).
(1)散点图是判断两个变量是否相关的一种重要方法和手段.( )
(2)回归直线方程=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )
(3)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.( )
(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( )
答案:(1)√ (2)× (3)× (4)√
二、走进教材
2.(选修2-3P91探究改编)为调查中学生近视情况,测得某校150名男生中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
答案:C
3.(选修2-3P85讲解改编)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
答案:A
三、易错自纠
4.已知x,y取值如表:
x | 0 | 1 | 4 | 5 | 6 |
y | 1.3 | m | 3m | 5.6 | 7.4 |
画散点图分析可知:y与x线性相关,且求得回归方程为=x+1,则m的值(精确到0.1)为( )
A.1.5 B.1.6
C.1.7 D.1.8
解析:选C 由题意知,==3.2,将=3.2代入回归方程=x+1,可得=4.2,则4m=4.2×5-(1.3+5.6+7.4)=6.7,解得m≈1.7,故选C.
5.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了10次和15次试验,利用线性回归方法,求得分别为l1和l2的回归直线.已知两个人在试验中发现变量x的观测数据的平均值都是s,变量y的观测数据的平均值都是t,那么下列说法正确的是( )
A.l1和l2必定平行
B.l1和l2必定重合
C.l1和l2一定有公共点(s,t)
D.l1和l2相交,但交点不一定是(s,t)
解析:选C 回归直线必经过样本中心点(s,t).
6.(2019届阜阳质检)某班主任对全班30名男生进行了作业量多少的调查,数据如下表:
| 认为作业多 | 认为作业不多 | 总计 |
喜欢玩电脑游戏 | 12 | 8 | 20 |
不喜欢玩电脑游戏 | 2 | 8 | 10 |
总计 | 14 | 16 | 30 |
该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过________.
附:K2=.
P(K2>k0) | 0.050 | 0.010 | 0.001 |
k0 | 3.841 | 6.635 | 10.828 |
解析:计算得K2的观测值为k=≈4.286>3.841,则推断犯错误的概率不超过0.05.
答案:0.05
●命题角度一 线性回归分析
【例1】 (2019届邯郸质检)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:
(1)试问这3年的前7个月中哪个月的平均利润最高?
(2)通过计算判断这3年的前7个月的总利润的发展趋势;
(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估测第3年8月份的利润.
月份x | 1 | 2 | 3 | 4 |
利润y(单位:百万元) | 4 | 4 | 6 | 6 |
相关公式:=,=-.
[解] (1)由折线图可知5月和6月的平均利润最高.
(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元),第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元),第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元),∴这3年的前7个月的总利润呈上升趋势.
(3)∵==2.5,==5,12+22+32+42=30,1×4+2×4+3×6+4×6=54,∴==0.8,
∴=5-2.5×0.8=3,∴=0.8x+3,
∴当x=8时,=0.8×8+3=9.4,
∴估计第3年8月份的利润为940万元.
►名师点津
(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.
(2)回归直线方程=x+必过样本点中心(,).
(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
●命题角度二 非线性回归问题
【例2】 为了解某地区未成年男性身高x(单位:cm)与体重y(单位:kg)的关系,调查了该地区未成年男性身高为xi(i=1,2,…,10)的平均体重yi(i=1,2,…,10),如下表,并得到散点图及一些统计量的值.
身高x/cm | 60 | 75 | 90 | 100 | 115 | 125 | 135 | 150 | 160 | 170 |
体重y/kg | 6 | 8 | 12 | 16 | 19 | 22 | 30 | 42 | 52 | 63 |
zi=log2yi,=4.4,zixi=5 548,26.1=68.6,26.2=73.5.
(1)根据散点图发现样本点分布在函数y=2cx+d表示的曲线周围,请根据所给数据建立y与x的回归方程(小数点后保留两位数字);
(2)若体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,请根据回归方程估计这个地区一名身高为175 cm,体重为80 kg的未成年男性的体重是否正常?
(3)根据散点图还可以发现样本点分布在二次函数y=mx2+n表示的曲线周围,如何判断用函数y=2cx+d还是函数y=mx2+n拟合体重与身高关系的效果较好?(只需给出判断的方法即可)
附:对于一组具有线性相关关系的数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=+u的斜率和截距的最小二乘估计分别为
[解] (1)令z=log2y,则z=cx+d,=×(60+75+90+100+115+125+135+150+160+170)=118,x=602+752+902+1002+1152+1252+1352+1502+1602+1702=151 400,
则==≈0.03,
=-=4.4-0.03×118=0.86,所以z=0.03x+0.86.
所以y与x的回归方程为y=20.03x+0.86.
(2)把x=175代入y=20.03x+0.86,得y=20.03×175+0.86=26.11,因为26.1<26.11<26.2,所以68.6<26.11<73.5.
因为68.6×1.2=82.32>80>73.5×0.8=58.8,
所以这个未成年男性体重正常.
(3)令z=log2y,画出(xi,zi)(i=1,2,…,10)的散点图,令t=x2,画出(ti,yi)(i=1,2,…,10)的散点图,观察变换后的这两个散点图,若某个散点图中样本点分布在一条直线附近,则其对应的函数拟合效果较好;还可以计算两个回归方程的残差,残差的平方和越小,拟合效果越好.
►名师点津
非线性的回归方程一般通过换元法求解,对于指数型y=2cx+b,可令z=log2y,得到z=cx+b;对于二次型y=mx2+n,可令t=x2,得到y=mt+n.拟合效果可通过散点图、相关系数或残差来判断.
|跟踪训练|
1.某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.
表中ui=,=i.
(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01);
(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出,结果精确到1)
附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其回归直线v=+ω的斜率和截距的最小二乘估计分别为=.
解:(1)由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程.
(2)令u=,先建立y关于u的线性回归方程.
由于==≈8.957≈8.96,
∴=y-=3.63-8.957×0.269≈1.22,
∴y关于u的线性回归方程为=1.22+8.96u,
∴y关于x的回归方程为=1.22+.
(3)假设印刷x千册,依题意得10x-x≥78.840,解得x≥10,
∴至少印刷10 000册才能使销售利润不低于78 840元.
【例3】 (2019届河北名校联考)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
分组 | [29.86,29.90) | [29.90,29.94) | [29.94,29.98) | [29.98,30.02) |
频数 | 12 | 63 | 86 | 182 |
| ||||
分组 | [30.02,30.06) | [30.06,30.10) | [30.10,30.14) |
|
频数 | 92 | 61 | 4 |
|
乙厂:
分组 | [29.86,29.90) | [29.90,29.94) | [29.94,29.98) | [29.98,30.02) |
频数 | 29 | 71 | 85 | 159 |
| ||||
分组 | [30.02,30.06) | [30.06,30.10) | [30.10,30.14) |
|
频数 | 76 | 62 | 18 |
|
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据完成下面2×2列联表,并判断是否有99%的把握认为“两个分厂生产的零件的质量有差异”.
| 甲厂 | 乙厂 | 总计 |
优质品 |
|
|
|
非优质品 |
|
|
|
总计 |
|
|
|
附:K2=.
P(K2≥k) | 0.050 | 0.010 | 0.001 |
k | 3.841 | 6.635 | 10.828 |
[解] (1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为×100%=72%;
乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为×100%=64%.
(2)完成的2×2列联表如下:
| 甲厂 | 乙厂 | 总计 |
优质品 | 360 | 320 | 680 |
非优质品 | 140 | 180 | 320 |
总计 | 500 | 500 | 1 000 |
由表中数据计算得,
K2=≈7.353>6.635,
所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
►名师点津
解独立性检验的应用问题的关注点
(1)两个明确
①明确两类主体;
②明确研究的两个问题.
(2)两个关键
①准确画出2×2列联表;
②准确计算K2.
[提醒] 准确计算K2的值是正确判断的前提.
|跟踪训练|
2.(2019年全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出了满意或不满意的评价,得到下面列联表:
| 满意 | 不满意 |
男顾客 | 40 | 10 |
女顾客 | 30 | 20 |
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:K2=.
P(K2≥k) | 0.050 | 0.010 | 0.001 |
k | 3.841 | 6.635 | 10.828 |
解:(1)由调查数据知,男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.
女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)K2=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
【例】 (2019届河北石家庄二模)随着网络的发展,网上购物越来越受到人们的喜爱,各大购物网站为增加收入,促销策略越来越多样化,促销费用也不断增加.下表是某购物网站2017年1~8月份促销费用x(万元)和产品销量y(万件)的具体数据:
月份 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
促销费用x | 2 | 3 | 6 | 10 | 13 | 21 | 15 | 18 |
产品销量y | 1 | 1 | 2 | 3 | 3.5 | 5 | 4 | 4.5 |
(1)根据数据可知y与x具有线性相关关系,请建立y关于x的回归方程=x+(系数精确到0.01);
(2)已知6月份该购物网站为庆祝成立1周年,特制订奖励制度:用z(单位:件)表示日销量,若z∈[1 800,2 000),则每位员工每日奖励100元;若z∈[2 000,2 100),则每位员工每日奖励150元;若z∈[2 100,+∞),则每位员工每日奖励200元.现已知该网站6月份日销量z服从正态分布N(2 000,10 000),请你计算某位员工当月奖励金额总数大约为多少元.(当月奖励金额总数精确到百分位)
参考数据:xiyi=338.5,x=1 308,其中xi,yi分别为第i个月的促销费用和产品销量,i=1,2,3,…,8.
参考公式:①对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程=x+的斜率和截距的最小二乘估计分别为
②若随机变量Z服从正态分布N(μ,σ2),则P(μ-σ<Z<μ+σ)=0.682 7,P(μ-2σ<Z<μ+2σ)=0.954 5.
[解] (1)由题意可知=×(2+3+6+10+13+21+15+18)=11,=×(1+1+2+3+3.5+5+4+4.5)=3,
∴===≈0.22,
∴=-=3-0.22×11=0.58,
∴y关于x的回归方程为=0.22x+0.58.
(2)∵该网站6月份日销量z服从正态分布N(2 000,10 000),
∴P(1 800≤z<2 000)==0.477 25,
P(2 000≤z<2 100)==0.341 35,
P(z≥2 100)=0.5-0.341 35=0.158 65,
∴某位员工当月的奖励金额总数为30×(0.477 25×100+0.341 35×150+0.158 65×200)≈3 919.73(元).
►名师点津
回归分析常与概率、随机变量的分布、期望与方差等知识交汇应用,求解时注意知识交汇点的应用.
|跟踪训练|
(2019届湖南娄底二模)随着食品安全问题逐渐引起人们的重视,有机、健康的高端绿色蔬菜越来越受到消费者的欢迎,同时生产—运输—销售一体化的直销供应模式,不仅减少了成本,而且减去了蔬菜的二次污染等问题.
(1)在有机蔬菜的种植过程中,使用有机肥料是必不可少的.根据统计,某种有机蔬菜的产量与有机肥料的用量有关系,每个有机蔬菜大棚产量的增加量y(百千克)与使用堆沤肥料x(千克)之间对应数据如表:
使用堆沤肥料x(千克) | 2 | 4 | 5 | 6 | 8 |
产量增加量y(百千克) | 3 | 4 | 4 | 4 | 5 |
依据表中的数据,用最小二乘法求出y关于x的线性回归方程=x+,并根据所求线性回归方程估计如果每个有机蔬菜大棚使用堆沤肥料10千克,则每个有机蔬菜大棚产量增加量y是多少百千克;
(2)某大棚蔬菜种植基地将采摘的有机蔬菜以每份三千克称重并保鲜分装,以每份10元的价格销售到生鲜超市.“乐购”生鲜超市以每份15元的价格卖给顾客,如果当天前8小时卖不完,则超市通过促销以每份5元的价格卖给顾客(根据经验,当天能够把剩余的有机蔬菜都低价处理完毕,且处理完毕后,当天不再进货).该生鲜超市统计了100天有机蔬菜在每天的前8小时内的销售量(单位:份),制成如下表格(注:x,y∈N*,且x+y=30):
每日前8个小时销售量(单位:份) | 15 | 16 | 17 | 18 | 19 | 20 | 21 |
频数 | 10 | x | 16 | 16 | 15 | 13 | y |
若以100天记录的频率作为每日前8小时销售量发生的概率,以该生鲜超市当天销售有机蔬菜利润的期望为决策依据,当购进17份比购进18份的利润的期望大时,求x的取值范围.
附:回归方程斜率和截距公式=,=-.
解:(1)由题意知,==5,==4,xiyi=2×3+4×4+5×4+6×4+8×5=106,x=22+42+52+62+82=145,
所以==0.3,=4-0.3×5=2.5,
所以y关于x的线性回归方程为=0.3x+2.5.
当x=10时,=0.3×10+2.5=5.5,
所以如果每个有机蔬菜大棚使用堆沤肥料10千克,估计每个有机蔬菜大棚产量的增加量是550千克.
(2)若该超市一天购进17份这种有机蔬菜,设Y1表示当天的利润(单位:元),那么Y1的分布列为
Y1 | 65 | 75 | 85 |
P |
Y1的数学期望E(Y1)=65×+75×+85×=;
若该超市一天购进18份这种有机蔬菜,设Y2表示当天的利润(单位:元),那么Y2的分布列为
Y2 | 60 | 70 | 80 | 90 |
P |
Y2的数学期望E(Y2)=60×+70×+80×+90×=.
因为购进17份比购进18份的利润的期望大,
故>,解得x>24,故x的取值范围是(24,30)且x∈N*.
高考数学统考一轮复习第11章11.5变量间的相关关系与统计案例学案: 这是一份高考数学统考一轮复习第11章11.5变量间的相关关系与统计案例学案,共12页。学案主要包含了知识重温,小题热身等内容,欢迎下载使用。
高考数学(理数)一轮复习学案11.3《变量间的相关关系与统计案例》(含详解): 这是一份高考数学(理数)一轮复习学案11.3《变量间的相关关系与统计案例》(含详解),共15页。
高考数学统考一轮复习第9章统计与统计案例第3节变量间的相关关系统计案例学案: 这是一份高考数学统考一轮复习第9章统计与统计案例第3节变量间的相关关系统计案例学案,共12页。