高端精品高中数学二轮专题-成对数据的统计分析(带答案)学案
展开成对数据的统计分析
题型1 相关关系的判断
【例1】对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
【例2】某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份 | 1 | 2 | 3 | 4 | 5 | 6 |
人均销售额 | 6 | 5 | 8 | 3 | 4 | 7 |
利润率(%) | 12.6 | 10.4 | 18.5 | 3.0 | 8.1 | 16.3 |
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
【跟踪训练1】已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
【跟踪训练2】在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
【跟踪训练3】变量X与Y相应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1 D.r2=r1
【方法总结】
判断相关关系的2种方法
(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.
题型2 回归分析
【例1】越接近高考学生焦虑程度越强,四个高三学生中大约有一个有焦虑症,经有关机构调查,得出距离高考周数与焦虑程度对应的正常值变化情况如下表:
周数x | 6 | 5 | 4 | 3 | 2 | 1 |
正常值y | 55 | 63 | 72 | 80 | 90 | 99 |
(1)作出散点图;
(2)根据上表数据用最小二乘法求出y关于x的线性回归方程=x+(精确到0.01);
(3)根据经验观测值为正常值的0.85~1.06为正常,若1.06~1.12为轻度焦虑,1.12~1.20为中度焦虑,1.20及其以上为重度焦虑,若为中度焦虑及其以上,则要进行心理疏导,若一个学生在距高考第二周时观测值为103,则该学生是否需要进行心理疏导?
其中=,iyi=1 452,=91,=-.
【例2】为了了解A地区足球特色学校的发展状况,某调查机构统计得到如下数据:
年份x | 2014 | 2015 | 2016 | 2017 | 2018 |
足球特色学校数y/百个 | 0.30 | 0.60 | 1.00 | 1.40 | 1.70 |
(1)根据表中数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱(已知:0.75≤|r|≤1,则认为y与x线性相关性很强;0.3≤|r|<0.75,则认为y与x线性相关性一般;|r|≤0.25,则认为y与x线性相关性较弱);
(2)求y关于x的线性回归方程,并预测A地区2019年足球特色学校的个数(精确到个).
参考公式及数据:r=,
(xi-)2=10,(yi-)2=1.3,≈3.605 6,
=,=-.
【跟踪训练1】某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:厘米),图1为选取的15名志愿者身高与臂展的折线图,图2为身高与臂展所对应的散点图,并求得其回归方程为=1.16x-30.75,以下结论中不正确的为( )
A.15名志愿者身高的极差小于臂展的极差
B.15名志愿者身高和臂展成正相关关系
C.可估计身高为190厘米的人臂展为189.65厘米
D.身高相差10厘米的两人臂展都相差11.6厘米
【跟踪训练2】互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲、乙两家网络外卖企业(以下简称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:
| 1日 | 2日 | 3日 | 4日 | 5日 |
外卖甲日接单x/百单 | 5 | 2 | 9 | 8 | 11 |
外卖乙日接单y/百单 | 2 | 3 | 10 | 5 | 15 |
(1)试根据表格中这五天的日接单量情况,从统计的角度说明这两家外卖企业的经营状况;
(2)据统计表明,y与x之间具有线性关系.
①请用相关系数r对y与x之间的相关性强弱进行判断(若|r|>0.75,则可认为y与x有较强的线性相关关系(r值精确到0.001));
②经计算求得y与x之间的回归方程为=1.382x-2.674,假定每单外卖业务,企业平均能获取纯利润3元,试预测当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润的大致范围(x值精确到0.01).
相关公式:r=.
参考数据:(xi-)(yi-)=66,
≈77.
【方法总结】
一、线性回归分析问题的类型及解题方法
1.求线性回归方程
(1)利用公式,求出回归系数,.
(2)待定系数法:利用回归直线过样本点的中心求系数.
2.利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数.
二、模型拟合效果的判断
(1)残差平方和越小,模型的拟合效果越好.
(2)相关指数R2越大,模型的拟合效果越好.
(3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
题型3 独立性检验
【例1】中国房地产业协会主办的中国房价行情网调查的一份数据显示,2018年7月,大部分一线城市的房租租金同比涨幅都在10%以上.某部门研究成果认为,房租支出超过月收入的租户“幸福指数”低,房租支出不超过月收入的租户“幸福指数”高.为了了解甲、乙两小区租户的幸福指数高低,随机抽取甲、乙两小区的租户各100户进行调查.甲小区租户的月收入以[0,3),[3,6),[6,9),[9,12),[12,15](单位:千元)分组的频率分布直方图如图所示.
乙小区租户的月收入(单位:千元)的频数分布表如下:
月收入 | [0,3) | [3,6) | [6,9) | [9,12) | [12,15] |
户数 | 38 | 27 | 24 | 9 | 2 |
(1)设甲、乙两小区租户的月收入相互独立,记M表示事件“甲小区租户的月收入低于6千元,乙小区租户的月收入不低于6千元”,把频率视为概率,求M的概率;
(2)利用频率分布直方图,求所抽取的甲小区100户租户的月收入的中位数;
(3)若甲、乙两小区每户的月租费分别为2千元、1千元.请根据条件完成下面的2×2列联表,并说明能否在犯错误的概率不超过0.001的前提下认为“幸福指数与租住的小区”有关.
| 幸福指数低 | 幸福指数高 | 总 计 |
甲小区租户 |
|
|
|
乙小区租户 |
|
|
|
总 计 |
|
|
|
附:临界值表
P(K2≥k) | 0.10 | 0.010 | 0.001 |
k | 2.706 | 6.635 | 10.828 |
参考公式:K2=.
【跟踪训练1】某班主任对全班50名学生进行了作业量的调查,数据如表:
| 认为作业量大 | 认为作业量不大 | 总计 |
男生 | 18 | 9 | 27 |
女生 | 8 | 15 | 23 |
总计 | 26 | 24 | 50 |
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025,P(K2≥6.635)≈0.010.
则________(填“有”或“没有”)97.5%的把握认为“学生的性别与认为作业量大有关”.
【跟踪训练2】为推动更多人去阅读和写作,联合国教科文组织确定每年的4月23日为“世界读书日”,其设立目的是希望居住在世界各地的人,无论你是年老还是年轻,无论你是贫穷还是富裕,都能享受阅读的乐趣,都能尊重和感谢为人类文明做出过巨大贡献的思想大师们,都能保护知识产权.为了解不同年龄段居民的主要阅读方式,某校兴趣小组在全市随机调查了200名居民,这200人中通过电子阅读与纸质阅读的人数之比为3∶1.将这200人按年龄(单位:岁)分组,统计得到通过电子阅读的居民的频率分布直方图如图所示.
(1)求a的值及通过电子阅读的居民的平均年龄;
(2)把年龄在[15,45)的居民称为中青年,年龄在[45,65]的居民称为中老年,若选出的200人中通过纸质阅读的中老年有30人,请完成下面2×2列联表,并判断是否有97.5%的把握认为阅读方式与年龄有关?
| 电子阅读 | 纸质阅读 | 总计 |
中青年 |
|
|
|
中老年 |
|
|
|
总计 |
|
|
|
附:
P(K2≥k0) | 0.150 | 0.100 | 0.050 | 0.025 | 0.010 |
k0 | 2.072 | 2.706 | 3.841 | 5.024 | 6.635 |
K2=.
【方法总结】
2个明确 | (1)明确两类主体; (2)明确研究的两个问题 |
2个关键 | (1)准确画出2×2列联表; (2)准确求解K2 |
3个步骤 | (1)根据样本数据制成2×2列联表; (2)根据公式K2=,计算K2的值; (3)查表比较K2与临界值的大小关系,作统计判断 |
参考答案
题型1 相关关系的判断
【例1】答案:C
解析:由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.
【例2】答案:A
解析:画出利润率与人均销售额的散点图,如图.由图可知利润率与人均销售额成正相关关系,故选A.
【跟踪训练1】
答案:C
解析:因为y=-0.1x+1的斜率小于0,
故x与y负相关.
因为y与z正相关,可设z=y+,>0,
则z=y+=-0.1x++,故x与z负相关.
【跟踪训练2】
答案:D
解析:所有样本点均在同一条斜率为正数的直线上,则样本相关系数最大,为1,
故选D.
【跟踪训练3】
答案:C
解析:对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;
对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,
故选C.
题型2 回归分析
【例1】解:(1)
(2)=×(6+5+4+3+2+1)=3.5,=×(55+63+72+80+90+99)=76.5,
=267.75,=≈-8.83,=76.5+8.83×3.5≈107.41,
∴线性回归方程为=-8.83x+107.41.
(3)≈1.14>1.12,∴该学生需要进行心理疏导.
【例2】解:(1)=2 016,=1,
r=
==>0.75,
∴y与x线性相关性很强.
(2)===0.36,
=-=1-0.36×2 016=-724.76,
∴y关于x的线性回归方程是=0.36x-724.76.
当x=2019时,=0.36×2019-724.76=2.08,
即A地区2019年足球特色学校约有208个.
【跟踪训练1】
答案:D
解析:对于选项A,15名志愿者臂展的最大值大于身高,而最小值小于身高,所以身高的极差小于臂展的极差,故A正确;
对于选项B,由左下到右上,为正相关,正确;
选项C就是把x=190代入回归方程得到预估值189.65,正确;
而对于选项D,相关关系不是确定的函数关系,所以选项D说法不正确,故选D.
【跟踪训练2】
解:(1)由题可知==7(百单),
==7(百单).
外卖甲的日接单量的方差s=10,外卖乙的日接单量的方差s=23.6,
因为=,s<s,即外卖甲平均日接单量与外卖乙相同,且外卖甲日接单量更集中一些,所以外卖甲比外卖乙经营状况更好.
(2)①计算可得,相关系数r≈≈0.857>0.75,
所以可认为y与x之间有较强的线性相关关系.
②令y≥25,得1.382x-2.674≥25,解得x≥20.02,
又20.02×100×3=6 006,
所以当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润大约不低于6 006元.
题型3 独立性检验
【例1】解:(1)记A表示事件“甲小区租户的月收入低于6千元”,记B表示事件“乙小区租户的月收入不低于6千元”,
甲小区租户的月收入低于6千元的频率为(0.060+0.160)×3=0.66,
故P(A)的估计值为0.66.
乙小区租户的月收入不低于6千元的频率为=0.35,
故P(B)的估计值为0.35.
因为甲、乙两小区租户的月收入相互独立,
事件M的概率的估计值为P(M)=P(A)P(B)=0.66×0.35=0.231.
(2)设甲小区所抽取的100户的月收入的中位数为t,
则0.060×3+(t-3)×0.160=0.5,
解得t=5.
(3)设H0:幸福指数与租住的小区无关,
| 幸福指数低 | 幸福指数高 | 总 计 |
甲小区租户 | 66 | 34 | 100 |
乙小区租户 | 38 | 62 | 100 |
总 计 | 104 | 96 | 200 |
根据2×2列联表中的数据,
得到K2的观测值k=≈15.705>10.828,
所以能在犯错误的概率不超过0.001的前提下认为“幸福指数与租住的小区”有关.
【跟踪训练1】
答案:有
解析:因为K2=≈5.059>5.024,
所以有97.5%的把握认为“学生的性别与认为作业量大有关”.
【跟踪训练2】
解:(1)由题中频率分布直方图可得10×(0.01+0.015+a+0.03+0.01)=1,
解得a=0.035,
所以通过电子阅读的居民的平均年龄为
20×10×0.01+30×10×0.015+40×10×0.035+50×10×0.03+60×10×0.01=41.5(岁).
(2)这200人中通过电子阅读的人数为200×=150,
通过纸质阅读的人数为200-150=50.
因为(0.01+0.015+0.035)∶(0.03+0.01)=3∶2,
所以通过电子阅读的中青年的人数为150×=90,
中老年的人数为150-90=60.
2×2列联表为
| 电子阅读 | 纸质阅读 | 总计 |
中青年 | 90 | 20 | 110 |
中老年 | 60 | 30 | 90 |
总计 | 150 | 50 | 200 |
由表中数据,得K2=≈6.061>5.024,
所以有97.5%的把握认为阅读方式与年龄有关
高端精品高中数学二轮专题-随机事件的概率与古典概型(带答案)学案: 这是一份高端精品高中数学二轮专题-随机事件的概率与古典概型(带答案)学案,共12页。学案主要包含了跟踪训练1,跟踪训练2,方法总结,跟踪训练3等内容,欢迎下载使用。
高端精品高中数学二轮专题-随机抽样与用样本估计总体(带答案)学案: 这是一份高端精品高中数学二轮专题-随机抽样与用样本估计总体(带答案)学案,共12页。学案主要包含了跟踪训练1,方法总结,跟踪训练2,跟踪训练3等内容,欢迎下载使用。
高端精品高中数学二轮专题-求概率统计的综合问题(带答案)学案: 这是一份高端精品高中数学二轮专题-求概率统计的综合问题(带答案)学案,共20页。学案主要包含了跟踪训练1,跟踪训练2,方法总结等内容,欢迎下载使用。