终身会员
搜索
    上传资料 赚现金

    2020年高考数学理科一轮复习讲义:第9章统计与统计案例第3讲

    立即下载
    加入资料篮
    2020年高考数学理科一轮复习讲义:第9章统计与统计案例第3讲第1页
    2020年高考数学理科一轮复习讲义:第9章统计与统计案例第3讲第2页
    2020年高考数学理科一轮复习讲义:第9章统计与统计案例第3讲第3页
    还剩15页未读, 继续阅读
    下载需要20学贝 1学贝=0.1元
    使用下载券免费下载
    加入资料篮
    立即下载

    2020年高考数学理科一轮复习讲义:第9章统计与统计案例第3讲

    展开

    3讲 变量间的相关关系与统计案例 [考纲解读] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.[考向预测] 从近三年高考情况来看,本讲是高考中的一个热点考查内容.预测2020年将会考查:回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.  1.相关关系与回归方程(1)相关关系的分类正相关:从散点图上看,点散布在从左下角右上角的区域内,如图1负相关:从散点图上看,点散布在从左上角右下角的区域内,如图2.(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.回归方程:两个具有线性相关关系的变量的一组数据(x1y1)(x2y2)(xnyn),其回归方程为x,则.其中,是回归方程的斜率是在y轴上的截距xiyi()称为样本点的中心.说明:回归直线x必过样本点的中心(),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r,用它来衡量两个变量间的线性相关关系.r>0时,表明两个变量正相关r<0时,表明两个变量负相关r的绝对值越接近1,表明两个变量的线性相关性越强r的绝对值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.2独立性检验(1)分类变量:变量的不同表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量XY,它们的可能取值分别为{x1x2}{y1y2},其样本频数列联表(称为2×2列联表)2×2列联表 构造一个随机变量K2,其中nabcd为样本容量.(3)独立性检验利用随机变量K2来判断两个分类变量有关系的方法称为独立性检验.1概念辨析(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.(  )(2)通过回归方程x可以估计和观测变量的取值和变化趋势.(  )(3)事件XY关系越密切,则由观测数据计算得到的K2的观测值越大.(  )(4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(  )答案 (1) (2) (3) (4)×                     2小题热身(1)设回归方程为35x,则变量x增加一个单位时(  )Ay平均增加3个单位  By平均减少5个单位Cy平均增加5个单位  Dy平均减少3个单位答案 B解析 因为-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.故选B.(2)在下列各图中,两个变量具有相关关系的图是(  )A①②  B①③  C②④  D②③答案 D解析 为函数关系;显然成正相关;显然成负相关;没有明显相关性.(3)下面是一个2×2列联表则表中ab处的值分别为________答案 52,54解析 因为a2173,所以a52.又因为a2b,所以b54.(4)已知xy的取值如下表,从散点图可以看出yx具有线性相关关系,且回归方程为0.95x,则________.答案 2.6解析 回归直线必过样本点的中心(),又24.5,代入回归方程,得2.6. 题型  相关关系的判断1.下列两变量中不存在相关关系的是(  )人的身高与视力;曲线上的点与该点的坐标之间的关系;某农田的水稻产量与施肥量;某同学考试成绩与复习时间的投入量;匀速行驶的汽车的行驶距离与时间;商品的销售额与广告费.A①②⑤  B①③⑥  C④⑤⑥  D②⑥答案 A解析 根据相关关系的定义知,①②⑤中两个变量不存在相关关系.2.四名同学根据各自的样本数据研究变量xy之间的相关关系,并求得线性回归方程,分别得到以下四个结论:yx负相关且2.347x6.423yx负相关且=-3.476x5.648yx正相关且5.437x8.493yx正相关且=-4.326x4.578.其中一定不正确的结论的序号是(  )A①②  B②③  C③④  D①④答案 D解析 由回归方程x知当>0时,yx正相关,当<0时,yx负相关,∴①④一定错误.3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是(  )Ar2<r4<0<r3<r1  Br4<r2<0<r1<r3Cr4<r2<0<r3<r1  Dr2<r4<0<r1<r3答案 A解析 易知题中图与图是正相关,图与图是负相关,且图与图中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.故选A.判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.见举例说明3.(3)线性回归直线方程中:>0时,正相关;<0时,负相关.                    1.在一组样本数据(x1y1)(x2y2)(xnyn)(n2x1x2xn不全相等)的散点图中,若所有样本点(xiyi)(i1,2n)都在直线yx1上,则这组样本数据的样本相关系数为(  )A.-1  B0  C.  D1答案 D解析 所有点均在直线上,则样本相关系数最大即为1,故选D.2xy的散点图如图所示,则下列说法中所有正确命题的序号为________xy是负相关关系;在该相关关系中,若用yc1ec2x拟合时的相关系数的平方为r,用x拟合时的相关系数的平方为r,则r>rxy之间不能建立线性回归方程.答案 ①②解析 显然正确;散点图趋向于曲线而非直线,所以用yc1ec2x拟合的效果比用x拟合的效果要好,故正确;xy之间能建立线性回归方程,只不过预报精度不高,故不正确.题型  回归分析角度1 线性回归方程及应用1(2018·福州四校联考)某汽车的使用年数x与所支出的维修总费用y的统计数据如表: 使用年数x/12345维修总费用y/万元0.51.22.23.34.5 根据上表可得y关于x的线性回归方程x0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)(  )A8  B9  C10  D11答案 D解析 y关于x的线性回归直线x0.69过样本点的中心(3,2.34),得1.01,即线性回归方程为1.01x0.69,由1.01x0.6910x10.6,所以预测该汽车最多可使用11年.故选D.2.某兴趣小组欲研究昼夜温差与患感冒人数之间的关系,他们分别到气象局与某医院抄录了1月份至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下数据: 该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月份与6月份的两组数据,请根据2月份至5月份的数据,求出y关于x的线性回归方程x(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?参考公式:.参考数据:11×2513×2912×268×161092,11213212282498.解 (1)设选到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,且每种情况都是等可能的,其中,选到相邻两个月的数据的情况有5种,所以P(A).(2)由表中2月份至5月份的数据可得1124xiyi1092498,所以,则=-,所以y关于x的线性回归方程为x.(3)x10时,<2x6时,<2.所以,该小组所得线性回归方程是理想的.角度2 非线性回归模型的应用3(2015·全国卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i1,28)数据作了初步处理,得到下面的散点图及一些统计量的值. 表中wiwi.(1)根据散点图判断,yabxycd哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润zxy的关系为z0.2yx.根据(2)的结果回答下列问题:年宣传费x49时,年销售量及年利润的预报值是多少?年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1v1)(u2v2)(unvn),其回归直线vαβu的斜率和截距的最小二乘估计分别为 .解 (1)由散点图可以判断,ycd适宜作为年销售量y关于年宣传费x的回归方程类型.(2)w,先建立y关于w的线性回归方程.由于6856368×6.8100.6所以y关于w的线性回归方程为100.668w,因此y关于x的回归方程为100.668.(3)(2)知,当x49时,年销售量y的预报值100.668576.6年利润z的预报值576.6×0.24966.32.根据(2)的结果知,年利润z的预报值0.2(100.668)x=-x13.620.12.所以当6.8,即x46.24时,取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.1.利用线性回归方程时的关注点(1)正确理解计算的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程x必过样本点中心()(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.2非线性回归方程的求法(1)根据原始数据(xy)作出散点图.(2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)(3)的基础上通过相应变换,即可得非线性回归方程.                     1据某市地产数据研究显示,2018年该市新建住宅销售均价走势如图所示,3月至7月房价上涨过快,为抑制房价过快上涨,政府从8月开始采用宏观调控措施,10月份开始房价得到很好的控制.(1)地产数据研究发现,3月至7月的各月均价y(万元/平方米)与月份x之间具有较强的线性相关关系,试建立y关于x的回归方程;(2)若政府不调控,依此相关关系预测12月份该市新建住宅销售均价.参考数据及公式:xi25yi5.36 (xi)(yi)0.64,回归方程x中斜率和截距的最小二乘估计公式分别为.解 (1)51.072 (xi)210,所以0.0641.0720.064×50.752.所以从3月份至7月份y关于x的线性回归方程为0.064x0.752.(2)x12代入回归方程得0.064×120.7521.52所以预测12月份该市新建住宅的销售均价为1.52万元/平方米.2.对某地区儿童的身高与体重的一组数据,我们用两种模型ybxaycedx拟合,得到回归方程分别为(1)0.24x8.81(2)1.70e0.022x,作残差分析,如下表: (1)求表中空格内的值;(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;(3)若残差大于1 kg的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果保留到小数点后两位)附:对于一组数据(x1y1)(x2y2)(xnyn),其回归直线x的斜率和截距的最小二乘估计分别为.解 (1)根据残差分析,把x80代入(1)0.24x8.81中,得(1)10.39.1010.39=-0.39表中空格内的值为-0.39.(2)模型残差的绝对值的和为0.410.010.391.210.190.412.62模型残差的绝对值的和为0.360.070.121.690.341.123.7.2.62<3.7模型的拟合效果比较好,选择模型.(3)残差大于1 kg的样本点被剔除后,剩余的数据如下表:由公式得回归方程为0.24x8.76.题型  独立性检验1.假设有两个分类变量XY2×2列联表如下: 对同一样本,以下数据能说明XY有关系的可能性最大的一组为(  )Aa45c15  Ba40c20Ca35c25  Da30c30答案 A解析 根据2×2列联表与独立性检验可知,当相差越大时,XY有关系的可能性越大,即ac相差越大,相差越大.故选A.2(2018·全国卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表: (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2 解 (1)第二种生产方式的效率更高.理由如下:()由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.()由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可.)(2)由茎叶图知m80.列联表如下:(3)由于K2的观测值k10>6.635,所以有99%的把握认为两种生产方式的效率有差异.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K2的观测值k,查表确定临界值k0(3)如果kk0,就推断XY有关系,这种推断犯错误的概率不超过P(K2k0);否则,就认为在犯错误的概率不超过P(K2k0)的前提下不能推断XY有关系”.                     1(2018·河南洛阳模拟)学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据: 根据表中数据,通过计算统计量K2,并参考以下临界数据: 若由此认为学生对2018年俄罗斯世界杯的关注与性别有关,则此结论出错的概率不超过(  )A0.10  B0.05  C0.025  D0.01答案 A解析 由题意可得K23.030>2.706,由此认为学生对2018年俄罗斯世界杯的关注与性别有关出错的概率不超过0.10.故选A.2.某校拟在高一年级开设英语口语选修课,该年级男生600人,女生480人.按性别分层抽样,抽取90名同学做意向调查.(1)求抽取的90名同学中的男生人数;(2)将下列2×2列联表补充完整,并判断能否在犯错误的概率不超过0.025的前提下认为该校高一学生是否愿意选修英语口语课程与性别有关 附:K2,其中nabcd. 解 (1)该校高一年级的男、女生之比为60048054,所以按照分层抽样,男生应抽取50名.(2)2×2列联表如下: K2,代入数据得K25.844>5.024.所以在犯错误的概率不超过0.025的前提下可以认为该校高一学生是否愿意选修英语口语课程与性别有关”.  

    欢迎来到教习网
    • 900万优选资源,让备课更轻松
    • 600万优选试题,支持自由组卷
    • 高质量可编辑,日均更新2000+
    • 百万教师选择,专业更值得信赖
    微信扫码注册
    qrcode
    二维码已过期
    刷新

    微信扫码,快速注册

    手机号注册
    手机号码

    手机号格式错误

    手机验证码 获取验证码

    手机验证码已经成功发送,5分钟内有效

    设置密码

    6-20个字符,数字、字母或符号

    注册即视为同意教习网「注册协议」「隐私条款」
    QQ注册
    手机号注册
    微信注册

    注册成功

    返回
    顶部
    Baidu
    map