搜索
    上传资料 赚现金
    英语朗读宝

    2020高考数学理科大一轮复习导学案:第九章算法初步、统计、统计案例9.4

    2020高考数学理科大一轮复习导学案:第九章算法初步、统计、统计案例9.4第1页
    2020高考数学理科大一轮复习导学案:第九章算法初步、统计、统计案例9.4第2页
    2020高考数学理科大一轮复习导学案:第九章算法初步、统计、统计案例9.4第3页
    还剩15页未读, 继续阅读
    下载需要20学贝 1学贝=0.1元
    使用下载券免费下载
    加入资料篮
    立即下载

    2020高考数学理科大一轮复习导学案:第九章算法初步、统计、统计案例9.4

    展开

     知识点一  两个变量的相关关系1相关关系的分类(1)正相关:从散点图上看,点散布在从左下角右上角的区域内;(2)负相关:从散点图上看,点散布在从左上角到右下角的区域内.2线性相关关系从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.1.观察下列各图形, 其中两个变量xy具有相关关系的图是( C )A①②  B①④C③④  D②③解析:由散点图知③④具有相关关系.2.两个变量的相关关系有正相关,负相关,不相关,则下列散点图从左到右分别反映的变量间的相关关系是( D )A①②③  B②③①C②①③  D①③②解析:第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.知识点二  回归分析1回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1y1)(x2y2)(xnyn),其回归方程为x,则 ,其中,是回归方程的斜率是在y轴上的截距.2样本相关系数r,用它来衡量两个变量间的线性相关关系的强弱.(1)r>0时,表明两个变量正相关(2)r<0时,表明两个变量负相关(3)r的绝对值越接近1,表明两个变量的线性相关性越强r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.3对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( A )Ar2<r4<0<r3<r1  Br4<r2<0<r1<r3Cr4<r2<0<r3<r1  Dr2<r4<0<r1<r3解析:由相关系数的定义以及散点图所表达的含义可知r2<r4<0<r3<r1.4(2019·福州四校联考)某汽车的使用年数x与所支出的维修总费用y的统计数据如表:使用年数x/12345维修总费用y/万元0.51.22.23.34.5根据上表可得y关于x的线性回归方程x0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( D )A8   B9C10   D11解析:y关于x的线性回归直线x0.69过样本点的中心(3,2.34),得1.01,即线性回归方程为1.01x0.69,由1.01x0.6910x10.6,所以预测该汽车最多可使用11年,故选D.知识点三  独立性检验1分类变量:变量的不同表示个体所属的不同类型,像这类变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量XY,它们的可能取值分别为{x1x2}{y1y2},其样本频数列联表(称为2×2列联表)2×2列联表 y1y2总计x1ababx2cdcd总计acbdabcdK2(其中nabcd为样本容量),则利用独立性检验判断表来判断XY的关系”.5在性别与吃零食这两个分类变量的计算中,下列说法正确的是.K2的观测值为k6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.解析:由独立性检验的基本思想可得,只有正确.1函数关系与相关关系的区别与联系(1)区别:函数关系是一种确定性关系,相关关系是一种非确定性关系.函数关系是一种因果关系,相关关系不一定是因果关系,也可能是伴随关系.(2)联系:对线性相关关系求回归方程后,可以通过确定的函数关系对两个变量间的取值进行估计.2.求解回归方程的关键是确定回归系数,应充分利用回归直线过样本中心点()3.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.4.根据回归方程计算的值,仅是一个预报值,不是真实发生的值. 考向一  相关关系的判断【例1】 (1)在一组样本数据(x1y1)(x2y2)(xnyn)(n2x1x2xn不全相等)的散点图中,若所有样本点(xiyi)(i1,2n)都在直线yx1上,则这组样本数据的样本相关系数为(  )A.-1   B0C.   D1(2)xy的散点图如图所示,则下列说法中所有正确命题的序号为________xy是负相关关系;在该相关关系中,若用yc1ec2x拟合时的相关系数的平方为r,用x拟合时的相关系数的平方为r,则r>rxy之间不能建立线性回归方程.【解析】 (1)所有点均在直线上,则样本相关系数最大即为1.故选D.(2)显然正确;由散点图知,用yc1ec2x拟合的效果比用x拟合的效果要好,故正确;xy之间能建立线性回归方程,只不过预报精度不高,故不正确.【答案】 (1)D (2)①②  判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归方程中:>0时,正相关;<0时,负相关.  (1)已知变量xy近似满足关系式y=-0.1x1,变量yz正相关.下列结论中正确的是( C )Axy正相关,xz负相关Bxy正相关,xz正相关Cxy负相关,xz负相关Dxy负相关,xz正相关(2)甲、乙、丙、丁四位同学各自对AB两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表: r0.820.780.690.85m106115124103则哪位同学的试验结果体现AB两变量有更强的线性相关性( D )A.甲    B.乙    C.丙    D.丁解析:(1)y=-0.1x1,知xy负相关,即yx的增大而减小,又yz正相关,所以zy的增大而增大,减小而减小,所以zx的增大而减小,xz负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了AB两变量有更强的线性相关性.考向二  线性回归分析【例2】 (2018·全国卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,217)建立模型=-30.413.5t;根据2010年至2016年的数据(时间变量t的值依次为1,27)建立模型9917.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.【解】 (1)利用模型,该地区2018年的环境基础设施投资额的预测值为=-30.413.5×19226.1(亿元)利用模型,该地区2018年的环境基础设施投资额的预测值为9917.5×9256.5(亿元)(2)利用模型得到的预测值更可靠.理由如下:()从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型9917.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠.()从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠.以上给出了2种理由,答出其中任意一种或其他合理理由均可.     1正确理解计算的公式和准确的计算是求线性回归方程的关键.2回归直线方程x必过样本点中心.3在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.  为探究车流量与PM2.5浓度是否相关,现对北方某城市中心车流量最大的地区进行检测,采集到12月某天7个不同时段车流量与PM2.5浓度的数据如下表:车流量x (万辆/小时)1234567PM2.5浓度y(微克/立方米)30363840424450(1)根据上表中的数据,用最小二乘法求出y关于x的线性回归方程.(2)规定:当PM2.5浓度平均值在(0,50]内时,空气质量等级为优;当PM2.5浓度平均值在(50,100]内时,空气质量等级为良.为使该城市空气质量为优和良,利用(1)中回归方程,预测要将车流量控制在每小时多少万辆以内(结果以万辆作为单位,保留整数)解:(1)440iyi1 200140y关于x的线性回归方程是x.(2)由题意需满足x100x25,故预测要将车流量控制在每小时25万辆以内.考向三  独立性检验【例3】 (2018·全国卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表: 超过m不超过m第一种生产方式  第二种生产方式  (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2 【解】 (1)第二种生产方式的效率更高.理由如下:由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由,答出其中任意一种或其他合理理由均可.(2)由茎叶图知m80.列联表如下: 超过m不超过m第一种生产方式155第二种生产方式515(3)由于K210>6.635,所以有99%的把握认为两种生产方式的效率有差异.    独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,具体做法是根据公式K2计算随机变量K2的观测值kk越大,说明两个变量有关系的可能性越大.  已知某班n名同学的数学测试成绩(单位:分,满分100)的频率分布直方图如图所示,其中abc成等差数列,且成绩在[90,100]内的有6人.(1)n的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析能否在犯错误的概率不超过0.010的前提下认为本次测试的及格情况与性别有关附:P(K2k0)0.100.050.0100.005k22.7063.8416.6357.879K2.解:(1)依题意得解得b0.01.因为成绩在[90,100]内的有6人,所以n60.(2)由于2bac,而b0.01,可得ac0.02,则不及格的人数为0.02×10×6012,及格的人数为601248设及格的人中,女生有x人,则男生有x4人,于是xx448,解得x26,故及格的人中,女生有26人,男生有22人.于是本次测试的及格情况与性别的2×2列联表如下: 及格不及格总计2283026430总计481260所以K21.667<2.706,故不能在犯错误的概率不超过0.010的前提下认为本次测试的及格情况与性别有关”. 

    欢迎来到教习网
    • 900万优选资源,让备课更轻松
    • 600万优选试题,支持自由组卷
    • 高质量可编辑,日均更新2000+
    • 百万教师选择,专业更值得信赖
    微信扫码注册
    qrcode
    二维码已过期
    刷新

    微信扫码,快速注册

    手机号注册
    手机号码

    手机号格式错误

    手机验证码 获取验证码

    手机验证码已经成功发送,5分钟内有效

    设置密码

    6-20个字符,数字、字母或符号

    注册即视为同意教习网「注册协议」「隐私条款」
    QQ注册
    手机号注册
    微信注册

    注册成功

    返回
    顶部
    Baidu
    map