搜索
    上传资料 赚现金
    英语朗读宝

    高三数学一轮复习: 第9章 第4节 变量间的相关关系与统计案例 试卷

    高三数学一轮复习: 第9章 第4节 变量间的相关关系与统计案例第1页
    高三数学一轮复习: 第9章 第4节 变量间的相关关系与统计案例第2页
    高三数学一轮复习: 第9章 第4节 变量间的相关关系与统计案例第3页
    还剩9页未读, 继续阅读
    下载需要10学贝 1学贝=0.1元
    使用下载券免费下载
    加入资料篮
    立即下载

    高三数学一轮复习: 第9章 第4节 变量间的相关关系与统计案例

    展开

    这是一份高三数学一轮复习: 第9章 第4节 变量间的相关关系与统计案例,共12页。

    1.回归分析
    回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.
    (1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
    (2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
    (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
    2.线性回归方程
    (1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
    (2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为eq \(y,\s\up7(^))=eq \(b,\s\up7(^))x+eq \(a,\s\up7(^)),则eq \(b,\s\up7(^))=eq \f(\(∑,\s\up7(n))\( ,\s\d4(i=1)) xi-\x\t(x)yi-\x\t(y),\(∑,\s\up7(n))\( ,\s\d4(i=1)) xi-\x\t(x)2)=eq \f(\(∑,\s\up7(n))\( ,\s\d4(i=1))xiyi-n\x\t(x) eq \x\t(y),eq \(∑,\s\up7(n))eq \( ,\s\d4(i=1))xeq \\al(2,i)-neq \x\t(x)2),eq \(a,\s\up7(^))=eq \x\t(y)-eq \(b,\s\up7(^))eq \x\t(x).其中,eq \(b,\s\up7(^))是回归方程的斜率,eq \(a,\s\up7(^))是在y轴上的截距.
    3.残差分析
    (1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为eq \(e,\s\up7(^))i=yi-eq \(y,\s\up7(^))i=yi-eq \(b,\s\up7(^))xi-eq \(a,\s\up7(^)),i=1,2,…,n,eq \(e,\s\up7(^))i称为相应于点(xi,yi)的残差.
    (2)相关指数:R2=1-eq \f(\(∑,\s\up7(n))\( ,\s\d4(i=1)) yi-\(y,\s\up7(^))i2,\(∑,\s\up7(n))\( ,\s\d4(i=1)) yi-\x\t(y)2).
    4.独立性检验
    (1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
    (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为
    则随机变量K2=eq \f(nad-bc2,a+ba+cb+dc+d)(其中n=a+b+c+d为样本容量).
    1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)
    (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
    (2)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程eq \(y,\s\up7(^))=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.( )
    (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )
    (4)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.( )
    [答案] (1)√ (2)× (3)× (4)×
    2.(教材改编)已知变量x与y正相关,且由观测数据算得样本平均数eq \x\t(x)=3,eq \x\t(y)=3.5,则由该观测数据算得的线性回归方程可能是( )
    A.eq \(y,\s\up7(^))=0.4x+2.3 B.eq \(y,\s\up7(^))=2x-2.4
    C.eq \(y,\s\up7(^))=-2x+9.5 D.eq \(y,\s\up7(^))=-0.3x+4.4
    A [因为变量x和y正相关,排除选项C,D.又样本中心(3,3.5)在回归直线上,排除B,选项A满足.]
    3.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
    图9­4­1
    A.逐年比较,2008年减少二氧化硫排放量的效果最显著
    B.2007年我国治理二氧化硫排放显现成效
    C.2006年以来我国二氧化硫年排放量呈减少趋势
    D.2006年以来我国二氧化硫年排放量与年份正相关
    D [对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]
    4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是
    ( )
    A.有99%的人认为该电视栏目优秀
    B.有99%的人认为该电视栏目是否优秀与改革有关系
    C.有99%的把握认为该电视栏目是否优秀与改革有关系
    D.没有理由认为该电视栏目是否优秀与改革有关系
    D [只有K2≥6.635才能有99%的把握认为“该电视栏目是否优秀与改革有关系”,而即使K2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关,故只有D正确.]
    5.(2017·贵阳检测)若8名学生的身高和体重数据如下表:
    第3名学生的体重漏填,但线性回归方程是eq \(y,\s\up7(^))=0.849x-85.712,则第3名学生的体重估计为________kg.
    50 [设第3名学生的体重为a,则
    eq \f(1,8)(48+57+a+54+64+61+43+59)=0.849×eq \f(1,8)(165+165+157+170+175+165+155+170)-85.712.
    解得a≈50.]
    (1)(2015·湖北高考)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
    A.x与y正相关,x与z负相关
    B.x与y正相关,x与z正相关
    C.x与y负相关,x与z负相关
    D.x与y负相关,x与z正相关
    (2)x和y的散点图如图9­4­2所示,则下列说法中所有正确命题的序号为________.
    图9­4­2
    ①x,y是负相关关系;
    ②在该相关关系中,若用y=c1ec2x拟合时的相关指数为Req \\al(2,1),用eq \(y,\s\up7(^))=eq \(b,\s\up7(^))x+eq \(a,\s\up7(^))拟合时的相关指数为Req \\al(2,2),则Req \\al(2,1)>Req \\al(2,2);
    ③x,y之间不能建立线性回归方程.
    (1)C (2)①② [(1)因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=eq \(b,\s\up7(^))y+eq \(a,\s\up7(^)),eq \(b,\s\up7(^))>0,则z=eq \(b,\s\up7(^))y+eq \(a,\s\up7(^))=-0.1eq \(b,\s\up7(^))x+eq \(b,\s\up7(^))+eq \(a,\s\up7(^)),故x与z负相关.
    (2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用eq \(y,\s\up7(^))=eq \(b,\s\up7(^))x+eq \(a,\s\up7(^))拟合效果要好,则Req \\al(2,1)>Req \\al(2,2),故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.]
    [规律方法] 1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关.
    2.利用相关系数判定,当|r|越趋近于1,相关性越强.
    当残差平方和越小,相关指数R2越大,相关性越强.
    [变式训练1] 甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:
    则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
    A.甲 B.乙
    C.丙 D.丁
    D [在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.]
    (2016·全国卷Ⅲ)如图9­4­3是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
    图9­4­3
    注:年份代码1~7分别对应年份2008~2014.
    (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
    (2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
    参考数据:eq \(∑,\s\up7(7))eq \( ,\s\d4(i=1))yi=9.32,eq \(∑,\s\up7(7))eq \( ,\s\d4(i=1))tiyi=40.17,eq \r(\(∑,\s\up7(7))\( ,\s\d4(i=1)) yi-\x\t(y)2)=0.55,eq \r(7)≈2.646.
    参考公式:相关系数r=eq \f(\(∑,\s\up7(n))\( ,\s\d4(i=1)) ti-\x\t(t)yi-\x\t(y),\r(\(∑,\s\up7(n))\( ,\s\d4(i=1)) ti-\x\t(t)2\(∑,\s\up7(n))\( ,\s\d4(i=1)) yi-\x\t(y)2)),回归方程eq \(y,\s\up7(^))=eq \(a,\s\up7(^))+eq \(b,\s\up7(^))t中斜率和截距的最小二乘估计公式分别为eq \(b,\s\up7(^))=eq \f(\(∑,\s\up7(n))\( ,\s\d4(i=1)) ti-\x\t(t)yi-\x\t(y),\(∑,\s\up7(n))\( ,\s\d4(i=1)) ti-\x\t(t)2),eq \(a,\s\up7(^))=eq \(y,\s\up7(-))-eq \(b,\s\up7(^))eq \x\t(t).
    [解] (1)由折线图中的数据和附注中的参考数据得
    eq \x\t(t)=4,eq \(∑,\s\up7(7))eq \( ,\s\d4(i=1)) (ti-eq \x\t(t))2=28,eq \r(\(∑,\s\up7(7))\( ,\s\d4(i=1)) yi-\x\t(y)2)=0.55,2分
    eq \(∑,\s\up7(7))eq \( ,\s\d4(i=1)) (ti-eq \x\t(t))(yi-eq \x\t(y))=eq \(∑,\s\up7(7))eq \( ,\s\d4(i=1))tiyi-eq \x\t(t)eq \(∑,\s\up7(7))eq \( ,\s\d4(i=1))yi=40.17-4×9.32=2.89,
    所以r≈eq \f(2.89,0.55×2×2.646)≈0.99.
    因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.5分
    (2)由eq \x\t(y)=eq \f(9.32,7)≈1.331及(1)得
    eq \(b,\s\up7(^))=eq \f(\(∑,\s\up7(7))\( ,\s\d4(i=1)) ti-\x\t(t)yi-\x\t(y),\(∑,\s\up7(7))\( ,\s\d4(i=1)) ti-\x\t(t)2)=eq \f(2.89,28)≈0.103.8分
    eq \(a,\s\up7(^))=eq \x\t(y)-eq \(b,\s\up7(^))eq \x\t(t)≈1.331-0.103×4≈0.92.
    所以y关于t的回归方程为eq \(y,\s\up7(^))=0.92+分
    将2016年对应的t=9代入回归方程得eq \(y,\s\up7(^))=0.92+0.10×9=1.82.
    所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.12分
    [规律方法] 1.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
    2.(1)正确运用计算eq \(b,\s\up7(^)),eq \(a,\s\up7(^))的公式和准确的计算,是求线性回归方程的关键.(2)回归直线eq \(y,\s\up7(^))=eq \(b,\s\up7(^))x+eq \(a,\s\up7(^))必过样本点的中心(eq \x\t(x),eq \x\t(y)).
    [变式训练2] (2014·全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
    (1)求y关于t的线性回归方程;
    (2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
    附:回归直线的斜率和截距的最小二乘估计公式分别为:
    eq \(b,\s\up7(^))=eq \f(\(∑,\s\up7(n),\s\d4(i=1)) ti-\(t,\s\up7(-))yi-\(y,\s\up7(-)),\(∑,\s\up7(n),\s\d4(i=1)) ti-\(t,\s\up7(-))2),eq \(a,\s\up7(^))=eq \(y,\s\up7(-))-eq \(b,\s\up7(^))eq \(t,\s\up7(-)).
    [解] (1)由所给数据计算得eq \(t,\s\up7(-))=eq \f(1,7)(1+2+3+4+5+6+7)=4,
    eq \(y,\s\up7(-))=eq \f(1,7)(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
    eq \(∑,\s\up7(7),\s\d4(i=1)) (ti-eq \(t,\s\up7(-)))2=9+4+1+0+1+4+9=28,3分
    eq \(∑,\s\up7(7),\s\d4(i=1)) (ti-eq \(t,\s\up7(-)))(yi-eq \(y,\s\up7(-)))=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
    eq \(b,\s\up7(^))=eq \f(\(∑,\s\up7(7),\s\d4(i=1)) ti-\(t,\s\up7(-))yi-\(y,\s\up7(-)),\(∑,\s\up7(7),\s\d4(i=1)) ti-\(t,\s\up7(-))2)=eq \f(14,28)=0,5,
    eq \(a,\s\up7(^))=eq \(y,\s\up7(-))-eq \(b,\s\up7(^))eq \(t,\s\up7(-))=4.3-0.5×4=2.3,
    所求回归方程为eq \(y,\s\up7(^))=0.5t+2.3.6分
    (2)由(1)知,eq \(b,\s\up7(^))=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.9分
    将2015年的年份代号t=9代入(1)中的回归方程,得
    eq \(y,\s\up7(^))=0.5×9+2.3=6.8,
    故预测该地区2015年农村居民家庭人均纯收入为6.8千元.12分
    (2017·郑州调研)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
    (1)应收集多少位女生的样本数据?
    (2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图9­4­4所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
    【导学号:01772369】
    图9­4­4
    (3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
    附:K2=eq \f(nad-bc2,a+bc+da+cb+d).
    [解] (1)利用分层抽样,300×eq \f(4 500,15 000)=90,所以应收集90位女生的样本数据.4分
    (2)由频率分布直方图得1-2×(0.025+0.100)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.8分
    (3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.10分
    又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
    每周平均体育运动时间与性别列联表
    将2×2列联表中的数据代入公式计算,得K2观测值
    k=eq \f(300×45×60-165×302,75×225×210×90)=eq \f(100,21)≈4.762>3.841.
    所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.12分
    [规律方法] 1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
    2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
    (1)根据样本数据制成2×2列联表;
    (2)根据公式K2=eq \f(nad-bc2,a+ba+cb+dc+d)计算K2的观测值k;
    (3)比较k与临界值的大小关系,作统计推断.
    [变式训练3] (2017·济南联考)某市地铁即将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下;
    (1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);
    (2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
    附:K2=eq \f(nad-bc2,a+bc+da+ca+d).
    [解] (1)“赞成定价者”的月平均收入为
    x1=eq \f(20×1+30×2+40×3+50×5+60×3+70×4,1+2+3+5+3+4)
    ≈50.56.
    “认为价格偏高者”的月平均收入为
    x2=eq \f(20×4+30×8+40×12+50×5+60×2+70×1,4+8+12+5+2+1)
    =38.75,
    ∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元).5分
    (2)根据条件可得2×2列联表如下:
    K2=eq \f(50×3×11-7×292,10×40×18×32)≈6.27<6.635,
    ∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.12分
    [思想与方法]
    1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.
    2.根据K2的值可以判断两个分类变量有关的可信程度.
    [易错与防范]
    1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
    2.独立性检验中统计量K2的观测值k的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.y1
    y2
    总计
    x1
    a
    b
    a+b
    x2
    c
    d
    c+d
    总计
    a+c
    b+d
    a+b+c+d
    编号
    1
    2
    3
    4
    5
    6
    7
    8
    身高/cm
    165
    165
    157
    170
    175
    165
    155
    170
    体重/kg
    48
    57
    54
    64
    61
    43
    59
    相关关系的判断




    r
    0.82
    0.78
    0.69
    0.85
    m
    106
    115
    124
    103
    线性回归方程及应用
    年 份
    2007
    2008
    2009
    2010
    2011
    2012
    2013
    年份代号t
    1
    2
    3
    4
    5
    6
    7
    人均纯收入y
    2.9
    3.3
    3.6
    4.4
    4.8
    5.2
    5.9
    独立性检验
    P(K2≥k0)
    0.10
    0.05
    0.010
    0.005
    k0
    2.706
    3.841
    6.635
    7.879
    男生
    女生
    总计
    每周平均体育运动时间不超过4小时
    45
    30
    75
    每周平均体育运动时间超过4小时
    165
    60
    225
    总计
    210
    90
    300
    月收入(单位:百元)
    [15,25)
    [25,35)
    [35,45)
    [45,55)
    [55,65)
    [65,75]
    赞成定价者人数
    1
    2
    3
    5
    3
    4
    认为价格偏高者人数
    4
    8
    12
    5
    2
    1
    月收入不低于55百元的人数
    月收入低于55百元的人数
    总计
    认为价格偏高者
    赞成定价者
    总计
    P(K2≥k0)
    0.05
    0.01
    k0
    3.841
    6.635
    月收入不低于
    55百元的人数
    月收入低于
    55百元的人数
    总计
    认为价格偏高者
    3
    29
    32
    赞成定价者
    7
    11
    18
    总计
    10
    40
    50

    相关试卷

    高中数学高考2022届高考数学一轮复习(新高考版) 第9章 §9 2 变量间的相关关系、统计案例:

    这是一份高中数学高考2022届高考数学一轮复习(新高考版) 第9章 §9 2 变量间的相关关系、统计案例,共21页。试卷主要包含了)),616,8,1,8=100,071>6,820>3等内容,欢迎下载使用。

    高中数学高考2 第2讲 变量间的相关关系与统计案例:

    这是一份高中数学高考2 第2讲 变量间的相关关系与统计案例,共19页。试卷主要包含了变量间的相关关系,两个变量的线性相关,独立性检验,下面是2×2列联表等内容,欢迎下载使用。

    (新高考)高考数学一轮复习第63讲《变量间的相关关系、统计案例》达标检测(解析版):

    这是一份(新高考)高考数学一轮复习第63讲《变量间的相关关系、统计案例》达标检测(解析版),共18页。

    欢迎来到教习网
    • 900万优选资源,让备课更轻松
    • 600万优选试题,支持自由组卷
    • 高质量可编辑,日均更新2000+
    • 百万教师选择,专业更值得信赖
    微信扫码注册
    qrcode
    二维码已过期
    刷新

    微信扫码,快速注册

    手机号注册
    手机号码

    手机号格式错误

    手机验证码 获取验证码

    手机验证码已经成功发送,5分钟内有效

    设置密码

    6-20个字符,数字、字母或符号

    注册即视为同意教习网「注册协议」「隐私条款」
    QQ注册
    手机号注册
    微信注册

    注册成功

    返回
    顶部
    Baidu
    map