![第九章 第三节 变量间的相关关系、统计案例原卷版第1页](http://img-preview.51jiaoxi.com/3/3/12271390/0/0.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![第九章 第三节 变量间的相关关系、统计案例原卷版第2页](http://img-preview.51jiaoxi.com/3/3/12271390/0/1.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![第九章 第三节 变量间的相关关系、统计案例原卷版第3页](http://img-preview.51jiaoxi.com/3/3/12271390/0/2.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
第九章 第三节 变量间的相关关系、统计案例原卷版
展开
这是一份第九章 第三节 变量间的相关关系、统计案例原卷版,共16页。试卷主要包含了相关关系与回归方程,独立性检验,下面是2×2列联表等内容,欢迎下载使用。
第三节 变量间的相关关系、统计案例
知识回顾
1.相关关系与回归方程
(1)相关关系的分类
①正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
②负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(2)线性回归方程
能用直线方程=x+近似表示的相关关系叫做线性相关关系,该方程叫线性回归方程.
(3)最小平方法是一种求回归直线的方法,用这种方法求得的回归直线能使样本数据的点到回归直线的距离的平方和最小.
(4)给出一组数据(x1,y1),(x2,y2),…,(xn,yn),用最小平方法求得线性回归方程的系数,满足
上式还可以表示为
(5)回归分析
①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
②样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
③相关系数
|r|≤1;
当r>0时,表明两个变量正相关;
当rr0.05,则否定H0,表明有95%的把握认为x与y之间具有线性相关关系;若|r|≤r0.05,则没有理由拒绝原来的假设H0,即就目前数据而言,没有充分理由认为y与x之间有线性相关关系.
2.独立性检验
(1)2×2列联表
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B,Ⅱ也有两类取值,即类1和类2,得到如下列联表所示的抽样数据:
Ⅱ
类1
类2
合计
Ⅰ
类A
a
b
a+b
类B
c
d
c+d
合计
a+c
b+d
a+b+c+d
上述表格称为2×2列联表.
|ad-bc|越小,说明两个分类变量x,y之间的关系越弱;
|ad-bc|越大,说明两个分类变量x,y之间的关系越强.
(2)χ2统计量
χ2=.
用χ2的大小可判断事件A,B有关联的可信程度.
(3)独立性检验
①独立性检验的步骤
要判断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
a.提出假设H0:Ⅰ与Ⅱ没有关系;
b.根据2×2列联表及χ2公式,计算χ2的值;
c.查对临界值,作出判断.
其中临界值如表所示:
P(χ2≥x0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
表示在H0成立的情况下,事件“χ2≥x0”发生的概率.
②推断依据
a.若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;
b.若χ2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;
c.若χ2>2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”;
d.若χ2≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,即不能认为Ⅰ与Ⅱ没有关系.
课前检测
1. 已知变量x,y之间具有线性相关关系,其散点图如图所示,回归直线l的方程为=x+,则下列说法正确的是( )
A.>0,<0
B.>0,>0
C.<0,<0
D.<0,>0
2.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是( )
A.l1和l2必定平行
B.l1与l2必定重合
C.l1和l2一定有公共点(s,t)
D.l1与l2相交,但交点不一定是(s,t)
3.为调查中学生近视情况,测得某校150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
4.下面是2×2列联表:
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
5.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和χ2统计量研究患肺病是否与吸烟有关.计算得χ2=4.453,经查阅临界值表知P(χ2≥3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
6.(多选)在统计中,由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)利用最小二乘法得到两个变量的线性回归方程为=x+,那么下列说法正确的是( )
A.相关系数r不可能等于1
B.直线=x+必经过点(,)
C.直线=x+表示最接近y与x之间真实关系的一条直线
D.相关系数为r,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小
7.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x
(个)
10
20
30
40
50
加工时间y
(min)
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
8.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是________.(填序号)
①y与x具有正的线性相关关系;
②回归直线过样本点的中心(,);
③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;
④若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg.
课中讲解
考点一.相关关系的判断
例1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③ D.①③②
变式1.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
例2.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
变式2.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
例3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
变式.变量X与Y相应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1 D.r2=r1
考点二.回归分析
例1.(2020•安徽六安市)某搜索引擎广告按照付费价格对搜索结果进行排名,点击一次付费价格排名越靠前,被点击的次数也可能会提高,已知某关键词被甲、乙等多个公司竞争,其中甲、乙付费情况与每小时点击量结果绘制成如下的折线图.
(1)若甲公司计划从这10次竞价中随机抽取3次竞价进行调研,其中每小时点击次数超过7次的竞价抽取次数记为,求的分布列与数学期望;
(2)若把乙公司设置的每次点击价格为x,每小时点击次数为,则点近似在一条直线附近.试根据前5次价格与每小时点击次数的关系,求y关于x的回归直线.(附:回归方程系数公式:,).
变式1.(2020•福建南平)某购物商场分别推出支付宝和微信“扫码支付”购物活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用“扫码支付”。现统计了活动刚推出一周内每天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次,统计数据如下表所示:
(1)根据散点图判断,在推广期内,扫码支付的人次y关于活动推出天数x的回归方程适合用y=c·dx来表示,求出该回归方程,并预测活动推出第8天使用扫码支付的人次;
(2)推广期结束后,商场对顾客的支付方式进行统计,结果如下表:
商场规定:使用现金支付的顾客无优惠,使用会员卡支付的顾客享受8折优惠,扫码支付的顾客随机优惠,根据统计结果得知,使用扫码支付的顾客,享受7折优惠的概率为,享受8折优惠的概率为,享受9折优惠的概率为。现有一名顾客购买了a元的商品,根据所给数据用事件发生的频率来估计相应事件发生的概率,估计该顾客支付的平均费用是多少?。
参考数据:设
参考公式:对于一组数据(ui,vi),(u2,v2),…(un,vn),其回归直线的斜率和截距的最小二乘估计公式分别为:。
例2. 下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①: =-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②: =99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
变式2.(2020•山东菏泽二模)李克强总理在2018年政府工作报告指出,要加快建设创新型国家,把握世界新一轮科技革命和产业变革大势,深入实施创新驱动发展战略,不断增强经济创新力和竞争力.某手机生产企业积极响应政府号召,大力研发新产品,争创世界名牌.为了对研发的一批最新款手机进行合理定价,将该款手机按事先拟定的价格进行试销,得到一组销售数据(xi,yi)(i=1,2,…,6),如表所示:
单价x(千元)
3
4
5
6
7
8
销量y(百件)
70
65
62
59
56
t
已知.
(1)若变量x,y具有线性相关关系,求产品销量y(百件)关于试销单价x(千元)的线性回归方程;
(2)用(1)中所求的线性回归方程得到与xi对应的产品销量的估计值.当销售数据(xi,yi)对应的残差的绝对值时,则将销售数据(xi,yi)称为一个“好数据”.现从6个销售数据中任取3个子,求“好数据”个数ξ的分布列和数学期望E(ξ).
(参考公式:线性回归方程中的估计值分别为.
例3.张三同学从每年生日时对自己的身高测量后记录如表:
(附:回归直线的斜率和截距的最小二乘法估计公式分别为:,)
(1)求身高关于年龄的线性回归方程;(可能会用到的数据:(cm))
(2)利用(1)中的线性回归方程,分析张三同学岁起到岁身高的变化情况,如 岁之前都符合这一变化,请预测张三同学 岁时的身高。
变式3.(2020山东高三模拟)某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.
15.25
3.63
0.269
2085.5
-230.3
0.787
7.049
表中,
(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费y与印刷数量x的回归方程?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(结果精确到0.01);
(3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80000元?(假设能够全部售出,结果精确到1)
附:对于一组数据(ω1,v1),(ω2,v2),…,(ωn,vn),其回归直线的斜率和截距的最小二乘估计分别为,.
考点四.独立性检验
例1 (2020·湖北荆、荆、襄、宜四地七校联考)为积极响应国家“阳光体育运动”的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议.为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高三三个年级学生中按照4∶3∶3的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1 200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
基础年级
高三
合计
优秀
非优秀
合计
300
附:χ2=.
参考数据:
P(χ2≥x0)
0.100
0.050
0.010
0.005
x0
2.706
3.841
6.635
7.879
变式1. (2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量10000
男
1
2
3
6
8
女
0
2
10
6
2
0.10
0.05
0.025
0.010
2.706
3.841
5.024
6.635
附:
(1)已知某人一天的走路步数超过8000步被系统评定为“积极型”,否则为“懈怠型”,根据题意完成下面的列联表,并据此判断能否有95%以上的把握认为“评定类型”与“性别”有关?
积极型
懈怠型
总计
男
女
总计
(2)若小王以这40位好友该日走路步数的频率分布来估计其所有微信好友每日走路步数的概率分布,现从小王的所有微信好友中任选2人,其中每日走路不超过5000步的有人,超过10000步的有人,设,求的分布列及数学期望.
课后习题
一. 单选题
1.根据如下样本数据:
x
3
4
5
6
7
8
y
4.0
2.5
0.5
0.5
0.4
0.1
得到的线性回归方程为=x+,则( )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
2.(2018·哈尔滨一模)千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦奠定坚实基础,某校积极响应国家号召,不断加大拔尖人才的培养力度,据不完全统计:
年份/届
2014
2015
2016
2017
学科竞赛获省级一等奖及以上的学生人数x
51
49
55
57
被清华、北大等世界名校录取的学生人数y
103
96
108
107
根据上表可得回归方程=x+中的为1.35,该校2018届同学在学科竞赛中获省级一等奖及以上的学生人数为63,据此模型预测该校今年被清华、北大等世界名校录取的学生人数为( )
A.111 B.117
C.118 D.123
3.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且线性回归方程为=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )
A.66% B.67%
C.79% D.84%
4.已知变量x和y满足关系=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
5.(2020·合肥检测)某公司一种型号的产品近期销售情况如下表:
月份x
2
3
4
5
6
销售额y/万元
15.1
16.3
17.0
17.2
18.4
根据上表可得到线性回归方程=0.75x+,据此估计,该公司7月份这种型号产品的销售额为( )
A.19.5万元 B.19.25万元
C.19.15万元 D.19.05万元
6.下列现象中线性相关程度最强的是( )
A.商店的职工人数与商品销售额之间的线性相关系数为0.87
B.流通费用率与商业利润率之间的线性相关系数为-0.94
C.商品销售额与商业利润率之间的线性相关系数为0.51
D.商品销售额与流通费用率之间的线性相关系数为0.70
7.以下关于线性回归的判断,正确的个数是( )
①若散点图中所有点都在一条直线附近,则这条直线为回归直线;
②散点图中的绝大多数点都在一条直线附近,个别特殊点不影响线性回归,如图中的A,B,C点;
③已知线性回归方程为=0.50x-0.81,则x=25时,y的估计值为11.69;
④回归直线的意义是它反映了样本整体的变化趋势.
A.0 B.1 C.2 D.3
8.(2019·南通模拟)2018世界特色魅力城市200强新鲜出炉,包括黄山市在内的28个中国城市入选,美丽的黄山风景和人文景观迎来众多宾客.现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是否与性别有关,在黄山旅游节期间,随机抽取了100人,得如下所示的列联表:
赞成“自助游”
不赞成“自助游”
合计
男性
30
15
45
女性
45
10
55
合计
75
25
100
参考公式:χ2=,其中n=a+b+c+d.
P(χ2≥x0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参照公式,得到的正确结论是( )
A.有99.5%以上的把握认为“赞成‘自助游’与性别无关”
B.有99.5%以上的把握认为“赞成‘自助游’与性别有关”
C.在犯错误的概率不超过0.1的前提下,认为“赞成‘自助游’与性别无关”
D.在犯错误的概率不超过0.1的前提下,认为“赞成‘自助游’与性别有关”
.
9.(2020·焦作模拟)根据下表中的数据可以得到线性回归方程=0.7x+0.35,则实数m,n应满足( )
x
3
m
5
6
y
2.5
3
4
n
A.n-0.7m=1.7 B.n-0.7m=1.5
C.n+0.7m=1.7 D.n+0.7m=1.5
10.(2019·福州四校联考)某汽车的使用年数x与所支出的维修总费用y的统计数据如表:
使用年数x/年
1
2
3
4
5
维修总费用y/万元
0.5
1.2
2.2
3.3
4.5
根据上表可得y关于x的线性回归方程=x-0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( )
A.8年 B.9年 C.10年 D.11年
二. 多选题
11.(多选)下列说法中错误的是( )
A.将一组数据中的每一个数据都加上或减去同一个常数后,方差不变
B.设有一个线性回归方程=3-5x,变量x增加1个单位时,y平均增加5个单位
C.设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越强
D.在一个2×2列联表中,由计算得χ2的值,则χ2的值越大,判断两个变量间有关联的把握就越大
12.(多选)小明同学在做市场调查时得到如下样本数据.
x
1
3
6
10
y
8
a
4
2
他由此得到回归方程为=-2.1x+15.5,则下列说法正确的是( )
A.变量x与y线性负相关
B.当x=2时可以估计y=11.3
C.a=6
D.变量x与y之间是函数关系
三. 填空题
13.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:
相关试卷
这是一份2023年高考数学(文数)一轮复习创新思维课时练10.4《变量间的相关关系与统计案例》(2份,教师版+原卷版),文件包含2023年高考数学文数一轮复习创新思维课时练104《变量间的相关关系与统计案例》教师版doc、2023年高考数学文数一轮复习创新思维课时练104《变量间的相关关系与统计案例》原卷版doc等2份试卷配套教学资源,其中试卷共9页, 欢迎下载使用。
这是一份清单40 变量间的相关关系与统计案例(原卷版)-2022年新高考数学一轮复习知识方法清单与跟踪训练,共21页。试卷主要包含了知识与方法清单,跟踪检测,填空题,解答题等内容,欢迎下载使用。
这是一份高考数学(理数)一轮复习课时作业62《变量间的相关关系与统计案例》(原卷版),共8页。试卷主要包含了已知变量x和y的统计数据如下表等内容,欢迎下载使用。
![文档详情页底部广告位](http://img.51jiaoxi.com/images/257d7bc79dd514896def3dc0b2e3f598.jpg)