备战2024年高考数学大一轮复习(人教A版-理)第十章 算法初步、统计与统计案例 第4节 变量间的相关关系与统计案例
展开第4节 变量间的相关关系与统计案例
考试要求 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.
1.相关关系与回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.
(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
2.线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则==,=-.其中,是回归方程的斜率,是在y轴上的截距.
回归直线一定过样本点的中心(,).
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中 (,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
(4)相关指数:R2=1-.其中 (yi-i)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.
4.独立性检验
(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则随机变量K2=,其中n=a+b+c+d为样本容量.
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本点的中心(,).
2.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
3.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
1.思考辨析(在括号内打“√”或“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)通过回归直线方程=x+可以估计预报变量的取值和变化趋势.( )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.( )
答案 (1)√ (2)√ (3)√ (4)√
2.(易错题)(2022·兰州模拟)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,n∈N*,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C. D.1
答案 D
解析 由题设知,所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,可知这组样本数据完全正相关,故其相关系数为1,故选D.
3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
答案 A
解析 在两个变量y与x的回归模型中,它们的相关指数R2越近于1,拟合效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.
4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
答案 D
解析 由散点图可以看出,这些点大致分布在对数型函数的图象附近.故选D.
5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为________.
答案 5%
解析 K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
6.(2022·广州模拟)若某商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下表所示的对应数据:
x
2
4
5
6
8
y
20
40
60
70
80
根据表中数据,利用最小二乘法求得y关于x的回归直线方程为=x+1.5,据此预测,当投入10万元时,销售额的估计值为______万元.
答案 106.5
解析 由题得=×(2+4+5+6+8)=5,
=×(20+40+60+70+80)=54,
所以54=5+1.5,所以=10.5,
所以=10.5x+1.5,
当x=10时,=10.5×10+1.5=106.5.
考点一 相关关系的判断
1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
答案 A
解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2
解析 由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,
图(2)与图(4)是负相关,故r2<0,r4<0,
且图(1)与图(2)的样本点集中在一条直线附近,因此r2
x
3
4
5
6
7
8
y
-3.0
-2.0
0.5
-0.5
2.5
4.0
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
答案 C
解析 作出散点图(图略),由散点图可知,<0,>0.
感悟提升 判断相关关系的两种方法:
(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:利用相关系数判定,|r|越趋近于1,相关性越强.
考点二 回归分析
角度1 线性回归方程及应用
例1 (2021·成都诊断)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:
使用年限x
(单位:年)
1
2
3
4
5
6
7
失效费y
(单位:万元)
2.90
3.30
3.60
4.40
4.80
5.20
5.90
(1)由上表数据可知,可用线性回归模型拟合y与x的关系,请用相关系数加以说明;(精确到0.01)
(2)求出y关于x的线性回归方程,并估算该种机械设备使用10年的失效费.
参考公式:相关系数
r=.
线性回归方程=x+中斜率和截距最小二乘估计计算公式:=,=-.
参考数据: (xi-)(yi-)=14.00,
(yi-)2=7.08,≈14.10.
解 (1)由题意,知
==4,
=
=4.30,
(xi-)2=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2
=28,
∴r==≈≈0.99.
因为y与x的相关系数近似为0.99,
所以y与x的线性相关程度相当大,从而可以用线性回归模型拟合y与x的关系.
(2)∵===0.5,
∴=-=4.3-0.5×4=2.3.
∴y关于x的线性回归方程为=0.5x+2.3.
将x=10代入线性回归方程,得=0.5×10+2.3=7.3,
∴估算该种机械设备使用10年的失效费为7.3万元.
角度2 非线性回归方程及应用
例2 (2022·郑州调研)人类已经进入大数据时代.目前,数据量级已经从TB(1 TB=1 024 GB)级别跃升到PB(1 PB=1 024 TB),EB(1 EB=1 024 PB)乃至ZB(1 ZB=
1 024 EB)级别.国际数据公司(IDC)研究结果表明,2008年全球产生的数据量为0.49 ZB,2009年数据量为0.8 ZB,2010年增长到1.2 ZB,2011年数据量更是高达1.82 ZB.下表是国际数据公司(IDC)研究的全球近6年每年产生的数据量(单位:ZB)及相关统计量的值:
年份
2014
2015
2016
2017
2018
2019
序号x
1
2
3
4
5
6
年数据量y
6.6
8.6
16.1
21.6
33.0
41.0
3.5
21.15
2.85
(xi-)2
17.5
(zi-)2
13.82
(xi-)(yi-)
125.35
(xi-)(zi-)
6.73
表中zi=ln yi,=zi.
(1)根据上表数据信息判断,方程y=c1·ec2x(e是自然对数的底数)更适宜作为该公司统计的年数据量y关于年份序号x的回归方程类型,试求此回归方程(c2精确到0.01);
(2)有人预计2022年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.
参数数据:e4.56≈95.58,e4.58≈97.51,回归方程=+x中,
==,
=-.
解 (1)由y=c1·ec2x得ln y=c2x+ln c1,
即z=c2x+ln c1,
∴c2==≈0.38.
又∵=c2+ln c1,0.38×3.5+ln c1=2.85,ln c1=1.52.
∴ln y=0.38x+1.52,即y=e0.38x+1.52为所求的回归方程.
(2)根据(1)知回归方程为y=e0.38x+1.52.
当x=9时,y=e0.38×9+1.52=e4.94>e4.56≈95.58,≈52.52.
据此可以判断2022年全球产生的数据量超过2011年的50倍,因此,这种判断是准确的.
感悟提升 回归分析问题的类型及解题方法
(1)求回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数.
③待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
训练1 下面给出了根据我国2015~2021年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和线性回归方程的残差图.(2015年~2021年的年份代码x分别为1~7)
(1)根据散点图分析y与x之间的相关关系;
(2)根据散点图相应数据计算得yi=1 074,xiyi=4 517,求y关于x的线性回归方程;(精确到0.01)
(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果.
附:回归方程=+x中斜率和截距的最小二乘估计公式分别为
==,
=-.
解 (1)从散点图可以看出,这些点的分布整体上在一条直线附近,且当x由小变大时,y也由小变大,
所以y与x之间具有线性相关关系,且是正相关.
(2)由题意可知,==4,
=yi=,
x=12+22+32+42+52+62+72=140,
∴===≈7.89,
∴=-=-7.89×4≈121.87,
∴y关于x的线性回归方程为=7.89x+121.87.
(3)由残差图可以看出历年数据的残差均分布在-2~2之间,且图中各点比较均匀地分布在数值0所在直线附近,带状区域很窄,说明对应的回归直线拟合效果较好.
考点三 独立性检验
例3 (2021·武汉质检)有关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展,行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯,该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1 000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到统计图如图所示.
(1)估算该市电动自行车骑乘人员的平均年龄;
(2)根据所给的数据,完成列联表:
是否佩戴头盔
年龄
是
否
[20,40)
[40,70]
(3)根据(2)中的列联表,判断是否有99%的把握认为佩戴安全头盔与年龄有关.
附:K2=.
P(K2≥k)
0.50
0.010
0.001
k
3.841
6.635
10.828
解 (1)该市电动自行车骑乘人员平均年龄为25×0.25+35×0.35+45×0.2+55×0.15+65×0.05=39(周岁).
(2)完成2×2列联表如下:
是否佩戴头盔
年龄
是
否
[20,40)
540
60
[40,70]
340
60
(3)K2的观测值
k=
=≈5.682<6.635.
故没有99%的把握认为佩戴安全头盔与年龄有关.
感悟提升 1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表:
(2)根据公式K2=计算K2的观测值k;
(3)通过比较观测值k与临界值的大小关系来作统计推断.
训练2 (2022·南宁模拟)第五代移动通信技术(5G技术)是最新一代蜂窝移动通信技术,也是继4G、3G和2G系统之后的延伸.5G的性能目标是高数据速率、减少延迟、节省能源、降低成本、提高系统容量和大规模设备连接.某大学为了解学生对“5G”相关知识的了解程度,随机抽取100名学生参与测试,并根据得分划分成“不太了解”或“比较了解”两类后整理得到如下列联表:
不太了解
比较了解
总计
男生
25
女生
37
总计
70
100
(1)补全列联表,并判断是否有99.9%的把握认为“学生对5G的了解程度与性别有关”;
(2)从“不太了解”的学生中按性别分层抽取6人,再从这6人中随机选取2人参加“5G”知识讲座,求抽到的2人中恰有1名女生的概率.
附:K2=(n=a+b+c+d).
临界值表:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解 (1)补全的列联表如下:
不太了解
比较了解
总计
男生
25
33
58
女生
5
37
42
总计
30
70
100
所以K2的观测值
k=≈11.291>10.828,
故有99.9%的把握认为“学生对5G的了解程度与性别有关”.
(2)“不太了解”的男生有25人,女生有5人,
按性别分层抽样从中抽取6人,则男生应抽取5人,记为a,b,c,d,e,女生应抽取1人,记为x,
再从这6人中随机抽取2人共有15种情况:xa,xb,xc,xd,xe,ab,ac,ad,ae,bc,bd,be,cd,ce,de,
抽到恰有1名女生有5种情况:xa,xb,xc,xd,xe,
所以所求的概率为=.
1.为调查中学生近视情况,测得某校在150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
答案 C
解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v,有观测数据(ui,vi)(i=1,2,…,10),得散点图(2),由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
答案 C
解析 由题图(1)可知,y随x的增大而减小,各点整体呈下降趋势,x与y负相关,由题图(2)可知,u随v的增大而增大,各点整体呈上升趋势,u与v正相关.
3.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R2来刻画回归的效果,R2值越接近于1,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( )
A.①② B.②③ C.①③ D.①②③
答案 D
4.(2022·昆明诊断)下表是关于某设备的使用年限x(单位:年)和所支出的维修费用y(单位:万元)的统计表:
x
2
3
4
5
6
y
3.4
4.2
5.1
5.5
6.8
由表可得线性回归方程=0.81x+,若规定:维修费用y不超过10万元,一旦大于10万元时,该设备必须报废.据此模型预测,该设备使用年限的最大值约为( )
A.7 B.8 C.9 D.10
答案 D
解析 由已知表格,得
=×(2+3+4+5+6)=4,
=×(3.4+4.2+5.1+5.5+6.8)=5,
因为回归直线恒过样本点的中心(,),
所以5=0.81×4+,解得=1.76,
所以回归直线的方程为=0.81x+1.76,
由y≤10,得0.81x+1.76≤10,解得x≤≈10.17,
由于x∈N*,所以据此模型预测,该设备使用年限的最大值为10.故选D.
5.某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:
喜欢“应用统计”课程
不喜欢“应用统计”课程
男生
20
5
女生
10
20
附表:
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:K2=,其中n=a+b+c+d.参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关
B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关
C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关
D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关
答案 A
解析 ∵K2的观测值
k=≈11.978>10.828,
所以有99.9%的把握认为喜欢“应用统计”课程与性别有关,即在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关.
6.下列说法:
①残差可用来判断模型拟合的效果;
②设有一个回归方程:=3-5x,变量x增加一个单位时,y平均增加5个单位;
③线性回归直线:=x+必过点(,);
④在一个2×2列联表中,由计算得K2的观测值k=6.665,则有99%的把握确认这两个变量间有关系(其中P(K2≥6.635)=0.010),
其中错误的个数是( )
A.0 B.1 C.2 D.3
答案 B
解析 对于①,残差可用来判断模型拟合的效果,残差越小,拟合效果越好,∴①正确;
对于②,回归方程=3-5x中,变量x增加一个单位时,y平均减少5个单位,∴②错误;
对于③,线性回归直线=x+必过样本点的中心(,),∴③正确;
对于④,在2×2列联表中,由计算得k=6.665,对照临界值得,有99%的把握确认这两个变量间有关系,∴④正确.
综上,其中错误的命题是②,共1个,故选B.
7.已知x和y的散点图如图所示,在相关关系中,若用y=c1ec2x拟合时的相关指数为R,用=x+拟合时的相关指数为R,则R,R中较大的是________.
答案 R
解析 由散点图知,用y=c1ec2x拟合的效果比=x+拟合的效果要好,所以R>R,故较大者为R.
8.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2的观测值k≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.
①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.
答案 ①
解析 k≈3.918≥3.841,而P(K2≥3.814)≈0.05,
所以有95%的把握认为“这种血清能起到预防感冒的作用”.
要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.
9.在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是________(填序号).
①人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%;
②人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%;
③人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%;
④人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%.
答案 ②
解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%.
10.(2022·河南名校联考)某学校食堂统计了最近5天到餐厅就餐的人数x(单位:百人)与食堂向食材公司购买所需食材(原材料)的数量y(单位:袋),得到如下统计表:
第一天
第二天
第三天
第四天
第五天
就餐人数x/百人
13
9
8
10
12
原材料y/袋
32
23
18
24
28
(1)根据所给的5组数据,求出y关于x的线性回归方程=x+;
(2)已知购买食材的费用C(单位:元)与数量y(单位:袋)的关系为C=投入使用的每袋食材相应的销售单价为700元,多余的食材必须无偿退还食材公司,据悉下周一大约有1 500人到食堂餐厅就餐,根据(1)中求出的线性回归方程,预测食堂应购买多少袋食材,才能获得最大利润,最大利润是多少?(注:利润L=销售收入-原材料费用)
参考公式:==,=-.
参考数据:xiyi=1 343,x=558,y=3 237.
解 (1)由所给数据可得
==10.4,
==25,
所以=
==2.5,
又=-=25-2.5×10.4=-1,
所以y关于x的线性回归方程为=2.5x-1.
(2)由(1)中求出的线性回归方程知,
当x=15时,y=36.5,即预计需要购买食材36.5袋.
因为C=
所以当y<36时,利润L=700y-(400y-20)=300y+20,y∈N,
此时当y=35时,利润Lmax=300×35+20=10 520(元);
当y≥36时,根据线性回归方程预测需要购买食材36.5袋,并且剩余的食材只能无偿退还,
此时当y=36时,利润L=700×36-380×36=11 520(元),
当y=37时,利润L=700×36.5-380×37=11 490(元).
综上,食堂应购买36袋食材,才能获得最大利润,最大利润为11 520元.
11.(2022·“四省八校”开学考试)据我国一项专题调查显示,某市高级职称的中年知识分子中竟有高达75.3%的人处于亚健康状态,更令人担忧的是85%以上的企业管理者处于慢性疲劳状态或亚健康状态,这是由他们所处的特殊工作及生活的环境和行为模式所决定的.亚健康是指非病非健康的一种临界状态.如果这种状态不能及时得到纠正,非常容易引起身心疾病.某高科技公司为了了解亚健康与性别的关系,对本公司部分员工进行了不记名问卷调查,该公司处于正常工作状态的员工(包括管理人员)共有8 000人,其中男性员工有6 000人,女性员工有2 000人,从8 000人中用分层抽样的方法随机抽取了400人作为样本进行健康状况的调查.
(1)求男性员工、女性员工各抽取多少人?
(2)通过调查得到如图所示的统计图,
其中a=0.2,b=0.1.根据统计图,完成下面2×2列联表,
健康
亚健康
总计
男员工
女员工
总计
400
问是否有97.5%的把握认为人处于亚健康状态与性别有关?
参考公式:K2=,n=a+b+c+d.
参考数据:
P(K≥k0)
0.05
0.025
0.010
0.005
k0
3.841
5.024
6.635
7.879
解 (1)由题意知样本容量与总体的比值为=,
∴男性员工抽取了6 000×=300(人),
女性员工抽取了2 000×=100(人).
(2)由统计图可知,样本中男员工处于亚健康状态的人数为300×0.2=60,
样本中女员工处于亚健康状态的人数为100×0.1=10,
2×2列联表为
健康
亚健康
总计
男员工
240
60
300
女员工
90
10
100
总计
330
70
400
则K2的观测值k=≈5.195>5.024,
∴有97.5%的把握认为人处于亚健康状态与性别有关.
12.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学成绩
60
65
70
75
80
85
90
95
物理成绩
72
77
80
84
88
90
93
95
给出散点图如下:
根据以上信息,判断下列结论:
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.
其中正确的为________(填序号).
答案 ①
解析 由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;
若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.
13.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算xi=12,yi=14,x=23,则实数b的值为________.
答案
解析 令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-,
此时==,==,
代入y=bt-,得=b×-,解得b=.
14.近年来,国资委、党委高度重视扶贫开发工作,坚决贯彻落实中央扶贫工作重大决策部署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效,某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表所示:
土地使用面积x(单位:亩)
1
2
3
4
5
管理时间y(单位:月)
8
10
13
25
24
并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:
愿意参与管理
不愿意参与管理
男性村民
150
50
女性村民
50
(1)求y关于x的线性回归方程(计算结果保留两位小数);
(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?
参考公式:=,=-,K2=,其中n=a+b+c+d.
临界值表:
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
解 (1)依题意得,==3,
==16,
故 (xi-)(yi-)=(-2)×(-8)+(-1)×(-6)+1×9+2×8=47,
(xi-)2=4+1+1+4=10,
则===4.7,
=-=16-4.7×3=1.9.
所以y关于x的线性回归方程为=4.7x+1.9.
(2)依题意,女性不愿意参与管理的人数为50,
计算得K2的观测值为
k=
==18.75>10.828,
故有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.
2024年数学高考大一轮复习第十章 算法初步、统计与统计案例、概率: 这是一份2024年数学高考大一轮复习第十章 算法初步、统计与统计案例、概率,文件包含第4节变量间的相关关系与统计案例doc、第3节用样本估计总体doc、第6节古典概型与几何概型doc、第1节算法与程序框图doc、第5节随机事件的概率doc、第2节随机抽样doc等6份试卷配套教学资源,其中试卷共115页, 欢迎下载使用。
2024高考数学大一轮复习Word版题库(人教A版文)第十章 算法初步、统计与统计案例、概率 第4节 变量间的相关关系与统计案例: 这是一份2024高考数学大一轮复习Word版题库(人教A版文)第十章 算法初步、统计与统计案例、概率 第4节 变量间的相关关系与统计案例,共24页。试卷主要包含了线性回归方程,回归分析,独立性检验,08,eq \r≈14等内容,欢迎下载使用。
备战2024年高考数学大一轮复习(人教A版-理)第十章 算法初步、统计与统计案例 第1节 算法与程序框图: 这是一份备战2024年高考数学大一轮复习(人教A版-理)第十章 算法初步、统计与统计案例 第1节 算法与程序框图,共20页。试卷主要包含了程序框图,三种基本逻辑结构,如图是一个算法流程图,故满足条件的x值共有3个,5x,x≤50,,25+0等内容,欢迎下载使用。