备战2024高考一轮复习数学(理) 课时验收评价(六十五) 变量间的相关关系与统计案例
展开课时验收评价(六十五) 变量间的相关关系与统计案例
一、点全面广强基训练
1.(2023·重庆育才中学高三阶段练习)某机构为调查网游爱好者是否有性别差异,通过调研数据统计:500名男性中有200名爱玩网游,在400名女生中有50名爱玩网游.若要确定网游爱好是否与性别有关时,用下列最适合的统计方法是( )
A.均值 B.方差
C.独立性检验 D.回归分析
解析:选C 由题意可知,“爱玩网游”与“性别”是两类变量,其是否有关,应用独立性检验判断.
2.相关变量x,y的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y=1x+1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归方程y=2x+2,相关系数为r2.则( )
A.0<r1<r2<1 B.0<r2<r1<1
C.-1<r1<r2<0 D.-1<r2<r1<0
解析:选D 由散点图得这两个变量呈负相关,所以r1,r2<0.因为剔除点(10,21)后,剩下的数据更具有线性相关性,所以|r2|更接近1,所以-1<r2<r1<0.故选D.
3.(2023·全国高三专题练习)根据分类变量x与y的观察数据,计算得到K2=2.974.依据下面给出的临界值表,
P(K2≥k0) | 0.50 | 0.40 | 0.25 | 0.15 | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 |
k0 | 0.455 | 0.708 | 1.323 | 2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 |
可知下列判断中正确的是( )
A.有95%的把握认为变量x与y独立
B.有95%的把握认为变量x与y不独立
C.变量x与y独立,这个结论犯错误的概率不超过10%
D.变量x与y不独立,这个结论犯错误的概率不超过10%
解析:选D 因为K2=2.974>2.706,且2.974<3.841,所以依据表中给出的独立性检验知变量x与y不独立,这个结论犯错误的概率不超过10%,故选D.
4.某学习小组用计算机软件对一组数据(xi,yi)(i=1,2,3,…,8)进行回归分析,甲同学首先求出回归直线方程=2x+5,样本点的中心为(2,m).乙同学对甲的计算过程进行检查,发现甲将数据(3,7)误输成(7,3),数据(4,6)误输成(4,-6),将这两个数据修正后得到回归直线方程=kx+,则实数k=( )
A. B. C. D.
解析:选D 由题可知m=2×2+5=9,假设甲输入的(x1,y1)为(7,3),(x2,y2)为(4,-6),所以7+4+x3+…+x8=2×8=16,3-6+y3+…+y8=9×8=72,所以x3+…+x8=5,y3+…+y8=75,改为正确数据时得3+4+x3+…+x8=12,7+6+y3+…+y8=88,所以样本点的中心为,将其代入回归直线方程=kx+,得k=.故选D.
5.据一组样本数据(x1,y1),(x2,y2),…,(xn,yn),求得线性回归方程为=1.5x+0.5,且=3.现发现这组样本数据中有两个样本点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的线性回归直线l的斜率为1.2,则( )
A.去除两个误差较大的样本点后,y的估计值增加速度变快
B.去除两个误差较大的样本点后,重新求得的回归方程一定过点(3,4)
C.去除两个误差较大的样本点后,重新求得的回归方程为=1.2x+1.4
D.去除两个误差较大的样本点后,相应于样本点(2,3.75)的残差为0.05
解析:选C 因为1.2<1.5,所以去除两个误差较大的样本点后,y的估计值增加速度变慢,故A错误;当=3时,=3×1.5+0.5=5,设去掉两个误差较大的样本点后,横坐标的平均值为′,纵坐标的平均值为′,则′===3,′===5,故B错误;因为去除两个误差较大的样本点后,重新求得回归直线l的斜率为1.2,所以5=3×1.2+,解得=1.4,所以去除两个误差较大的样本点后的线性回归方程为=1.2x+1.4,故C正确;因为=1.2×2+1.4=3.8,所以y-=3.75-3.8=-0.05,故D错误.故选C.
6.某企业推出了一款新食品,为了解每单位该食品中某种营养成分含量x(单位:克)与顾客的满意率y的关系,通过调查研究发现可选择函数模型y=ekx+c来拟合y与x的关系,根据以下数据:
营养成分含量x/克 | 1 | 2 | 3 | 4 | 5 |
ln(100y) | 4.34 | 4.36 | 4.44 | 4.45 | 4.51 |
可求得y关于x的回归方程为( )
A.y=e0.043x+4.291 B.y=e0.043x-4.291
C.y=e0.043x+4.291 D.y=e0.043x-4.291
解析:选A 由y=ekx+c得100y=ekx+c,两边同时取自然对数,得ln(100y)=kx+c;由表中数据可知==3,ln(100y)的平均数==4.42.y=e0.043x+4.291化简变形可得100y=e0.043x+4.291,两边同时取自然对数可得,ln(100y)=0.043x+4.291,将=3代入可得,ln(100y)=0.043×3+4.291=4.42,与题中数据吻合,故选项A正确,B错误;y=e0.043x+4.291,两边同时取自然对数可得ln y=0.043x+4.291,而表中所给数据为ln(100y)的相关量,所以C错误,同理D错误.
7.(2023·北海模拟)近年来,新能源汽车产业大规模发展,某品牌汽车投入市场以来,受到诸多消费者欢迎,汽车厂家为扩大销售,对旗下两种车型电池续航进行满意度调查,制作了如下2×2列联表.
| 不满意 | 满意 | 总计 |
男 | 18 |
|
|
女 |
| 40 |
|
总计 |
|
| 100 |
已知从全部100人中随机抽取1人调查满意度为满意的概率为.
(1)完成上面的2×2列联表;
(2)根据(1)中的2×2列联表,判断是否有90%的把握认为满意度与消费者的性别有关?
P(K2≥k0) | 0.15 | 0.10 | 0.05 | 0.01 | 0.001 |
k0 | 2.072 | 2.706 | 3.841 | 6.635 | 10.828 |
解:(1)根据题意,满意的总人数为100×=70,
∴完成2×2列联表如下.
| 不满意 | 满意 | 总计 |
男 | 18 | 30 | 48 |
女 | 12 | 40 | 52 |
总计 | 30 | 70 | 100 |
(2)∵K2==≈2.473<2.706,
∴没有90%的把握认为满意度与消费者的性别有关.
8.(2023·四川树德中学高三阶段练习)自“国家反诈中心APP”推出后,某地区采取多措并举的推广方式,努力为人民群众构筑一道防诈反诈的“防火墙”.经统计,该地区网络诈骗月报案数与推广时间有关,并记录了经推广x个月后月报案数y的数据.
x/个 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
y/件 | 891 | 888 | 351 | 220 | 200 | 138 | 112 |
(1)根据以上数据,使用y=+b(a,b∈R)作为回归方程模型,求出y关于x的回归方程;
(2)分析该地区一直推广下去,两年后能否将网络诈骗月报案数降至75件以下.
参考数据:其中ti=,iyi=7 212,iyi=1 586,=0.37,-72=0.55.
解:(1)由题表中数据可得=×(891+888+351+220+200+138+112)=400,令t=,设y关于t的线性回归方程为=t+,则===1 000,则=400-1 000×0.37=30,故y关于x的回归方程为=+30.
(2)由回归方程=+30可知,随x的增大,y逐渐减少,当x=24时,=+30≈71.7<75,故两年后网络诈骗月报案数能降至75件以下.
二、重点难点培优训练
1.已知一系列样本点(x1,y1),(x2,y2),…,(xn,yn),其中n∈N*,n≥2.响应变量y关于x的线性回归方程为=+x,对于响应变量y,通过观测得到的数据称为观测值,通过线性回归方程得到的称为预测值,观测值减去预测值,称为残差,即i=yi-i=yi-xi-(i=1,2,…,n),称为相应于点(xi,yi)的残差.证明:
(1)i=0;
(2)=(1-r2)(yi-)2,并说明|r|与线性回归模型拟合效果的关系.
参考公式:r=,
=,=-.
证明:(1)∵i=yi-i,
∴i=i-i,且i=+xi,=-,
∴i=(+xi),=+,
∴i=n-(+xi)=n(+)-n-n=0.
(2)根据给出的相关系数公式,以及回归直线斜率和截距的最小二乘估计公式,可知(xi-)(yi-)=(xi-)2,记R2=1-=1-,∴2(xi-)(yi-)-2(xi-)2=2(xi-)2,
且2(xi-)(yi-)-2(xi-)2=(xi-) [2(yi-)-(xi-)]=(2yi--i)·(i-)=(yi-)2-(yi-i)2=R2(yi-)2,又2(xi-)2==r2(yi-)2=R2(yi-)2,
∴r2=R2,又R2=r2=1-,
∴=(1-r2)(yi-)2,且当越小时,相关性越强,线性回归模型拟合效果越好,即|r|越接近于1时,线性回归模型拟合效果越好.
2.(2022·新高考Ⅰ卷)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
| 不够良好 | 良好 |
病例组 | 40 | 60 |
对照组 | 10 | 90 |
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”,与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
①证明:R=·;
②利用该调查数据,给出P(A|B),P(A|)的估计值,并利用①的结果给出R的估计值.
附:K2=,
P(K2≥k) | 0.050 | 0.010 | 0.001 |
k | 3.841 | 6.635 | 10.828 |
解:(1)K2==24>6.635,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)①证明:因为R=·=···,
所以R=···.
所以R=·.
②由调查数据可知P(A|B)==,P(A|)==,且P(|B)=1-P(A|B)=,P(|)=1-P(A|)=,所以R=×=6.
3.中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y ℃关于时间x(min)的回归方程模型,通过实验收集在25 ℃室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的数据,并对数据做初步处理得到如图所示的散点图.
(1)根据散点图判断,①y=a+bx与②y=d·cx+25哪一个更适宜作为该茶水温度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立该茶水温度y关于时间x的回归方程;
(3)已知该茶水温度降至60 ℃口感最佳,根据(2)中的回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感?
附:①对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计公式分别为=,=-;
②参考数据:e-0.08≈0.92,e4.09≈60,ln 7≈1.9,ln 3≈1.1,ln 2≈0.7.
(xi-)(yi-) | (xi-)(wi-) | ||
73.5 | 3.85 | -95 | -2.24 |
表中:wi=ln(yi-25),=i.
解:(1)根据散点图判断,其变化趋势不是线性的,而是曲线的,因此选②y=d·cx+25更适宜此散点的回归方程.
(2)由y=d·cx+25有y-25=d·cx,两边取自然对数得ln(y-25)=ln(d·cx)=ln d+x·ln c,设w=ln(y-25),a=ln d,b=ln c,则ln(y-25)=ln d+x·ln c化为w=bx+a,又==3,
∴(xi-)2=28,∴b===-0.08,
∴a=-b=3.85-(-0.08)×3=4.09,
∴由b=-0.08=ln c,得c=e-0.08,由a=4.09=ln d得d=e4.09,
∴回归方程为y=d·cx+25=e4.09·e-0.08x+25=e4.09-0.08x+25,即y=e4.09-0.08x+25.
(3)当y=60时,代入回归方程y=e4.09-0.08x+25,得60=e4.09-0.08x+25,化简得35=e4.09-0.08x,即4.09-0.08x=ln 35,又e-0.08≈0.92,e4.09≈60,ln 7≈1.9,ln 3≈1.1,ln 2≈0.7,
∴4.09-0.08x=ln 35约化为ln 60-0.08x=ln 35,即0.08x=ln 60-ln 35=ln=ln 12-ln 7=(2ln 2+ln 3)-ln 7≈2×0.7+1.1-1.9=0.6,∴x≈=7.5,∴大约需要放置7.5 min才能达到最佳饮用口感.
备战2024高考一轮复习数学(理) 课时验收评价(五十七) 椭 圆: 这是一份备战2024高考一轮复习数学(理) 课时验收评价(五十七) 椭 圆,共5页。试卷主要包含了点全面广强基训练,重点难点培优训练等内容,欢迎下载使用。
备战2024高考一轮复习数学(理) 课时验收评价(五十八) 双曲线: 这是一份备战2024高考一轮复习数学(理) 课时验收评价(五十八) 双曲线,共5页。试卷主要包含了点全面广强基训练,重点难点培优训练等内容,欢迎下载使用。
备战2024高考一轮复习数学(理) 课时验收评价(三十七) 数列求和: 这是一份备战2024高考一轮复习数学(理) 课时验收评价(三十七) 数列求和,共5页。试卷主要包含了点全面广强基训练,重点难点培优训练等内容,欢迎下载使用。