方法技巧专题25 回归分析与独立性检验-2022年高考数学满分之路方法技巧篇
展开 方法技巧专题25 回归分析与独立性检验
解析篇
一、回归分析与独立性检
回归分析与独立性检验题型分析
【一】回归分析
(1) 求回归直线方程的一般步骤如下:
①依据样本数据画出散点图,确定两个变量具有线性相关关系;②计算的值;③计算回归系数;④写出回归直线方程为。
(2)回归直线过样本点中心.
(3)可以利用回归直线方程预报在取某个值时的估计值.
1.例题
类型一:线性问题
【例1】 广告投入对商品的销售额有较大影响,某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如下表(单位:万元)
广告费
2
3
4
5
6
销售额
29
41
50
59
71
由上表可得回归方程为,据此模型, 预测广告费为10万元时销售额约为( )
A.118.2万元 B.111.2万元 C.108.8万元 D.101.2万元
【答案】B
【解析】由表格中数据可得,,
,解得,
回归方程为,
当时,,
即预测广告费为10万元时销售额约为,故选B.
【例2】 随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,是昆虫大量活动与繁殖季节,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y与一定范围内的温度x有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:
日期
2日
7日
15日
22日
30日
温度x/∘C
10
11
13
12
8
产卵数y/个
23
25
30
26
16
(1)从这5天中任选2天,记这两天药用昆虫的产卵分别为m,n,求事件“m,n均不小于25”的概率;
(2)科研人员确定的研究方案是:先从这五组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.
(ⅰ)若选取的是3月2日与30日的两组数据,请根据3月7日、15日和22日这三天的数据,求出y关于x的线性回归方程;
(ⅱ)若由线性回归方程得到的估计数据与选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(ⅰ)中所得的线性回归方程是否可靠?
附:回归直线的斜率和截距的最小二乘估计公式分别为 ,a∧=y-b∧⋅x.
【解析】(1)依题意得,m、n的所有情况有:{23,25}、{23,30}、{23,26}、{23,16}、{25,30}、
{25,26}、{25,16}、{30,26}、{30,16}、{26,16},共有10个;
设“m、n均不小于25”为事件A,则事件A包含的基本事件有{25,30}、{25,26}、{30,26},
所以P(A)=310,故事件A的概率为310.
(2)(ⅰ)由数据得x=12,y=27,
, ,
,
所以y关于x的线性回归方程为y∧=52x-3.
(ⅱ)由(ⅰ)知,y关于x的线性回归方程为y∧=52x-3.
当x=10时,y∧=52×10-3=22,|22-23|<2.
当x=8时,y∧=52×8-3=17,|17-16|<2.
所以,所得到的线性回归方程y∧=52x-3是可靠的.
【例3】经调查,3个成年人中就有一个高血压,那么什么是高血压?血压多少是正常的?经国际卫生组织对大量不同年龄的人群进行血压调查,得出随年龄变化,收缩压的正常值变化情况如下表:
年龄
28
32
38
42
48
52
58
62
收缩压(单位)
114
118
122
127
129
135
140
147
其中:,
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(的值精确到)
(3)若规定,一个人的收缩压为标准值的倍,则为血压正常人群;收缩压为标准值的倍,则为轻度高血压人群;收缩压为标准值的倍,则为中度高血压人群;收缩压为标准值的1.20倍及以上,则为高度高血压人群.一位收缩压为的70岁的老人,属于哪类人群?
【解析】
(1)
(2),
.
∴.
.
∴回归直线方程为.
(3)根据回归直线方程的预测,年龄为70岁的老人标准收缩压约为
,
∵.∴收缩压为的70岁老人为中度高血压人群.
2.巩固提升综合练习
【练习1】如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1–7分别对应年份2008–2014.
(Ⅰ)由折线图看出,可用线性回归模型拟合y与的关系,请用相关系数加以说明;
(Ⅱ)建立y关于的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:参考数据:,,,≈2.646.
参考公式:相关系数
回归方程中斜率和截距的最小二乘估计公式分别为:
【解析】(Ⅰ)由折线图中数据和附注中参考数据得
,,,
,
.
因为与的相关系数近似为0.99,说明与的线性相关程度相当高,从而可以用线性回归模型拟合与的关系.
(Ⅱ)由及(Ⅰ)得,
.所以,关于的回归方程为:.
将2016年对应的代入回归方程得:.
所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.
【练习2】 “团购”已经渗透到我们每个人的生活,这离不开快递行业的发展,下表是2013-2017年全国快递业务量(x亿件:精确到0.1)及其增长速度(y%)的数据
(1)试计算2012年的快递业务量;
(2)分别将2013年,2014年,…,2017年记成年的序号t:1,2,3,4,5;现已知y与t具有线性相关关系,试建立y关于t的回归直线方程;
(3)根据(2)问中所建立的回归直线方程,估算2019年的快递业务量
附:回归直线的斜率和截距地最小二乘法估计公式分别为:,
【解析】(1)设2012年的快递业务量为a,则,解得;
(2)
t
1
2
3
4
5
y
61
52
48
51
28
,
(3)令,预测2018年比上半年增长,[来源:学科网ZXXK]
2018年快递业务增长量为(亿件)
令,预测2019年比上半年增长,
2019年快递业务增长量为(亿件).
类型二:非线性问题
【例4】下列四个命题:①在回归模型中,预报变量y的值不能由解释变量x唯一确定;②若变量x,y满足关系,且变量y与z正相关,则x与z也正相关;③在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高;④以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,.
其中真命题的个数为( )
A.1个 B.2个 C.3个 D.4个
【答案】C
【解析】
【分析】
直接利用回归直线的方程的应用,相关的变量关系的应用,残差图的应用分析结果.
【详解】
下列四个命题:
①在回归模型中,预报变量y的值不能由解释变量x唯一确定;根据回归模型中的变量关系,正确.
②若变量x,y满足关系,且变量y与z正相关,则x与z也正相关;应该是负相关.故错误.
③在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高;即越接近于回归直线的距离越小,故正确.
④以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,.故正确.
故选:C.
【例5】已知某种细菌的适宜生长温度为12℃~27℃,为了研究该种细菌的繁殖数量(单位:个)随温度(单位:℃)变化的规律,收集数据如下:
温度/℃
14
16
18
20
22
24
26
繁殖数量/个
25
30
38
50
66
120
218
对数据进行初步处理后,得到了一些统计量的值,如表所示:
[来源:学_科_网]
20
78
4.1
112
3.8
1590
20.5
其中,.
(1)请绘出关于的散点图,并根据散点图判断与哪一个更适合作为该种细菌的繁殖数量关于温度的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表格数据,建立关于的回归方程(结果精确到0.1);
(3)当温度为27℃时,该种细菌的繁殖数量的预报值为多少?
参考公式:对于一组数据,其回归直线的斜率和截距的最小二成估计分别为,,参考数据:.
【解析】
【分析】
(1)由散点图即可得到答案;
(2)把两边取自然对数,得,由 计算得到,再将代入可得,最终求得,即;
(3)将代入中计算即可.
【详解】
解:(1)绘出关于的散点图,如图所示:
由散点图可知,更适合作为该种细菌的繁殖数量关于的回归方程类型;
(2)把两边取自然对数,得,
即,
由
.
∴,
则关于的回归方程为;
(3)当时,计算可得;
即温度为27℃时,该种细菌的繁殖数量的预报值为245.
【点睛】
本题考查求非线性回归方程及其应用的问题,考查学生数据处理能力及运算能力,是一道中档题.
【例6】自从新型冠状病毒爆发以来,全国范围内采取了积极的措施进行防控,并及时通报各项数据以便公众了解情况,做好防护.以下是湖南省2020年1月23日-31日这9天的新增确诊人数.
日期
23
24
25
26
27
28
29
30
31
时间
1
2
3
4
5
6
7
8
9
新增确诊人数
15
19
26
31
43
78
56
55
57
经过医学研究,发现新型冠状病毒极易传染,一个病毒的携带者在病情发作之前通常有长达14天的潜伏期,这个期间如果不采取防护措施,则感染者与一位健康者接触时间超过15秒,就有可能传染病毒.
(1)将1月23日作为第1天,连续9天的时间作为变量x,每天新增确诊人数作为变量y,通过回归分析,得到模型用于对疫情进行分析.对上表的数据作初步处理,得到下面的一些统计量的值(部分数据已作近似处理):,.根据相关数据,求该模型的回归方程(结果精确到0.1),并依据该模型预测第10天新增确诊人数.
(2)如果一位新型冠状病毒的感染者传染给他人的概率为0.3,在一次12人的家庭聚餐中,只有一位感染者参加了聚餐,记余下的人员中被感染的人数为,求最有可能(即概率最大)的值是多少.
附:对于一组数据,…,,其回归直线的斜率和截距的最小二乘估计分别为.
【解析】
【分析】(1)由模型,根据提供公式,结合数据,,求出,利用在回归方程上求出,将代入回归方程,即可估算结论;
(2)根据已知可得余下的人员中被感染的人数为,服从二项分布,
由,且,即可求出最有可能(即概率最大)的值.
【详解】
(1),
,
回归方程为,
当时,,
估计第10天新增确诊人数为人;
(2)设余下11人中被感染的人数为,则,
,要使最大,
需,
即,
得,
所以最有可能(即概率最大)的值为.
【点睛】
本题考查回归方程及其应用、二项分布的随机变量概率最大值,考查计算求解能力,属于中档题.
2.巩固提升综合练习
【练习3】习近平总书记在十九大报告中指出,必须树立和践行“绿水青山就是金山银山”的生态文明发展理念,某城市选用某种植物进行绿化,设其中一株幼苗从观察之日起,第x天的高度为ycm,测得一些数据图如下表所示:
第x天
1
4
9
16
25
36
49
高度y/cm
0
4
7
9
11
12
13
作出这组数的散点图如下
(1)请根据散点图判断,与中哪一个更适宜作为幼苗高度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测第144天这株幼苗的高度(结果保留1位小数).
附:,
参考数据:
140
28
56
283
【解析】
【分析】(1)根据散点图,可直接判断出结果;
(2)先令,根据题中数据,得到与的数据对,根据新的数据对,求出,,再由最小二乘法求出,即可得出回归方程,从而可求出预测值.[来源:Zxxk.Com]
【详解】
解:(1)根据散点图,更适宜作为幼苗高度y关于时间x的回归方程类型;
(2)令,则构造新的成对数据,如下表所示:
x
1
4
9
16
25
36
49
1
2
3
4
5[来源:Zxxk.Com]
6
7
y
0
4
7
9
11
12
13
容易计算,,.
通过上表计算可得:
因此
∵回归直线过点(,),
∴,
故y关于的回归直线方程为
从而可得:y关于x的回归方程为
令x=144,则,
所以预测第144天幼苗的高度大约为24.9cm.
【点睛】本题主要考查非线性回归方程,先将问题转化为线性回归方程,根据最小二乘法求出参数的估计值,即可得出结果,属于常考题型.
【练习4】近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付,某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),绘制了如图所示的散点图:
(I)根据散点图判断在推广期内,与(c,d为为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(I)的判断结果求y关于x的回归方程,并预测活动推出第8天使用扫码支付的人次.
参考数据:
4
62
1.54
2535
50.12
140
3.47
其中,
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为:,。
【解析】
【分析】(I)通过散点图,判断适宜作为扫码支付的人数y关于活动推出天数x的回归方程类型(Ⅱ)通过对数运算法则,利用回归直线方程相关系数,求出回归直线方程,然后求解第8天使用扫码支付的人次.
【详解】
(I)根据散点图判断,适宜作为扫码支付的人数y关于活动推出天数x的回归方程类型.
(Ⅱ)因为,两边取常用对数得:,
设
,
,
把样本数据中心点代入得:,
,
则
所以y关于x的回归方程为,
把代入上式得:,
故活动推出第8天使用扫码支付的人次为347.
【点睛】
本题主要考查了线性回归方程的求法及应用,数学期望的应用,考查计算能力,是中档题.
【练习5】某企业生产一种产品,从流水线上随机抽取件产品,统计其质量指标值并绘制频率分布直方图(如图1):规定产品的质量指标值在的为劣质品,在的为优等品,在的为特优品,销售时劣质品每件亏损元,优等品每件盈利元,特优品每件盈利元,以这件产品的质量指标值位于各区间的频率代替产品的质量指标值位于该区间的概率.
(1)求每件产品的平均销售利润;
(2)该企业主管部门为了解企业年营销费用(单位:万元)对年销售量(单位:万件)的影响,对该企业近年的年营销费用和年销售量,数据做了初步处理,得到的散点图(如图2)及一些统计量的值.
表中,,,.
根据散点图判断,可以作为年销售量(万件)关于年营销费用(万元)的回归方程.
①求关于的回归方程;
②用所求的回归方程估计该企业每年应投入多少营销费,才能使得该企业的年收益的预报值达到最大?(收益销售利润营销费用,取)
附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,.
【解析】
【分析】
(1)每件产品的销售利润为,由已知可得的取值,由频率分布直方图可得劣质品、优等品、特优品的概率,从而可得的概率分布列,依期望公式计算出期望即为平均销售利润;
(2)①对取自然对数,得,
令,,,则,这就是线性回归方程,由所给公式数据计算出系数,得线性回归方程,从而可求得;
②求出收益,可设换元后用导数求出最大值.
【详解】
解:(1)设每件产品的销售利润为,则的可能取值为,,.由频率分布直方图可得产品为劣质品、优等品、特优品的概率分别为、、.
所以;;.所以的分布列为
所以(元).
即每件产品的平均销售利润为元.
(2)①由,得,
令,,,则,
由表中数据可得,
则,
所以,即,
因为取,所以,故所求的回归方程为.
②设年收益为万元,则
令,则,,当时,,
当时,,所以当,即时,有最大值.
即该企业每年应该投入万元营销费,能使得该企业的年收益的预报值达到最大,最大收益为万元.
【点睛】
本题考查频率分布直方图,考查随机变量概率分布列与期望,考查求线性回归直线方程,及回归方程的应用.在求指数型回归方程时,可通过取对数的方法转化为求线性回归直线方程,然后再求出指数型回归方程.
【二】独立性检验
独立性检验
独立性检验是用来考察两个分类变量是否有关系,计算随机变量的观测值K2,K2越大,说明两个分类变量有关系的可能性越大.
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则K2=,
若K2>3.841,则有95%的把握说两个事件有关;
若K2>6.635,则有99%的把握说两个事件有关;
若K2<2.706,则没有充分理由认为两个事件有关.
1.例题
【例1】 某学校研究性学习小组对该校高三学生视力情况进行调查,在高三的全体1000名学生中随机抽取了 100名学生的体检表,并得到如图的频率分布直方图.
(1)若直方图中后四组的频数成等差数列,试估计全年级视力在4.8以下的人数;
(2)学习小组成员发现,学习成绩突出的学生,近视的比较多,为了研究学生的视力与学习成绩是否有关系,对年级名次1∼50名和951∼1000名的学生进行了调查,得到上表中数据,根据表中的数据,能否在犯错的概率不超过0.05的前提下认为视力与学习成绩有关系?
附:
K2=nad-bc2a+bc+da+cb+d
【解析】(1)设各组的频率为,
由图可知,第一组有3人,第二组7人,第三组27人,
因为后四组的频数成等差数列,
所以后四组频数依次为27,24,21,18,
所以视力在4.8以下的频数为3+7+27+24=61人.
故全年级视力在4.8以下的人数约为1000×61100=610人.
(2)由已知得,Κ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(45×20-5×30)250×50×75×25=12>3.841,
因此在犯错误的概率不超过0.05的前提下认为视力与学习成绩有关系.
【例2】2014年12月19日,2014年中国数学奥林匹克竞赛(第30届全国中学生数学冬令营)在重庆市巴蜀中学举行.参加本届中国数学奥林匹克竞赛共有来自各省、市(自治区、直辖市)、香港地区、澳门地区,以及俄罗斯、新加坡等国的30余支代表队,共317名选手.竞赛为期2天,每天3道题,限时4个半小时完成.部分优胜者将参加为国际数学奥林匹克竞赛而组建的中国国家集训队.中国数学奥林匹克竞赛(全国中学生数学冬令营)是在全国高中数学联赛基础上进行的一次较高层次的数学竞赛,该项活动也是中国中学生级别最高、规模最大、最有影响的全国性数学竞赛.2020年第29届全国中学生生物学竞赛也将在重庆巴蜀中学举行.巴蜀中学校本选修课“数学建模”兴趣小组调查了2019年参加全国生物竞赛的200名学生(其中男生、女生各100人)的成绩,得到这200名学生成绩的中位数为78.这200名学生成绩均在50与110之间,且成绩在内的人数为30,这200名学生成绩的高于平均数的男生有62名,女生有38名.并根据调查结果画出如图所示的频率分布直方图.
(1)求,的值;
(2)填写下表,能否有的把握认为学生成绩是否高于平均数与性别有关系?
男生
女生
总计
成绩不高于平均数
成绩高于平均数
总计
参考公式及数据:,其中.
【解析】(1)∵成绩在内的人数为30,
∴成绩在内的频率为.
由频率分布直方图得,
化简得,①
由中位数可得,
化简得,②
由①②解得,.
(2)200名学生成绩的高于平均数的男生有62名,女生有38名,
因男、女生各100名,所以可得成绩不高于平均数的男生有38名,女生有62名,
根据题意得到列联表:
男生
女生
总计
成绩不高于平均数
38
62
100
成绩高于平均数
62
38
100
总计
100
100
200
∴的观测值,
∴有的把握认为学生成绩是否高于平均数与性别有关系.
2.巩固提升综合练习
【练习1】 某市一中毕业生有3000名,二中毕业生有2000名.为了研究语文高考成绩是否与学校有关,现采用分层抽样的方法,从中抽取100名学生,先统计了他们的成绩(折合成百分制),然后按“一中”、“二中”分为两组,再将成绩分为5组,[50,60),[60,70),[70,80),[80,90),90,100,分别加以统计,得到如图所示的频率分布直方图:
(1)从成绩在90分(含90分)以上的学生中随机抽取2人,问至少抽到一名学生是“一中”的概率;
(2)规定成绩在70分以下为“成绩不理想”,请根据已知条件构造2×2列联表,并判断能否在犯错误的概率不超过0.1的前提下认为“成绩理想不理想与所在学校有关”?
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
【解析】(1)由分层抽样抽取的100名学生中,一中有60名,二中有40名,
所以成绩在90分以上的人中,一中有60×0.005×10=3人;
二中有40×0.005×10=2人,
故至少抽到一名学生是“一中”的概率为p=1-110=910.
(2)2×2列联表如下:
成绩不理想
成绩理想
合计
一中
15
45
60
二中
14
26
40
合计
29
71
100
将列联表中的数据代入公式,可得:
K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(15×26-14×45)229×71×60×40≈1.1656<2.706,
所以不能在犯错误的概率不超过0.1的前提下认为“成绩理想不理想与所在学校有关”.
【练习2】某社会机构为了调查对手机游戏的兴趣与年龄的关系,通过问卷调查,整理数据得如下列联表:
40岁以下
40岁以上
合计
很有兴趣
30
15
45
无兴趣
20
35
55
合计
50
50
100
(1)根据列联表,能否有99.9%的把握认为对手机游戏的兴趣程度与年龄有关?
(2)若已经从40岁以下的被调查者中用分层抽样的方式抽取了5名,现从这5名被调查者中随机选取3名,求这3名被调查者中恰有1名对手机游戏无兴趣的概率.
参考公式及数据:,其中.
【解析】(1)由题可得的观测值,
∴没有99.9%的把握认为手机游戏的兴趣程度与年龄有关.
(2)由题得40岁以下的被调查者中用分层抽样的方式抽取的5名人员中有3名对手机游戏很有兴趣,
设为、、;有2名对手机游戏无兴趣,设为、,
从、、、,中随机选取3名的基本事件有、、、、、、、、、,共10个.
其中,恰有1个的有、、、、、,共6个
∴这3名被调查者中恰有1名对手机游戏无兴趣的概率为.
三、课后自我检测
1.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20), [20,22.5), [22.5,25),[25,27.5),[27.5,3]根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60 C.120 D.140
【答案】D
【解析】自习时间不少于22.5小时的有,故选D.
2.高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下,甲、乙、丙为该班三位学生.
从这次考试成绩看,
①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ;
②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 .
【答案】乙 ; 数学
【解析】①由图可知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排名比总成绩排名靠前,故填乙.②由图可知,比丙的数学成绩排名还靠后的人比较多;而总成绩的排名中比丙排名靠后的人数比较少,所以丙的数学成绩的排名更靠前,故填数学.
3.五四青年节活动中,高三(1)、(2)班都进行了3场知识辩论赛,比赛得分情况的茎叶图如图所示(单位:分),其中高三(2)班得分有一个数字被污损,无法确认,假设这个数字x具有随机性(x∈N),那么高三(2)班的平均得分大于高三(1)班的平均得分的概率为 ( )
A.34 B.13 C.35 D.25
【答案】D
【解析】由茎叶图可得高三(1)班的平均分为x=89+92+933=2743,
高三(2)的平均分为y=88+(90+x)+913=269+x3,由x
又x∈N,所以x可取6,7,8,9,故所求的概率为P=410=25,
故选D.
4.为了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问卷调查得到如下列联表:平均每天喝500以上为常喝,体重超过50为肥胖.
常喝
不常喝
合计
肥胖
2
不肥胖
18
合计
30
已知在全部30人中随机抽取1人,抽到肥胖的学生的概率为.
(1)请将上面的列联表补充完整;
(2)是否有的把握认为肥胖与常喝碳酸饮料有关?说明你的理由;
(3)已知常喝碳酸饮料且肥胖的学生中有2名女生,现从常喝碳酸饮料且肥胖的学生抽取2人参加电视节目,则正好抽到一男一女的概率是多少?
参考公式及数据:,其中.
【解析】(1)设常喝碳酸饮料肥胖的学生有人,,,
补充完整的列联表如下:
常喝
不常喝
合计
肥胖
6
2
8
不肥胖
4
18
22
合计
10
20
30
(2)由已知数据可求得:,
因此有的把握认为肥胖与常喝碳酸饮料有关.
(3)设常喝碳酸饮料的肥胖者男生为、、、,女生为、,
则任取两人有,,,,,,,,,,,,,,共15种,
其中一男一女有,,,,,,,,共8种,
故抽出一男一女的概率为.
5.某企业为提高生产质量,引入了一批新的生产设备,为了解生产情况,随机抽取了新、旧设备生产的共200件产品进行质量检测,分别统计得到产品的质量指标值如下表及图(所有产品质量指标值均位于区间内),若质量指标值大于30,则说明该产品质量高,否则说明该产品质量一般.
质量指标
合计
频数
2
8
10
30
20
10
80
(1)根据上述图表完成下列列联表,并判断是否有的把握认为产品质量高与引人新设备有关;
新旧设备产品质量列联表
产品质量高
产品质量一般
合计
新设备产品
旧设备产品
合计
(2)从旧设备生产的质量指标值位于区间的产品中,按分层抽样抽取6件产品,再从这6件产品中随机选取2件产品进行质量检测,求至少有一件产品质量指标值位于的概率.
参考公式及数据:,其中.
【解析】(1)列联表如下:
产品质量高
产品质量一般
合计
新设备产品
60
20
80
旧设备产品
48
72
120
合计
108
92
200
所以的观测值,
所以有的把握认为产品质量高与引入新设备有关.
(2)由题意,从中抽取1件产品,记为,从中抽取2件产品,记为,,
从中抽取3件产品,记为,,,
从这6件产品中任选2件,共有15种可能情况,分别为,,,,,,,,,,,,,,,
记事件为至少有一件产品质量指标位于,共有9种情况,
所以.
6.(2019年高考全国Ⅰ卷文数)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:.
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【解析】(1)由调查数据,男顾客中对该商场服务满意的比率为,
因此男顾客对该商场服务满意的概率的估计值为,女顾客中对该商场服务满意的比率为,
因此女顾客对该商场服务满意的概率的估计值为.
(2)由题可得.
由于,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
7.(2017年高考全国Ⅱ卷文数)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k)
0.050 0.010 0.001
k
3.841 6.635 10.828
.
【解析】(1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2=.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
8. (2018年全国III卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:,
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
【解析】
(1)第二种生产方式的效率更高.理由如下:
(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高. 以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.
(2)由茎叶图知m=79+812=80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于,所以有99%的把握认为两种生产方式的效率有差异.
9.某企业生产某种产品,为了提高生产效益,通过引进先进的生产技术和管理方式进行改革,并对改革后该产品的产量x(万件)与原材料消耗量y(吨)及100件产品中合格品与不合格品数量作了记录,以便和改革前作对照分析,以下是记录的数据:
表一:改革后产品的产量和相应的原材料消耗量
x
3
4
5
6
y
2.5
3
4
4.5
表二:改革前后定期抽查产品的合格数与不合格数
合格品的数量
不合格品的数量
合计
改革前
90
10
100
改革后
85
15
100
合计
175
25
200
(1)请根据表一提供数据,用最小二乘法求出y关于x的线性回归方程y∧=b∧x+a∧ .
(2)已知改革前生产7万件产品需要6.5吨原材料,根据回归方程预测生产7万件产品能够节省多少原材料?
(3)请根据表二提供的数据,判断是否有90%的把握认为“改革前后生产的产品的合格率有差异”?
附参考公式与数据:,;
K2=;
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
【解析】(1)由表一得x=3+4+5+64=4.5,y=2.5+3+4+4.54=3.5,
+62=86,
∴b=3×2.5+4×3+5×4+6×4.5-4×4.5×3.586-4×4.52=66.5-635=0.7,
a=3.5-0.7×4.5=0.35,
所以所求线性回归方程为y=0.7x+0.35.
(2)当x=7时,y=0.7×7+0.35=5.25,
从而能够节省6.5-5.25=1.25吨原材料.
(3)由表二得K2=200×(90×15-85×10)2100×100×175×25=87<2.706,
因此,没有90%的把握认为“改革前后生产的产品的合格率有差异”.
10.一只药用昆虫的产卵数y与一定范围内的温度x有关,现收集了该种药用昆虫的6组观测数据如下表:
温度x/℃
21
23
24
27
29
32
产卵数y/个
6
11
20
27
57
77
经计算得:
,,线性回归模型的残差平方和,,
其中分别为观测数据中的温度和产卵数,
(1)若用线性回归模型,求y关于x的回归方程(精确到0.1);
(2)若用非线性回归模型求得y关于x的回归方程为,且相关指数.
①试与1中的回归模型相比,用说明哪种模型的拟合效果更好.
②用拟合效果好的模型预测温度为35℃时该用哪种药用昆虫的产卵数(结果取整数)
附:一组数据其回归直线的斜率和截距的最小二乘估计为,;相关指数.
【解析】
【分析】
(1)求出、后代入公式直接计算得、,即可得解;
(2)求出线性回归模型的相关指数,与比较即可得解;
(3)直接把代入,计算即可得解.
【详解】
(1)由题意,则,,
,,
y关于x的线性回归方程为.
(2)①对于线性回归模型,,,
相关指数为
因为,所以用非线性回归模型拟合效果更好.
②当,时(个)
所以温度为时,该种药用昆虫的产卵数估计为190个.
【点睛】
本题考查了线性回归方程的求解、相关指数的应用以及非线性回归方程的应用,考查了计算能力,属于中档题.
方法技巧专题26 平面向量-2022年高考数学满分之路方法技巧篇: 这是一份方法技巧专题26 平面向量-2022年高考数学满分之路方法技巧篇,文件包含方法技巧专题26平面向量解析版docx、方法技巧专题26平面向量原卷版docx等2份试卷配套教学资源,其中试卷共40页, 欢迎下载使用。
方法技巧专题08 轨迹方程的求法-2022年高考数学满分之路方法技巧篇: 这是一份方法技巧专题08 轨迹方程的求法-2022年高考数学满分之路方法技巧篇
方法技巧专题14 导数与切线方程问题-2022年高考数学满分之路方法技巧篇: 这是一份方法技巧专题14 导数与切线方程问题-2022年高考数学满分之路方法技巧篇,文件包含方法技巧专题14导数与切线方程问题解析版docx、方法技巧专题14导数与切线方程问题原卷版docx等2份试卷配套教学资源,其中试卷共28页, 欢迎下载使用。