第22讲 统计初步及成对数据的统计分析-高考数学必考考点二轮复习讲义(新高考专用)
展开
第二十二讲:统计初步及成对数据的统计分析
【考点梳理】
1. 统计初步
(1) 随机抽样:简单随机抽样,分层抽样
(2) 用样本估计总体:频率分布直方图,样本数字特征(百分位数、平均数、众数、中位数、方差、标准差)
特征数
具体数字算法
频率分布直方图(表)
众数
次数出现最多的数字
频率最大或最高组的中间值
中位数
样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取当中两个数据的平均数作为中位数
频率等于0.5时的横坐标
平均数
所有数字之和除以总个数
每个小矩形面积乘以小矩形底边中点的横坐标之和
方差
平均数反映了数据取值的平均水平,标准差、方差描述了一组数据波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定
2. 成对数据的统计分析
(1)相关关系,(2)回归分析,(3)独立性检验
【典型题型讲解】
考点一:抽样:简单随机抽样分层抽样
【典例例题】
例1.某工厂利用随机数表对生产的700个零件进行抽样测试,先将700个零件进行编号,001,002,……,699,700.从中抽取70个样本,下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是( )
3221183429 7864540732 5242064438 1223435677 3578905642
8442125331 3457860736 2530073286 2345788907 2368960804
3256780843 6789535577 3489948375 2253557832 4577892345
A.623 B.328 C.253 D.007
【答案】A
【解析】从第5行第6列开始向又读取数据,
第一个数为253,第二个数是313,第三个数是457,
下一个数是860,不符合要求,下一个数是736,不符合要求,下一个是253,重复,
第四个是007,第五个是328,第六个是623.
故选:A.
例2.年月日,搭载问天实验舱的长征五号遥三运载火箭,在我国文昌航天发射场成功发射,我国的航天事业又上了一个新的台阶.某校现有高一学生人,高二学生人,高三学生人,为了调查该校学生对我国航天事业的了解程度,现从三个年级中采用分层抽样的方式抽取人填写问卷调查,则高三年级有多少人被抽中( )
A.16 B.18 C.20 D.24
【答案】D
【解析】由分层抽样原则可知:高三年级应抽取人.
故选:D.
【方法技巧与总结】
根据样本数据的特点要判定采用随机简单抽样和分层抽样
【变式训练】
1.某个年级有男生180人,女生160人,用分层抽样的方法从该年级全体学生中抽取一个容量为68的样本,则此样本中女生人数为( )
A.40 B.36 C.34 D.32
【答案】D
【解析】由题意得:样本中女生人数为.
故选:D
2.某中学为了掌握学校员工身体状况,偶尔会采用抽检的方式来收集各部门员工的健康情况.为了让样本更具有代表性,学校对各部门采用分层抽样的方法进行抽检.已知该校部门、部门、部门分别有40、60、80人,各部门员工不存在交叉任职情况,若共抽检了90人,则部门抽检人数为______.
【答案】20
【解析】由题意得从部门抽检人数为(人),
故答案为:20
3.某市甲、乙、丙三所学校的高三学生共有800名,其中男、女生人数如下表:
甲校
乙校
丙校
男生
97
90
x
女生
153
160
y
(1)现用分层随机抽样的方法从这三所学校的所有高三学生中抽取48人,则应从丙校抽取多少人?
(2)该市模考后,市教研室准备从这三所学校的所有高三学生中利用随机数法抽取100人进行成绩统计分析,将800人按001,002,…,800进行编号,如果从第8行第7列的数开始向右读,请你依次写出最先抽取的4个人的编号.(下面摘取了随机数表第7行至第9行)
8442 1753 3157 2455 0688 7704 7447 6721 7633 5026 8392
6301 5316 5916 9275 3816 5821 7071 7512 8673 5807 4439
1326 3321 1342 7864 1607 8252 0744 3815 0324 4299 7931
【解析】(1)根据题意可得丙校共有人,
根据分层抽样规则可得,应从丙校抽取人.
(2)第8行第7列的数为1,从数1开始向右读,则最先抽取的4个人的编号为165,538,707,175.
考点二:样本数字特征
【典例例题】
例1.(2022·广东中山·高三期末)甲、乙两支田径队的体检结果为:甲队体重的平均数为60kg,方差为200,乙队体重的平均数为70kg,方差为300,又已知甲、乙两队的队员人数之比为1:4,那么甲、乙两队全部队员的平均体重和方差分别是( )
A.65,280 B.68,280 C.65,296 D.68,296
【答案】B
【解析】设甲队有a人,甲、乙两队的队员人数之比为1:4,则乙队有4a人,
因为甲队体重的平均数为60,乙队体重的平均数为70,
则甲、乙两队全部队员的平均体重为
,
甲队体重的方差
则
乙队体重的方差为
则
甲、乙两队全部队员体重的方差为
+
+
故选:B.
例2.(2022·广东深圳·高三期末)为了分析某次考试的情况,随机抽取了若干学生,将其考试成绩分组为:,,,,,,,,,并绘制成如下图所示的频率分布直方图,据此可估计该次考试成绩的中位数,则整数k的值为( )
A.99 B.100 C.101 D.102
【答案】B
【详解】考试成绩在内的频率为:
,
则前4组考试成绩频率分别为:
,
,
,
,
考试成绩的中位数为,
则,
故选:B.
例3.(2021·广东汕头·高三期末)某中学为了解学生数学史知识的积累情况,随机抽取150名同学参加数学史知识测试,测试题共5道,每答对一题得20分,答错得0分.得分不少于60分记为及格,不少于80分记为优秀,测试成绩百分比分布图如图所示,则( )
A.该次数学史知识测试及格率超过90%
B.该次数学史知识测试得满分的同学有15名
C.该次测试成绩的中位数大于测试成绩的平均数
D.若该校共有1500名学生,则数学史知识测试成绩能得优秀的同学大约有720名
【答案】AC
【详解】由图知,及格率为,故A正确.
该测试满分同学的百分比为,即有名,B错误.
由图知,中位数为80分,平均数为分,故C正确.
由题意,1500名学生成绩能得优秀的同学有,故D错误.
故选:AC
例4.2021年7月至2022年7月,我国居民消费价格保持平稳,居民消费价格涨跌幅如图所示,则( )
备注:同比增长率=,环比增长率=,
A.2022年1月全国居民消费价格比2021年1月全国居民消费价格有所下降
B.2022年5月全国居民消费价格比2022年4月全国居民消费价格有所上升
C.2021年7月至2022年7月全国居民消费价格同比增长率的40%分位数为1.0%
D.2021年10月至2022年7月全国居民消费价格环比增长率的平均数为0.25%
【答案】D
【解析】对A,从图中可以看出2022年1月全国居民消费价格的同比增长率为,
所以2022年1月全国居民消费价格有所上升,故A错误;
对B,由图2022年5月全国居民消费价格环比增长率为,
所以2022年5月全国居民消费价格有所下降,故B错误;
对C,将C选项中的数据由小到大排列得,
,
因为,则同比增长率的40%分位数为第6个数,故C错误;
对D,环比增长率的平均数为
,故D正确.
故选:D
【方法技巧与总结】
1、频率分布直方图
(1)利用频率分布直方图求频率、频数;
(2)利用频率分布直方图估计总体.
(3)频率分布直方图的纵坐标是频率除以组距,而不是频率.
2、百分位数
计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
【变式训练】
1.(2022·广东东莞·高三期末)气象意义上从春季进入夏季的标志为“当且仅当连续天每天日平均温度不低于”.现有甲、乙、丙三地连续天日平均温度的记录数据(数据均为正整数,单位)且满足以下条件:
甲地:个数据的中位数是,众数是;
乙地:个数据的中位数是,平均数是;
丙地:个数据有个是,平均数是,方差是;
根据以上数据,下列统计结论正确的是( )
A.甲地进入了夏季 B.乙地进入了夏季
C.不能确定丙地进入了夏季 D.恰有2地确定进入了夏季
【答案】AC
【详解】甲地:5个数据由小到大排,则22,22,24,,,其中,满足进入夏季的标志;
乙地:将5个数据由小到大排,则,,27,,,其中,
则,而,
故,其中必有一个小于22,故不满足一定进入夏季的标志;
丙地:设5个数据为,,,,30,且,
由方差公式可知:,
则,
不妨设,,,
则,,均大于22,但不确定是否大于22,故不能确定丙地进入夏天.
故选:AC.
2.如图1为某省2019年1~4月份快递业务量统计图,图2为该省2019年1~4月份快递业务收入统计图,对统计图理解不正确的是( )
A.2019年1~4月份快递业务量3月份最高,2月份最低,差值接近2000万件
B.从1~4月份来看,业务量与业务收入有波动,但整体保持高速增长
C.从两图中看,增量与增长速度并不完全一致,但业务量与业务收入变化高度一致
D.2019年1~4月份快递业务量同比增长率均超过50%,在3月份最高,和春节后网购迎来喷涨有关
【答案】B
【解析】从图(1)的柱形图可得2019年1~4月份快递业务量3月份最高,2月份最低,
3月份比2月份高4397-2411=1986,差值接近2000万件,故A正确.
从1~4月份来看,业务量与业务收入有波动,结合图(1)(2)中的柱形图可得业务量与业务收入在2月份和4月份均下降,故B错误.
从两图中柱状图可得业务量与业务收入变化高度一致,但业务量2月份同比增长,而业务收入2月份同比增长,因此增量与增长速度并不完全一致,故C正确.
从图(1)中可得2019年1~4月份快递业务量同比增长率均超过50%,在3月份最高,这的确和春节后网购迎来喷涨有关,故D正确.
故选:B.
3.(2022·广东清远·高三期末)某学校组织了一次劳动技能大赛,共有100名学生参赛,经过评判,这100名参赛者的得分都在内,得分60分以下为不及格,其得分的频率分布直方图如图所示(按得分分成这五组),则下列结论正确的是( )
A.直方图中
B.此次比赛得分不及格的共有40人
C.以频率为概率,从这100名参赛者中随机选取1人,其得分在的概率为0.5
D.这100名参赛者得分的中位数为65
【答案】ABC
【详解】因为,所以,所以A正确;
因为不及格的人数为,所以B正确;
因为得分在的频率为,所以从这100名参赛者中随机选取1人,其得分在的概率为0.5,所以C正确;
这100名参赛者得分的中位数为,所以D错误.
故选:ABC.
4.(2022·广东汕头·一模)在党史学习教育动员大会上,习近平总书记强调全党同志要做到学史明理、学史增信、学史崇德,学史力行.某单位对200名党员进行党史知识测试,将成绩分成6组:,,,,,,得到如图所示的频率分布直方图,则______.
【答案】0.050
【详解】由,
解得,
故答案为:0.050
5.(2022·广东广东·一模)(多选)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入调查数据整理得到如下频率分布直方图(如图):
根据此频率分布直方图,下面结论中正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入的中位数约为7.5万元
C.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
D.估计该地农户家庭年收入的平均值不超过6.5万元
【答案】.ABC
【详解】解:对于A,该地农户家庭年收入低于4.5万元的农户得频率为,所以比率估计为6%,故A正确;
对于B,因为,所以该地农户家庭年收入的中位数约为7.5万元,故B正确;
对于C,家庭年收入介于4.5万元至8.5万元之间频率为,所以估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间,故C正确;
对于D,该地农户家庭年收入的平均值为
,
所以估计该地农户家庭年收入的平均值超过6.5万元,故D错误.
故选:ABC.
6.(2022·广东韶关·一模)(多选)在一次演讲比赛中,以下表格数据是5位评委给甲、乙两名选手评出的成绩,则下列说法正确的是( )
甲
乙
86
90
95
92
87
91
88
93
88
95
A.甲选手成绩的极差大于乙选手成绩的极差
B.甲选手成绩的中位数小于乙选手成绩的中位数
C.甲选手成绩的方差小于乙选手成绩的方差
D.甲选手成绩的平均数小于乙选手成绩的平均数
【答案】ABD
【详解】对于A:根据极差的概念,可知甲选手成绩的极差为9,乙选手成绩的极差为7.故A正确;
对于B:易知甲成绩的中位数是90,乙成绩的中位数是91.故B正确;
对于C:甲选手成绩的平均数为,方差为
乙选手成绩的平均数为,方差为
.故C错误;
对于D:由于甲选手成绩的平均数为90,乙选手成绩的为91.故D正确.
故选:ABD.
7.某市政府为了节约生活用水,实施居民生活用水定额管理政策,即确定一个居民月用水量标准x(单位:吨),用水量不超过x的部分按平价收费,超出x的部分按议价收费,并随机抽取部分居民进行调查,抽取的居民月均用水量的频率分布直方图如图所示.(同一组中的数据以该组区间的中点值为代表)
(1)求频率分布直方图中a的值;
(2)试估计该市居民月均用水量的众数、平均数;
(3)如果希望85%的居民月均用水量不超过标准x,那么标准x定为多少比较合理?
【解析】(1)由频率分布直方图中所有矩形的面积之和为1,可得,解得.
(2)由频率分布直方图可知,该市居民月均用水量的众数约为(吨),
由频率分布直方图可知,平均数约为(吨).
(3)由频率分布直方图可知,月均用水量低于2.5吨的居民人数所占的百分比为,月均用水量低于3吨的居民人数所占的百分比为,
所以,由题意可得,解得.
所以如果希望85%的居民月均用水量不超过标准x,那么x定为2.9吨比较合理.
8.随着新冠肺炎疫情的稳定,各地的经济均呈现缓慢的恢复趋势,为了更进一步做好疫情的防控工作,避免疫情的再度爆发,A地区规定居民出行或者出席公共场合均需佩戴口罩,现将A地区20000个居民一周的口罩使用个数统计如下表所示,其中每周的口罩使用个数在6以上(含6)的有14000人.
口罩使用数量
频率
0.2
m
0.3
n
0.1
(1)求m,n的值;
(2)根据表中数据,完善上面的频率分布直方图;
(3)计算A地区居民一周口罩使用个数的平均数以及方差.
【解析】(1)由已知,;
(2)频率分布直方图如下:
(3)由频率分布直方图得
一周内使用口罩的平均数为
,
方差为.
考点二:回归分析
【典例例题】
例1.(2022·广东汕尾·高三期末)“绿水青山就是金山银山”的生态文明发展理念已经深入人心,这将推动新能源汽车产业的迅速发展,下表是近几年我国某地区新能源汽车的年销售量与年价的统计表
年份
2016
2017
2018
2019
2020
年销售量(万台)
8
12
15
20
25
根据上表,利用最小二乘法,新能源汽车的年销售量y万台关于年份x的线性回归方程为______.
参考数据:
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
【答案】.
【详解】,
故,
,
所以线性回归方程为
故答案为:
例2.(2022·广东·铁一中学高三期末)年月底,为严防新型冠状病毒疫情扩散,有效切断病毒传播途径,坚决遏制疫情蔓延势头,确保人民群众生命安全和身体健康,多地相继做出了封城决定.某地在月日至日累计确诊人数如下表:
日期(月)
日
日
日
日
日
日
日
人数(人)
由上述表格得到如散点图(月日为封城第一天).
(1)根据散点图判断与(,均为大于的常数)哪一个适宜作为累计确诊人数与封城后的天数的回归方程类型(给出判断即可,不必说明理由);并根据上表中的数据求出回归方程;
(2)随着更多的医护人员投入疫情的研究,月日武汉影像科医生提出存在大量核酸检测呈阴性(阳性则确诊),但观其肺片具有明显病变,这一提议引起了广泛的关注,月日武汉疾控中心接收了份血液样本,假设每份样本的检验结果是阳性还是阴性都是相互独立的,且每份样本是阳性样本的概率为,核酸试剂能把阳性样本检测出阳性结果的概率是(核酸检测存在阳性样本检测不出来的情况,但不会把阴性检测呈阳性),求这份样本中检测呈阳性的份数的期望.
参考数据:
其中,,参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)由散点图可知选择,
由两边同时取常用对数得,
设,.
计算,,,
,
把样本中心点代入得.
,关于的回归方程为;
(2)这份样本中检测呈阳性的份数为,
则每份检测出阳性的概率,
由题意可知,(人),
故这份样本中检测呈阳性份数的期望为人.
【方法技巧与总结】
1.线性回归方程的求法;
2.非线性回归方程要通过换元换成线性回归方程.
【变式训练】
1.(2022·广东深圳·一模)某人工智能公司近5年的利润情况如下表所示:
第x年
1
2
3
4
5
利润y/亿元
2
3
4
5
7
已知变量y与x之间具有线性相关关系,设用最小二乘法建立的回归直线方程为,则下列说法正确的是( )A.
B.变量y与x之间的线性相关系数
C.预测该人工智能公司第6年的利润约为7.8亿元
D.该人工智能公司这5年的利润的方差小于2
【答案】.AC
【详解】解:依题意,,
因为回归直线方程为必过样本中心点,即,解得,
故A正确;则回归直线方程为,则与成正相关,即相关系数,故B错误,
当时,即该人工智能公司第6年的利润约为7.8亿元,故C正确,
该人工智能公司这5年的利润的方差为,故D错误;
故选:AC
2.(2022·广东惠州·二模)某地建立了农业科技图书馆,供农民免费借阅,收集了近5年的借阅数据如下表:
年份
2016
2017
2018
2019
2020
年份代码x
1
2
3
4
5
年借阅量y/万册
4.9
5.1
5.5
5.7
5.8
根据上表,可得y关于x的线性回归方程为,则( )A.
B.估计近5年借阅量以0.24万册/年的速度增长
C.y与x的样本相关系数
D.2021年的借阅量一定不少于6.12万册
26.(2022·广东汕头·二模)如图所示,5个(x,y)数据,去掉D(3,10)后,下列说法正确的是( )
A.相关系数r变大 B.残差平方和变大
C.相关指数R2变小 D.解释变量x与预报变量y的相关性变强
【答案】AD
【详解】由散点图知,去掉离群点D后,x与y的相关性变强,且为正相关,
所以相关系数r的值变大,相关指数R2的值变大,残差平方和变小.
故选:AD.
3.(2022·广东·金山中学高三期末)2021年,我国脱贫攻坚战取得了全面胜利.为了巩固拓展脱贫攻坚成果,不断提高群众的幸福感,某县继续推进山羊养殖项目.为了建设相应的配套项目,该县主管部门对该县近年来山羊养殖业的规模进行了跟踪调查,得到了该县每年售卖山羊数量(单位:万只)与相应年份代码的数据如下表:
年份
2015
2016
2017
2018
2019
2020
年份代码
1
2
3
4
5
6
售卖山羊数量(万只)
11
13
16
15
20
21
(1)由表可知与有较强的线性相关关系,求关于的线性回归方程;
(2)已知该县养殖的山羊品种只有甲、乙两种,且甲品种山羊与乙品种山羊的数量之比为,甲品种山羊达到售卖标准后的出售价为2500元/只,乙品种山羊达到售卖标准后的出售价为2700元/只.为了解养殖山羊所需要的时间,该县主管部门随机抽取了甲品种山羊和乙品种山羊各100只进行调查,得到要达到售卖标准所需的养殖时间如下表:
养殖时间(月数)
6
7
8
9
甲品种山羊(只)
20
35
35
10
乙品种山羊(只)
10
30
40
20
以上述样本统计的养殖山羊所需时间情况估计全县养殖山羊所需时间(即以各养殖时间的频率作为各养殖时间的概率),且每月每只山羊的养殖成本为300元,结合(1)中所求回归方程,试求2022年该县养殖山羊所获利润的期望(假设山羊达到售卖标准后全部及时卖完).(利润=卖山羊的收入一山羊的养殖成本)
参考公式及数据:回归直线方程为,其中,.
【答案】.(1);(2)8800万元.
【详解】(1)因为,,
所以,
可得.
所以与之间的线性回归方程为.
(2)由可知,当时,可得,
其中甲品种山羊有万只,乙品种山羊有万只.
由频率估计概率,可得甲品种山羊达到售卖标准需要的养殖时间为6个月,7个月,8个月和9个月的概率分别为0.2,0.35,0.35和0.1,
所以甲品种山羊要达到售卖标准需要养殖时间的期望为(月).
由频率估计概率,可得乙品种山羊达到售卖标准需要的养殖时间为6个月,7个月,8个月和9个月的概率分别为0.1,0.3,0.4和0.2,
所以乙品种山羊要达到售卖标准需要养殖时间的期望为(月).
养殖每只甲品种山羊利润的期望为(元),
养殖每只乙品种山羊利润的期望为(元),
故2022年该县售卖的山羊所获利润的期望为(万元).
4.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.
月份x
1
2
3
4
5
销售量y(万件)
4.9
5.8
6.8
8.3
10.2
该公司为了预测未来几个月的销售量,建立了y关于x的回归模型:.
(1)根据所给数据与回归模型,求y关于x的回归方程(的值精确到0.1);
(2)已知该公司的月利润z(单位:万元)与x,y的关系为,根据(1)的结果,问该公司哪一个月的月利润预报值最大?
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】.(1);(2)第9个月的月利润预报值最大
(1)
令,则,,
,,所以y关于x的回归方程为;
(2)
由(1)知:,
,令,
令得:,令得:,令得:,所以在处取得极大值,也是最大值,
所以第9个月的月利润预报值最大.
5.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y(单位:千万吨标准煤)的数据表格:
年份
2016
2017
2018
2019
2020
年份代号x
1
2
3
4
5
能源消费总量近似值y(单位:千万吨标准煤)
442
456
472
488
498
以x为解释变量,y为预报变量,若以为回归方程,则相关指数,若以为回归方程,则相关指数.
(1)判断与哪一个更适宜作为能源消费总量近似值y关于年份代号x的回归方程,并说明理由;
(2)根据(1)的判断结果及表中数据,求出y关于年份代号x的回归方程.
参考数据:,.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,.
【答案】.(1)更适宜作为y关于x的回归方程,答案见解析;
(2).
(1)
因为,
所以更适宜作为y关于x的回归方程.
(2)
,.
,,
所以以x为解释变量,y为预报变量的回归方程为.
6.(2022·广东潮州·二模)我国在芯片领域的短板有光刻机和光刻胶,某风险投资公司准备投资芯片领域,若投资光刻机项目,据预期,每年的收益率为30%的概率为,收益率为%的概率为;若投资光刻胶项目,据预期,每年的收益率为30%的概率为0.4,收益率为%的概率为0.1,收益率为零的概率为0.5.
(1)已知投资以上两个项目,获利的期望是一样的,请你从风险角度考虑为该公司选择一个较稳妥的项目;
(2)若该风险投资公司准备对以上你认为较稳妥的项目进行投资,4年累计投资数据如下表:
年份x
2018
2019
2020
2021
1
2
3
4
累计投资金额y(单位:亿元)
2
3
5
6
请根据上表提供的数据,用最小二乘法求出y关于的线性回归方程,并预测到哪一年年末,该公司在芯片领域的投资收益预期能达到0.75亿元.
附:收益=投入的资金×获利的期望;线性回归中,,.
【答案】.(1)该风投公司投资光刻胶项目;(2);2022年年末.
(1)
若投资光刻机项目,设收益率为,则的分布列为
0.3
P
p
所以.
若投资光刻胶项目,设收益率为,则的分布列为
0.3
0
P
0.4
0.1
0.5
所以.
因为投资以上两个项目,获利的期望是一样的,
所以,所以.
因为,
,
所以,,
这说明光刻机项目和光刻胶项目获利相等,但光刻胶项目更稳妥.
综上所述,建议该风投公司投资光刻胶项目.
(2)
,,
,,
则,
,故线性回归方程为.
设该公司在芯片领域的投资收益为Y,则,解得,
故在2022年年末该投资公司在芯片领域的投资收益可以超过0.75亿元.
7.在疫情防控常态化的背景下,山东省政府各部门在保安全,保稳定的前提下有序恢复生产,生活和工作秩序,五一期间,文旅部门在落实防控举措的同时,推出了多款套票文旅产品,得到消费者的积极回应.下面是文旅部门在某地区推出六款不同价位的旅游套票,每款的套票价格x(单位:元)与购买人数y(单位:万人)的数据如下表:
旅游类别
城市展馆科技游
乡村特色游
齐鲁红色游
登山套票
游园套票
观海套票
套票价格x(元)
39
49
58
67
77
86
购买数量y(万人)
16.7
18.7
20.6
22.5
24.1
25.6
在分析数据、描点绘图中,发现散点集中在一条直线附近,其中
附:①可能用到的数据:.
②对于一组数据,其回归直线的斜率和截距的最小二乘估计值分别为
(1)根据所给数据,求y关于x的回归方程;
(2)按照文旅部门的指标测定,当购买数量y与套票价格x的比在区间上时,该套票受消费者的欢迎程度更高,可以被认定为“热门套票”,现有三位同学从以上六款旅游套票中,购买不同的三款各自旅游.记三人中购买“热门套票”的人数为X,求随机变量X的分布列和期望.
【解析】(1)散点集中在一条直线附近,设回归直线方程为
由,则,,
变量关于的回归方程为,
,
,,
综上,y关于x的回归方程为;
(2)由,解得,
,
乡村特色游,齐鲁红色游,登山套票,游园套票为“热门套票”,
则三人中购买“热门套票”的人数X服从超几何分布,的可能取值为,
的分布列为:
1
2
3
P
.
考点三:独立性检验
【典例例题】
例1.(2022·广东揭阳·高三期末)每年的毕业季都是高校毕业生求职和公司招聘最忙碌的时候,甲、乙两家公司今年分别提供了2个和3个不同的职位,一共收到了100份简历,具体数据如下:
公司
文史男
文史女
理工男
理工女
甲
10
10
20
10
乙
15
20
10
5
分析毕业生的选择意愿与性别的关联关系时,已知对应的的观测值;分析毕业生的选择意愿与专业关联的的观测值,则下列说法正确的是( )
A.有的把握认为毕业生的选择意愿与专业相关联
B.毕业生在选择甲、乙公司时,选择意愿与专业的关联比与性别的关联性更大一些
C.理科专业的学生更倾向于选择乙公司
D.女性毕业生更倾向于选择甲公司
【答案】B
【详解】解:与专业关联的的观测值,明显大于,明显小于,所以有的把握认为毕业生的选择意愿与专业相关联,所以不正确;
因为,故正确;根据题中的数据表列出专业与甲、乙公司的关联表可知,理科专业的学生更倾向于选择甲公司,列出性别与甲、乙公司的关联表可知,
女性毕业生更倾向于选择乙公司,所以C,D均不正确.
故选:B.
例2.(2021·广东汕头·高三期末)某土特产超市为预估2022年元旦期间游客购买土特产的情况,对2021年元旦期间的90位游客购买情况进行统计,得到如下人数分布表:
购买金额(元)
[0,150)
[150,300)
[300,450)
[450,600)
[600,750)
[750,900]
人数
10
15
20
15
20
10
(1)根据以上数据完成列联表,并判断是否有95%的把握认为购买金额是否少于600元与性别有关.
不少于600元
少于600元
合计
男
40
女
18
合计
(2)为吸引游客,该超市推出一种优惠方案:购买金额不少于600元可抽奖3次,每次中奖概率为P(每次抽奖互不影响,且P的值等于人数分布表中购买金额不少于600元的频率),中奖1次减50元,中奖2次减100元,中奖3次减150元.若游客甲计划购买800元的土特产,请列出实际付款数(元)的分布列并求其数学期望.
附:参考公式和数据:
附表:
2.072
2.706
3.841
6.635
7.879
0.150
0.100
0.050
0.010
0.005
【答案】.(1)填表见解析;有(2)分布列见解析;期望为
(1)
列联表如下:
不少于600元
少于600元
合计
男
12
40
52
女
18
20
38
合计
30
60
90
,
因此有的把握认为购买金额是否少于600元与性别有关.
(2)
可能取值为650,700,750,800,且,
,
,
,
,
所以的分布列为
650
700
750
800
.
【方法技巧与总结】
独立性检验独立性
【变式训练】
1.(2022·广东潮州·高三期末)(多选)千百年来,我国劳动人民在生产实践中根据云的形状、走向速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩销云,地上雨淋林”“日落云里走,雨在半夜后”……小明同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:
夜晚天气
日落云里走
下雨
不下雨
临界值表
0.10
0.05
0.010
0.001
出现
25
5
不出现
25
45
2.706
3.841
6.635
10.828
并计算得到,下列小明对地区天气判断正确的是( )A.夜晚下雨的概率约为
B.未出现“日落云里走”,但夜晚下雨的概率约为
C.出现“日落云里走”,有的把握认为夜晚会下雨
D.有的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关
【答案】BD
【详解】由题意,把频率看作概率可得夜晚下雨的概率,A错误;未出现“日落云里走”,但夜晚下雨的概率约为,B正确;由,所以可知有的把握认为“日落云里走’是否出现”与“当晚是否下雨”有关,故D正确,C错误.
故选:BD
2.(2022·广东湛江·一模)某市为了研究该市空气中的PM2.5浓度和浓度之间的关系,环境监测部门对该市空气质量进行调研,随机抽查了100天空气中的PM2.5浓度和浓度(单位:),得到如下所示的2×2列联表:
PM2.5
64
16
10
10
经计算,则可以推断出( )
附:
0.050
0.010
0.001
3.841
6.635
10.828
A.该市一天空气中PM2.5浓度不超过,且浓度不超过的概率估计值是0.64
B.若2×2列联表中的天数都扩大到原来的10倍,的观测值不会发生变化
C.有超过99%的把握认为该市一天空气中PM2.5浓度与浓度有关
D.在犯错的概率不超过1%的条件下,认为该市一天空气中PM2.5浓度与浓度有关
【答案】.ACD
【详解】补充完整列联表如下:
PM2.5
合计
64
16
80
10
10
20
合计
74
26
100
对于A选项,该市一天中,空气中PM2.5浓度不超过,且浓度不超过的概率估计值为,故A正确;
对于B选项,,故B不正确;
因为7.4844>6.635,根据临界值表可知,在犯错的概率不超过1%的条件下,即有超过99%的把握认为该市一天空气中PM2.5浓度与浓度有关,故C,D均正确.
故选:ACD.
3.(2022·广东清远·高三期末)某市为积极响应上级部门的号召,通过沿街电子屏、微信公众号等各种渠道对抗疫进行了深入的宣传,帮助全体市民深入了解新型冠状病毒,增强战胜疫情的信心.为了检验大家对新型冠状病毒及防控知识的了解程度,该市推出了相关的问卷调查,随机抽取了年龄在18~99岁之间的200人进行调查,把年龄在和内的人分别称为“青年人”和“中老年人”.经统计,“青年人”和“中老年人”的人数之比为2∶3,其中“青年人”中有50%的人对防控的相关知识了解全面,“中老年人”中对防控的相关知识了解全面和了解不全面的人数之比是2∶1.
(1)根据已知条件,完成下面的列联表,并根据统计结果判断是否有95%的把握认为“中老年人”比“青年人”更加了解防控的相关知识.
了解全面
了解不全面
合计
青年人
中老年人
合计
(2)用频率估计概率从该市18~99岁市民中随机抽取3位市民,记抽出的市民对防控相关知识了解全面的人数为X,求随机变量X的分布列与数学期望.
附表及公式:,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】.(1)表格见解析,有(2)分布列见解析,
(1)
解:(1)因为“青年人”和“中老年人”的人数之比为2∶3,所以“青年人”和“中老年人”的人数分别为80和120,
因为“青年人”中有50%的人对防控的相关知识了解全面,所以“青年人”中对防控的相关知识了解全面的有40人,了解不全面的有40人,
因为“中老年人”中对防控的相关知识了解全面和了解不全面的人数之比是2∶1,所以“中老年人”中对防控的相关知识了解不全面的有80人,了解不全面的有40人,
列联表如下:
了解全面
了解不全面
合计
青年人
40
40
80
中老年人
80
40
120
合计
120
80
200
因为,
所以有95%的把握认为“中老年人”比“青年人”更加了解防控的相关知识;
(2)
解:用样本估计总体可知,从该市18~99岁市民中随机抽取1人,抽到的市民对防控相关知识了解全面的概率为,
所以随机变量,
随机变量可取,
因为,
,
所以X的分布列为
X
0
1
2
3
P
.
4.(2022·广东茂名·一模)为了增强学生体质,茂名某中学的体育部计划开展乒乓球比赛,为了解学生对乒乓球运动的兴趣,从该校一年级学生中随机抽取了200人进行调查,男女人数相同,其中女生对乒乓球运动有兴趣的占80%,而男生有15人表示对乒乓球运动没有兴趣.
(1)完成2×2列联表,并回答能否有90%的把握认为“对乒乓球运动是否有兴趣与性别有关”?
有兴趣
没兴趣
合计
男
女
合计
(2)为了提高同学们对比赛的参与度,比赛分两个阶段进行.第一阶段的比赛赛制采取单循环方式,每场比赛采取三局二胜制,然后由积分的多少选出进入第二阶段比赛的同学,每场积分规则如下:比赛中以取胜的同学积3分,负的同学积0分;以取胜的同学积2分,负的同学积1分.其中,小强同学和小明同学的比赛倍受关注,设每局小强同学取胜的概率为,记小强同学所得积分为, 求的分布列和期望.
附表:
P(K2≥k0)
0.50
0.40
0.25
0.150
0.100
0.050
k0
0.455
0.780
1.323
2.072
2.706
3.841
【答案】.(1)表格见解析,没有;(2)分布列见解析,.
(1)
由题意得到如下的2×2列联表,
有兴趣
没兴趣
合计
男
85
15
100
女
80
20
100
合计
165
35
200
,
由表格得到,
所以没有90%的把握认为“对乒乓球运动是否有兴趣与性别有关”.
(2)
由题意,知,
;;
;,
所以的分布为
0
1
2
3
所以期望.
5.(2022·广东茂名·二模)某水果经营户对出售的苹果按大小和色泽两项指标进行分类,最大横切面直径不小于70毫米则大小达标,着色度不低于90%则色泽达标,大小和色泽均达标的苹果为一级果;大小和色泽有一项达标另一项不达标的苹果为二级果;两项均不达标的苹果为三级果.已知该经营户购进一批苹果,从中随机抽取100个进行检验,得到如下统计表格:
直径小于70毫米
直径不小于70毫米
合计
着色度低于90%
10
15
25
着色度不低于90%
15
60
75
合计
25
75
100
(1)根据以上数据,判断是否有95%的把握认为该经营户购进的这批苹果的大小达标和色泽达标有关;
(2)该经营户对三个等级的苹果按照分层抽样从样本中抽取10个苹果,再从中随机抽取3个,求抽到二级果个数X的概率分布列和数学期望.
附:
0.050
0.025
0.010
3.841
5.024
6.635
,其中.
【答案】.(1)有95%的把握认为该经营户购进的这批苹果的大小达标和色泽达标有关(2)分布列见解析,
(1)
解:由于,
所以有95%的把握认为该经营户购进的这批苹果的大小达标和色泽达标有关;
(2)
解:对三个等级的苹果按照分层抽样从样本中抽取10个,则一级果6个,二级果3个,三级果1个.
由题意,二级果的个数X的可能值为0,1,2,3,
则,
.
所以X的分布列为:
X
0
1
2
3
P
所以X的数学期望.
6.(2022·广东惠州·二模)2019年4月,江苏省发布了高考综合改革实施方案,试行“”高考新模式.为调研新高考模式下,某校学生选择物理或历史与性别是否有关,统计了该校高三年级800名学生的选科情况,部分数据如下表:
性别
科目
男生
女生
合计
物理
300
历史
150
合计
400
800
(1)根据所给数据完成上述表格,并判断是否有99.9%的把握认为该校学生选择物理或历史与性别有关;
(2)该校为了提高选择历史科目学生的数学学习兴趣,用分层抽样的方法从该类学生中抽取5人,组成数学学习小组.一段时间后,从该小组中抽取3人汇报数学学习心得.记3人中男生人数为X,求X的分布列和数学期望.
附:
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)补全列联表,计算出后可得结论;
(2)由分层抽样得抽取男生2人,女生3人,随机变量X的所有可能取值为0,1,2.,计算出概率得分布列,由分布列计算期望.
【详解】(1)
性别
科目
男生
女生
合计
物理
300
250
550
历史
100
150
250
合计
400
400
800
因为,
所以有99.9%的把握认为该校学生选择物理或历史与性别有关.
(2)按照分层抽样的方法,抽取男生2人,女生3人.
随机变量X的所有可能取值为0,1,2.
所以,,.
所以X的分布列为
X
0
1
2
P
所以.
答:x的数学期望为.
【巩固练习】
一、单选题
1.(2022·山东·汶上县第一中学高三开学考试)某市为了减少水资源的浪费,计划对居民生活用水费用实施阶梯式水价制度.为了确定一个比较合理的标准,通过简单随机抽样,获得了100户居民的月均用水量数据(单位:吨),得到如图所示的频率分布直方图.估计该市居民月均用水量的中位数为( )
A.8.25 B.8.45 C.8.65 D.8.85
【答案】B
【解析】由频率分布直方图,得月均用水量在5.2吨以下的居民用户所占的比例为,月均用水量在9.2吨以下的居民用户所占的比例为,故中位数落在区间内.
设样本的中位数为,则,
所以,即样本的中位数为,
由样本估计总体的思想,估计该市居民月均用水量的中位数为,
故选:B.
2.(2022·黑龙江·佳木斯一中三模(文))新冠肺炎疫情防控中,测量体温是最简便、最快捷,也是筛查成本比较低、性价比很高的筛查方式,是更适用于大众的普通筛查手段.某班级体温检测员对某一周内甲、乙两名同学的体温进行了统计,其结果如图所示,则下列结论不正确的是( )
A.甲同学的体温的极差为0.5℃
B.甲同学的体温的众数为36.3℃
C.乙同学的体温的中位数与平均数不相等
D.乙同学的体温比甲同学的体温稳定
【答案】C
【解析】对于A:甲同学的体温的极差为℃,故A选项正确;
对于B:甲同学的体温从低到高依次为36.1℃,36.1℃,36.3℃,36.3℃,36.3℃,36.5℃,36.6℃,故众数为36.3℃,故B选项正确;
对于C:乙同学的体温从低到高依次为36.2℃,36.3℃,36.3℃,36.4℃,36.5℃,36.5℃,36.6℃,故中位数为36.4℃,而平均数也是36.4℃,故C选项错误;
对于D:从折线图上可以看出,乙同学的体温比甲同学的体温稳定,故D选项正确.
故选:C
3.(2022·广西·模拟预测(文))2022年6月6日是第27个“全国爱眼日”,为普及科学用眼知识,提高群众健康水平,预防眼疾,某区残联在残疾人综合服务中心开展“全国爱眼日”有奖答题竞赛活动.已知5位评委老师按百分制(只打整数分)分别给出某参赛小队评分,可以判断出一定有评委打满分的是( )
A.平均数为98,中位数为98 B.中位数为96,众数为99
C.中位数为97,极差为9 D.平均数为98,极差为6
【答案】D
【解析】选项A:当打分结果为时,满足平均数为98,中位数为98,所以A错误;
选项B:当打分结果为时,满足中位数为96,众数为99,所以B错误;
选项C:当打分结果为时,满足中位数为97,极差为9,所以C错误;
选项D:假设没有评委打满分,结合极差为6可得总成绩,
则平均数,与选项不符,故假设不成立,所以平均数为98,极差为6时,一定有评委打满分,
故选:D.
4.(2022·黑龙江·佳木斯一中三模(文))下列说法正确的序号是( )
①在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加0.8个单位;
②利用最小二乘法求回归直线方程,就是使得最小的原理;
③已知,是两个分类变量,若它们的随机变量的观测值越大,则“与有关系”的把握程度越小;
④在一组样本数据,,…,(,,,…,不全相等)的散点图中,若所有样本都在直线上,则这组样本数据的线性相关系数为.
A.①③ B.①② C.②④ D.③④
【答案】B
【解析】对于①,在回归直线方程 中, 当解释变量 每增加一个单位时, 预报变量平均增加 0.8个单位,故①正确;
对于②,用离差的平方和,即:作为总离差, 并使之达到最小;这样回归直线就是所有直线中取最小值的那一条。由于平方又叫二乘方, 所以这种使 “离差平方和为最小”的方法叫做最小二乘法;所以利用最小二乘法求回归直线方程,就是使得最小的原理;故②正确;
对于③,对分类变量 与 , 对它们的随机变量 的观测值 来说,越小,则“与 有 关系”的把握程度越小,故③错误;
对于④,相关系数反映的是两变量之间线性相关程度的强弱,与回归直线斜率无关,题中样本数据的线性相关系数为, 故④错误.
故选:B.
5.(2022·四川省仁寿县文宫中学高三阶段练习(理))某医疗研究所为了检查新研发的疫苗对某种病毒的预防作用,把1000只已注射疫苗的小白鼠与另外1000只未注射疫苗的小白鼠的感染记录作比较,提出原假设:“这种疫苗不能起到预防该病毒传染的作用.”并计算得,则下列说法正确的是( )
A.这种疫苗对预防该病毒传染的有效率为1%
B.若某人未使用疫苗,则他有99%的可能性传染该病毒
C.有99%的把握认为“这种疫苗能起到预防该病毒传染的作用”
D.有1%的把握认为“这种疫苗能起到预防该病毒传染的作用”
【答案】C
【解析】由已知,,说明假设不合理的程度为99%,
即这种疫苗不能起到防范病毒的作用不合理的程度约为99%,
所以有99%的把握认为这种疫苗能起到预防病毒的作用.
故选:C.
二、多选题
6.(2022·全国·模拟预测)最近几个月,新冠肺炎疫情又出现反复,各学校均加强了疫情防控要求,学生在进校时必须走测温通道,每天早中晚都要进行体温检测并将结果上报主管部门.某班级体温检测员对一周内甲乙两名同学的体温进行了统计,其结果如图所示,则下列结论正确的是( )
A.甲同学体温的极差为0.4℃
B.乙同学体温的众数为36.4℃,中位数与平均数相等
C.乙同学的体温比甲同学的体温稳定
D.甲同学体温的第60百分位数为36.4℃
【答案】ABC
【解析】观察折线图知,甲同学体温的极差为0.4℃,A正确;
乙同学体温从小到大排成一列:36.3℃,36.3℃,36.4℃,36.4℃,36.4℃,36.5℃,36.5℃,
乙同学体温的众数为36.4℃,中位数为36.4℃,平均数℃,B正确;
乙同学的体温波动较甲同学的小,极差为0.2℃,也比甲同学的小,因此乙同学的体温比甲同学的体温稳定,C正确;
将甲同学的体温从小到大排成一列:36.2℃,36.2℃,36.4℃,36.4℃,36.5℃,36.5℃,36.6℃,
因,则甲同学体温的第60百分位数为36.5℃,D不正确.
故选:ABC
7.某地为响应“扶贫必扶智,扶智就扶知识、扶技术、扶方法”的号召,建立农业科技图书馆,供农民免费借阅,收集了近5年的借阅数据如下表:
年份
2016
2017
2018
2019
2020
年份代码
1
2
3
4
5
年借阅量(万册)
4.9
5.1
5.5
5.7
5.8
根据上表,可得关于的经验回归方程为,则( )A.
B.借阅量4.9,5.1,5.5,5.7,5.8的上四分位数为5.7
C.与的线性相关系数
D.2021年的借阅量一定不少于6.12万册
【答案】ABC
【解析】对于A,因为,,
所以,得,所以A正确,
对于B,因为,所以借阅量4.9,5.1,5.5,5.7,5.8的上四分位数为5.7,所以B正确,
对于C,因为,所以y与x的线性相关系数,所以C正确,
对于D,由选项A可知线性回归方程为,当时,,所以2021年的借阅量约为6.12万册,所以D错误,
故选:ABC
三、填空题
8.(2022·云南·高三阶段练习)某市某次高中数学统测学生测试成绩频率分布直方图如图所示.现按测试成绩由高到低分成A,B,C,D四个等级,其中等占等占等占等占的比例,规定达到等级及以上才能通过考试,则要通过本次考试的学生分数至少为___________.
【答案】24
【解析】由图可知,分数在20分以下的比例为,在40分以下的比例为,因此分位数位于内,由,所以通过本次考试分数至少为24.
故答案为:24.
9.(2022·全国·高三专题练习)为了增强学生的身体素质,提高适应自然环境、克服困难的能力,某校在课外活动中新增了一项登山活动,并对“学生喜欢登山和性别是否有关”做了一次调查,其中被调查的男女生人数相同,得到如图所示的等高条形统计图,则下列说法中正确的有________.
①被调查的学生中喜欢登山的男生人数比喜欢登山的女生人数多
②被调查的女生中喜欢登山的人数比不喜欢登山的人数多
③若被调查的男女生均为100人,则可以认为喜欢登山和性别有关
④无论被调查的男女生人数为多少,都可以认为喜欢登山和性别有关
【答案】①③
【解析】因为被调查的男女生人数相同,由等高堆积条形统计图可知,喜欢登山的男生占80%,喜欢登山的女生占30%,所以A正确,B错误;
设被调查的男女生人数均为n,则由等高堆积条形统计图可得列联表如下
男
女
合计
喜欢
0.8n
0.3n
1.1n
不喜欢
0.2n
0.7n
0.9n
合计
n
n
2n
由公式可得:.
当时,,可以判断喜欢登山和性别有关,故C正确;
而,所以的值与n的取值有关.故D错误.
故答案为:①③.
四、解答题
10.某企业在举行的安全知识竞答活动中,随机抽取了50名员工,统计了他们的成绩,全部介于70到95之间,将成绩按如下方式分成五组:第一组,第二组,第五组,如图是按上述分组方法得到的频率分布直方图
(1)请根据频率分布直方图,求样本数据的平均数和中位数(所有结果均保留两位小数);
(2)从第一组和第五组的员工中,随机抽取4名员工,记这4名员工中来自第五组的员工的人数为,求随机变量的分布列及数学期望.
【解析】(1)样本数据的平均数
第一二组的频率为
第一二三组的频率为
所以中位数一定落在第三组,设中位数为,则
解得
(2)据题意,第一组有人,第五组有人,
随机变量的可能取值为
所以的分布列是
1
2
3
4
所以的数学期望
11.某学校为了解高三尖子班数学成绩,随机抽查了60名尖子生的期中数学成绩,得到如下数据统计表:
期中数学成绩(单位:分)
频数
频率
3
0.05
x
p
9
0.15
15
0.25
18
0.30
y
q
合计
60
1.00
若数学成绩超过135分的学生为“特别优秀”,超过120分而不超过135分的学生为“优秀”,已知数学成绩“优秀”的学生与“特别优秀”的学生人数比恰好为.
(1)求x,y,p,q的值;
(2)学校教务为进一步了解这60名学生的学习方法,从数学成绩“优秀”、“特别优秀”的学生中用分层抽样的方法抽取5人,再从这5人中随机抽取3人进行问卷调查.设X为抽取的3人中数学成绩“优秀”的人数,求X的分布列和数学期望.
【解析】(1)根据题意,得
,解得,
所以,
故,
(2)用分层抽样的方法选取5人,则数学成绩“特别优秀”的有人,“优秀”的有人,
故X的可能取值为0,1,2,则
,,,
所以X的分布列为:
X
0
1
2
P
故.
12.在实施“乡村振兴”的进程中,某地政府引领广大农户发展特色农业,种植优良品种柑橘.现在实验基地中种植了相同数量的、两种柑橘.为了比较、两个柑橘品种的优劣,在柑橘成熟后随机选取、两种柑橘各株,并根据株产量(单位:)绘制了如图所示的频率分布直方图(数据分组为:、、、、、):
(1)求、的值;
(2)将频率当做概率,在所有柑橘中随机抽取一株,求其株产量不低于的概率;
(3)求两种柑橘株产量平均数的估计值(同一组数据中的平均数用该组区间的中点值代表),并从产量角度分析,哪个品种的柑橘更好?说明理由.
【解析】(1)由频率分布直方图可得,解得,,解得.
(2)品种柑橘株产量不低于的频率为,
品种柑橘株产量不低于的频率为,
故株柑橘中产量不低于的频率为,
所以在所有柑橘中随机抽取一株,其株产量不低于的概率为.
(3)A品种柑橘株产量平均数的估计值为,
,
设品种柑橘株产量平均数的估计值为,
,
品种的柑橘更好.理由如下:
方法一:的平均产量大于的平均产量.
方法二:由频率分布直方图可知,品种柑橘株产量在及以上的占比为,
品种柑橘株产量在及以上的占比为,故品种的柑橘更好.
13.某花圃为提高某品种花苗质量,开展技术创新活动,在实验地分别用甲、乙方法培训该品种花苗.为观测其生长情况,分别在实验地随机抽取各50株,对每株进行综合评分,将每株所得的综合评分制成如图所示的频率分布直方图.记综合评分为80 及以上的花苗为优质花苗.
(1)求图中的值,并求综合评分的中位数.
(2)填写下面的列联表,并判断是否有99%的把握认为优质花苗与培育方法有关.
优质花苗
非优质花苗
合计
甲培优法
20
乙培优法
10
合计
附:下面的临界值表仅供参考.
(参考公式:,其中)
【解析】(1)由直方图的性质可知: ,
解得,
因为,所以中位数位于之间,
设中位数为,则有,解得,
故综合评分的中位数为;
(2)根据第一问,优质花苗的频率为0.6,样本中优质花苗的数量为60,
得如下列联表:
优质花苗
非优质花苗
合计
甲培优法
20
30
50
乙培优法
40
10
50
合计
60
40
100
所以,
所以有得到把握任务优质花苗与培育方法有关;
14.文旅部门统计了某网红景点在2022年3月至7月的旅游收入(单位:万),得到以下数据:
月份
3
4
5
6
7
旅游收入
10
12
11
12
20
(1)根据表中所给数据,用相关系数加以判断,是否可用线性回归模型拟合与的关系?若可以,求出关于之间的线性回归方程;若不可以,请说明理由;
(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如下列联表,请填写下面的列联表,依据的独立性检验,能否认为“游客是否喜欢该网红景点与性别有关联”.
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考公式:相关系数,参考数据:.线性回归方程:,其中,.
临界值表:
【解析】(1)由已知得:,
,因为,
说明与的线性相关关系很强.,可用线性回归模型拟合与的关系,
,
则关于的线性回归方程为:.
(2)列联表如下所示:
喜欢
不喜欢
总计
男
70
30
100
女
40
60
100
总计
110
90
200
零假设:游客是否喜欢该网红景点与性别无关联,
根据列联表中数据,,
依据小概率值的独立性检验,我们推断不成立,
即游客是否喜欢该网红景点与性别有关联.
15.随着科技进步,近来年,我国新能源汽车产业迅速发展.以下是中国汽车工业协会2022年2月公布的近六年我国新能源乘用车的年销售量数据:
年份
2016
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
6
新能源乘用车年销售y(万辆)
50
78
126
121
137
352
(1)根据表中数据,求出y关于x的线性回归方程;(结果保留整数)
(2)若用模型拟合y与x的关系,可得回归方程为,经计算该模型和第(1)问中模型的(为相关指数)分别为0.87和0.71,请分别用这两个模型,求2022年我国新能源乘用车的年销售量的预测值;
(3)你认为(2)中用哪个模型得到的预测值更可靠?请说明理由.
参考数据:设,其中.
144
4.78
841
5.70
380
528
参考公式:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【解析】(1), ,
,,
,
关于的线性回归方程为 ;
(2)若利用线性回归模型,可得2022年我国新能源乘用车的年销售量的预测值为(万辆)
若利用模型,可得2022年我国新能源乘用车的年销售量的预测值为 (万辆);
(3),且越大,反映残差平方和越小,模型的拟合效果越好,
用模型得到的预测值更可靠.
16.一工厂为了提高生产效率,对某型号生产设备进行了技术改造,为了对比改造前后的效果,采集了20台该种型号的设备技术改造前后连续正常运行的时间长度(单位:天)数据,整理如下表:
设备编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
改造前
22
26
32
17
28
27
34
27
18
23
20
36
26
24
34
40
25
21
25
24
改造后
28
33
39
26
25
35
38
34
43
24
40
35
29
33
35
37
31
41
31
33
(1)根据所给数据,完成下面的列联表,并判断能否有99%的把握认为技术改造前与技术改造后的连续正常运行时间有差异?
设备连续正常运行天数超过30天
设备连续正常运行天数未超过30天
合计
改造前
改造后
合计
(2)若某台设备出现故障,则立即停工并申报维修,根据长期生产经验,每台设备停工天的总损失额记为(单位:元)满足,现有两种维修方案(一天完成维修)可供选择:
方案一:加急维修单,维修人员会在设备出现故障的当天上门维修,维修费用为4000元;
方案二:常规维修单,维修人员会在设备出现故障当天或者之后3天中的任意一天上门维修,维修费用为1000元.
现统计该工厂最近100份常规维修单,获得每台设备在第天得到维修的数据如下:
1
2
3
4
频数
10
30
40
20
将频率视为概率,若某台设备出现故障,以该设备维修所需费用与停工总损失额的和的期望值为决策依据,应选择哪种维修方案?
,
0.050
0.025
0.010
0.005
0.001
3.841
5.024
6.635
7.879
10.828
【解析】(1)列联表为:
设备连续正常运行天数超过30天
设备连续正常运行天数未超过30天
合计
改造前设备台数
5
15
20
改造后设备台数
15
5
20
合计
20
20
40
易知
所以有99%的把握认为技术改造前与技术改造后的连续正常运行时间有差异.
(2)当时,设备的总损失额为元;
当时,设备的总损失额为元;
当时,设备的总损失额为元;
当时,设备的总损失额为元;
设选择方案一、方案二的设备维修所需费用与设备停工总损失额分别为、元,
选择方案一,则元,
选择方案二,则的可能取值有:4600,6900,9400,12100,
所以,,,,,
所以,随机变量的分布列如下表所示:
4600
6900
9400
12100
所以,元,
所以,,故选方案一.