第二十二讲统计初步及成对数据的统计分析原卷版
展开
这是一份第二十二讲统计初步及成对数据的统计分析原卷版,共35页。
统计初步
随机抽样:简单随机抽样,分层抽样
用样本估计总体:频率分布直方图,样本数字特征(百分位数、平均数、众数、中位数、方差、标准差)
成对数据的统计分析
(1)相关关系,(2)回归分析,(3)独立性检验
【典型题型讲解】
考点一:抽样:简单随机抽样分层抽样
【典例例题】
例1.某工厂利用随机数表对生产的700个零件进行抽样测试,先将700个零件进行编号,001,002,……,699,700.从中抽取70个样本,下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是( )
3221183429 7864540732 5242064438 1223435677 3578905642
8442125331 3457860736 2530073286 2345788907 2368960804
3256780843 6789535577 3489948375 2253557832 4577892345
A.623B.328C.253D.007
例2.年月日,搭载问天实验舱的长征五号遥三运载火箭,在我国文昌航天发射场成功发射,我国的航天事业又上了一个新的台阶.某校现有高一学生人,高二学生人,高三学生人,为了调查该校学生对我国航天事业的了解程度,现从三个年级中采用分层抽样的方式抽取人填写问卷调查,则高三年级有多少人被抽中( )
A.16B.18C.20D.24
【方法技巧与总结】
根据样本数据的特点要判定采用随机简单抽样和分层抽样
【变式训练】
1.某个年级有男生180人,女生160人,用分层抽样的方法从该年级全体学生中抽取一个容量为68的样本,则此样本中女生人数为( )
A.40B.36C.34D.32
2.某中学为了掌握学校员工身体状况,偶尔会采用抽检的方式来收集各部门员工的健康情况.为了让样本更具有代表性,学校对各部门采用分层抽样的方法进行抽检.已知该校部门、部门、部门分别有40、60、80人,各部门员工不存在交叉任职情况,若共抽检了90人,则部门抽检人数为______.
3.某市甲、乙、丙三所学校的高三学生共有800名,其中男、女生人数如下表:
(1)现用分层随机抽样的方法从这三所学校的所有高三学生中抽取48人,则应从丙校抽取多少人?
(2)该市模考后,市教研室准备从这三所学校的所有高三学生中利用随机数法抽取100人进行成绩统计分析,将800人按001,002,…,800进行编号,如果从第8行第7列的数开始向右读,请你依次写出最先抽取的4个人的编号.(下面摘取了随机数表第7行至第9行)
8442 1753 3157 2455 0688 7704 7447 6721 7633 5026 8392
6301 5316 5916 9275 3816 5821 7071 7512 8673 5807 4439
1326 3321 1342 7864 1607 8252 0744 3815 0324 4299 7931
考点二:样本数字特征
【典例例题】
例1.(2022·广东中山·高三期末)甲、乙两支田径队的体检结果为:甲队体重的平均数为60kg,方差为200,乙队体重的平均数为70kg,方差为300,又已知甲、乙两队的队员人数之比为1:4,那么甲、乙两队全部队员的平均体重和方差分别是( )
A.65,280B.68,280C.65,296D.68,296
例2.(2022·广东深圳·高三期末)为了分析某次考试的情况,随机抽取了若干学生,将其考试成绩分组为:,,,,,,,,,并绘制成如下图所示的频率分布直方图,据此可估计该次考试成绩的中位数,则整数k的值为( )
A.99B.100C.101D.102
例3.(2021·广东汕头·高三期末)某中学为了解学生数学史知识的积累情况,随机抽取150名同学参加数学史知识测试,测试题共5道,每答对一题得20分,答错得0分.得分不少于60分记为及格,不少于80分记为优秀,测试成绩百分比分布图如图所示,则( )
A.该次数学史知识测试及格率超过90%
B.该次数学史知识测试得满分的同学有15名
C.该次测试成绩的中位数大于测试成绩的平均数
D.若该校共有1500名学生,则数学史知识测试成绩能得优秀的同学大约有720名
例4.2021年7月至2022年7月,我国居民消费价格保持平稳,居民消费价格涨跌幅如图所示,则( )
备注:同比增长率=,环比增长率=,
A.2022年1月全国居民消费价格比2021年1月全国居民消费价格有所下降
B.2022年5月全国居民消费价格比2022年4月全国居民消费价格有所上升
C.2021年7月至2022年7月全国居民消费价格同比增长率的40%分位数为1.0%
D.2021年10月至2022年7月全国居民消费价格环比增长率的平均数为0.25%
【方法技巧与总结】
1、频率分布直方图
(1)利用频率分布直方图求频率、频数;
(2)利用频率分布直方图估计总体.
(3)频率分布直方图的纵坐标是频率除以组距,而不是频率.
2、百分位数
计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
【变式训练】
1.(2022·广东东莞·高三期末)气象意义上从春季进入夏季的标志为“当且仅当连续天每天日平均温度不低于”.现有甲、乙、丙三地连续天日平均温度的记录数据(数据均为正整数,单位)且满足以下条件:
甲地:个数据的中位数是,众数是;
乙地:个数据的中位数是,平均数是;
丙地:个数据有个是,平均数是,方差是;
根据以上数据,下列统计结论正确的是( )
A.甲地进入了夏季B.乙地进入了夏季
C.不能确定丙地进入了夏季D.恰有2地确定进入了夏季
2.如图1为某省2019年1~4月份快递业务量统计图,图2为该省2019年1~4月份快递业务收入统计图,对统计图理解不正确的是( )
A.2019年1~4月份快递业务量3月份最高,2月份最低,差值接近2000万件
B.从1~4月份来看,业务量与业务收入有波动,但整体保持高速增长
C.从两图中看,增量与增长速度并不完全一致,但业务量与业务收入变化高度一致
D.2019年1~4月份快递业务量同比增长率均超过50%,在3月份最高,和春节后网购迎来喷涨有关
3.(2022·广东清远·高三期末)某学校组织了一次劳动技能大赛,共有100名学生参赛,经过评判,这100名参赛者的得分都在内,得分60分以下为不及格,其得分的频率分布直方图如图所示(按得分分成这五组),则下列结论正确的是( )
A.直方图中
B.此次比赛得分不及格的共有40人
C.以频率为概率,从这100名参赛者中随机选取1人,其得分在的概率为0.5
D.这100名参赛者得分的中位数为65
4.(2022·广东汕头·一模)在党史学习教育动员大会上,习近平总书记强调全党同志要做到学史明理、学史增信、学史崇德,学史力行.某单位对200名党员进行党史知识测试,将成绩分成6组:,,,,,,得到如图所示的频率分布直方图,则______.
5.(2022·广东广东·一模)(多选)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入调查数据整理得到如下频率分布直方图(如图):
根据此频率分布直方图,下面结论中正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入的中位数约为7.5万元
C.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
D.估计该地农户家庭年收入的平均值不超过6.5万元
6.(2022·广东韶关·一模)(多选)在一次演讲比赛中,以下表格数据是5位评委给甲、乙两名选手评出的成绩,则下列说法正确的是( )
A.甲选手成绩的极差大于乙选手成绩的极差
B.甲选手成绩的中位数小于乙选手成绩的中位数
C.甲选手成绩的方差小于乙选手成绩的方差
D.甲选手成绩的平均数小于乙选手成绩的平均数
7.某市政府为了节约生活用水,实施居民生活用水定额管理政策,即确定一个居民月用水量标准x(单位:吨),用水量不超过x的部分按平价收费,超出x的部分按议价收费,并随机抽取部分居民进行调查,抽取的居民月均用水量的频率分布直方图如图所示.(同一组中的数据以该组区间的中点值为代表)
(1)求频率分布直方图中a的值;
(2)试估计该市居民月均用水量的众数、平均数;
(3)如果希望85%的居民月均用水量不超过标准x,那么标准x定为多少比较合理?
8.随着新冠肺炎疫情的稳定,各地的经济均呈现缓慢的恢复趋势,为了更进一步做好疫情的防控工作,避免疫情的再度爆发,A地区规定居民出行或者出席公共场合均需佩戴口罩,现将A地区20000个居民一周的口罩使用个数统计如下表所示,其中每周的口罩使用个数在6以上(含6)的有14000人.
(1)求m,n的值;
(2)根据表中数据,完善上面的频率分布直方图;
(3)计算A地区居民一周口罩使用个数的平均数以及方差.
考点二:回归分析
【典例例题】
例1.(2022·广东汕尾·高三期末)“绿水青山就是金山银山”的生态文明发展理念已经深入人心,这将推动新能源汽车产业的迅速发展,下表是近几年我国某地区新能源汽车的年销售量与年价的统计表
根据上表,利用最小二乘法,新能源汽车的年销售量y万台关于年份x的线性回归方程为______.
参考数据:
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
例2.(2022·广东·铁一中学高三期末)年月底,为严防新型冠状病毒疫情扩散,有效切断病毒传播途径,坚决遏制疫情蔓延势头,确保人民群众生命安全和身体健康,多地相继做出了封城决定.某地在月日至日累计确诊人数如下表:
由上述表格得到如散点图(月日为封城第一天).
(1)根据散点图判断与(,均为大于的常数)哪一个适宜作为累计确诊人数与封城后的天数的回归方程类型(给出判断即可,不必说明理由);并根据上表中的数据求出回归方程;
(2)随着更多的医护人员投入疫情的研究,月日武汉影像科医生提出存在大量核酸检测呈阴性(阳性则确诊),但观其肺片具有明显病变,这一提议引起了广泛的关注,月日武汉疾控中心接收了份血液样本,假设每份样本的检验结果是阳性还是阴性都是相互独立的,且每份样本是阳性样本的概率为,核酸试剂能把阳性样本检测出阳性结果的概率是(核酸检测存在阳性样本检测不出来的情况,但不会把阴性检测呈阳性),求这份样本中检测呈阳性的份数的期望.
参考数据:
其中,,参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【方法技巧与总结】
1.线性回归方程的求法;
2.非线性回归方程要通过换元换成线性回归方程.
【变式训练】
1.(2022·广东深圳·一模)某人工智能公司近5年的利润情况如下表所示:
已知变量y与x之间具有线性相关关系,设用最小二乘法建立的回归直线方程为,则下列说法正确的是( )A.
B.变量y与x之间的线性相关系数
C.预测该人工智能公司第6年的利润约为7.8亿元
D.该人工智能公司这5年的利润的方差小于2
2.(2022·广东惠州·二模)某地建立了农业科技图书馆,供农民免费借阅,收集了近5年的借阅数据如下表:
根据上表,可得y关于x的线性回归方程为,则( )A.
B.估计近5年借阅量以0.24万册/年的速度增长
C.y与x的样本相关系数
D.2021年的借阅量一定不少于6.12万册
3.(2022·广东·金山中学高三期末)2021年,我国脱贫攻坚战取得了全面胜利.为了巩固拓展脱贫攻坚成果,不断提高群众的幸福感,某县继续推进山羊养殖项目.为了建设相应的配套项目,该县主管部门对该县近年来山羊养殖业的规模进行了跟踪调查,得到了该县每年售卖山羊数量(单位:万只)与相应年份代码的数据如下表:
(1)由表可知与有较强的线性相关关系,求关于的线性回归方程;
(2)已知该县养殖的山羊品种只有甲、乙两种,且甲品种山羊与乙品种山羊的数量之比为,甲品种山羊达到售卖标准后的出售价为2500元/只,乙品种山羊达到售卖标准后的出售价为2700元/只.为了解养殖山羊所需要的时间,该县主管部门随机抽取了甲品种山羊和乙品种山羊各100只进行调查,得到要达到售卖标准所需的养殖时间如下表:
以上述样本统计的养殖山羊所需时间情况估计全县养殖山羊所需时间(即以各养殖时间的频率作为各养殖时间的概率),且每月每只山羊的养殖成本为300元,结合(1)中所求回归方程,试求2022年该县养殖山羊所获利润的期望(假设山羊达到售卖标准后全部及时卖完).(利润=卖山羊的收入一山羊的养殖成本)
参考公式及数据:回归直线方程为,其中,.
4.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.
该公司为了预测未来几个月的销售量,建立了y关于x的回归模型:.
(1)根据所给数据与回归模型,求y关于x的回归方程(的值精确到0.1);
(2)已知该公司的月利润z(单位:万元)与x,y的关系为,根据(1)的结果,问该公司哪一个月的月利润预报值最大?
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
5.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y(单位:千万吨标准煤)的数据表格:
以x为解释变量,y为预报变量,若以为回归方程,则相关指数,若以为回归方程,则相关指数.
(1)判断与哪一个更适宜作为能源消费总量近似值y关于年份代号x的回归方程,并说明理由;
(2)根据(1)的判断结果及表中数据,求出y关于年份代号x的回归方程.
参考数据:,.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,.
6.(2022·广东潮州·二模)我国在芯片领域的短板有光刻机和光刻胶,某风险投资公司准备投资芯片领域,若投资光刻机项目,据预期,每年的收益率为30%的概率为,收益率为%的概率为;若投资光刻胶项目,据预期,每年的收益率为30%的概率为0.4,收益率为%的概率为0.1,收益率为零的概率为0.5.
(1)已知投资以上两个项目,获利的期望是一样的,请你从风险角度考虑为该公司选择一个较稳妥的项目;
(2)若该风险投资公司准备对以上你认为较稳妥的项目进行投资,4年累计投资数据如下表:
请根据上表提供的数据,用最小二乘法求出y关于的线性回归方程,并预测到哪一年年末,该公司在芯片领域的投资收益预期能达到0.75亿元.
附:收益=投入的资金×获利的期望;线性回归中,,.
7.在疫情防控常态化的背景下,山东省政府各部门在保安全,保稳定的前提下有序恢复生产,生活和工作秩序,五一期间,文旅部门在落实防控举措的同时,推出了多款套票文旅产品,得到消费者的积极回应.下面是文旅部门在某地区推出六款不同价位的旅游套票,每款的套票价格x(单位:元)与购买人数y(单位:万人)的数据如下表:
在分析数据、描点绘图中,发现散点集中在一条直线附近,其中
附:①可能用到的数据:.
②对于一组数据,其回归直线的斜率和截距的最小二乘估计值分别为
(1)根据所给数据,求y关于x的回归方程;
(2)按照文旅部门的指标测定,当购买数量y与套票价格x的比在区间上时,该套票受消费者的欢迎程度更高,可以被认定为“热门套票”,现有三位同学从以上六款旅游套票中,购买不同的三款各自旅游.记三人中购买“热门套票”的人数为X,求随机变量X的分布列和期望.
考点三:独立性检验
【典例例题】
例1.(2022·广东揭阳·高三期末)每年的毕业季都是高校毕业生求职和公司招聘最忙碌的时候,甲、乙两家公司今年分别提供了2个和3个不同的职位,一共收到了100份简历,具体数据如下:
分析毕业生的选择意愿与性别的关联关系时,已知对应的的观测值;分析毕业生的选择意愿与专业关联的的观测值,则下列说法正确的是( )
A.有的把握认为毕业生的选择意愿与专业相关联
B.毕业生在选择甲、乙公司时,选择意愿与专业的关联比与性别的关联性更大一些
C.理科专业的学生更倾向于选择乙公司
D.女性毕业生更倾向于选择甲公司
例2.(2021·广东汕头·高三期末)某土特产超市为预估2022年元旦期间游客购买土特产的情况,对2021年元旦期间的90位游客购买情况进行统计,得到如下人数分布表:
(1)根据以上数据完成列联表,并判断是否有95%的把握认为购买金额是否少于600元与性别有关.
(2)为吸引游客,该超市推出一种优惠方案:购买金额不少于600元可抽奖3次,每次中奖概率为P(每次抽奖互不影响,且P的值等于人数分布表中购买金额不少于600元的频率),中奖1次减50元,中奖2次减100元,中奖3次减150元.若游客甲计划购买800元的土特产,请列出实际付款数(元)的分布列并求其数学期望.
附:参考公式和数据:
附表:
【方法技巧与总结】
独立性检验独立性
【变式训练】
1.(2022·广东潮州·高三期末)(多选)千百年来,我国劳动人民在生产实践中根据云的形状、走向速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩销云,地上雨淋林”“日落云里走,雨在半夜后”……小明同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:
并计算得到,下列小明对地区天气判断正确的是( )A.夜晚下雨的概率约为
B.未出现“日落云里走”,但夜晚下雨的概率约为
C.出现“日落云里走”,有的把握认为夜晚会下雨
D.有的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关
2.(2022·广东湛江·一模)(多选)某市为了研究该市空气中的PM2.5浓度和浓度之间的关系,环境监测部门对该市空气质量进行调研,随机抽查了100天空气中的PM2.5浓度和浓度(单位:),得到如下所示的2×2列联表:
经计算,则可以推断出( )
附:
A.该市一天空气中PM2.5浓度不超过,且浓度不超过的概率估计值是0.64
B.若2×2列联表中的天数都扩大到原来的10倍,的观测值不会发生变化
C.有超过99%的把握认为该市一天空气中PM2.5浓度与浓度有关
D.在犯错的概率不超过1%的条件下,认为该市一天空气中PM2.5浓度与浓度有关
3.(2022·广东清远·高三期末)某市为积极响应上级部门的号召,通过沿街电子屏、微信公众号等各种渠道对抗疫进行了深入的宣传,帮助全体市民深入了解新型冠状病毒,增强战胜疫情的信心.为了检验大家对新型冠状病毒及防控知识的了解程度,该市推出了相关的问卷调查,随机抽取了年龄在18~99岁之间的200人进行调查,把年龄在和内的人分别称为“青年人”和“中老年人”.经统计,“青年人”和“中老年人”的人数之比为2∶3,其中“青年人”中有50%的人对防控的相关知识了解全面,“中老年人”中对防控的相关知识了解全面和了解不全面的人数之比是2∶1.
(1)根据已知条件,完成下面的列联表,并根据统计结果判断是否有95%的把握认为“中老年人”比“青年人”更加了解防控的相关知识.
(2)用频率估计概率从该市18~99岁市民中随机抽取3位市民,记抽出的市民对防控相关知识了解全面的人数为X,求随机变量X的分布列与数学期望.
附表及公式:,其中.
4.(2022·广东茂名·一模)为了增强学生体质,茂名某中学的体育部计划开展乒乓球比赛,为了解学生对乒乓球运动的兴趣,从该校一年级学生中随机抽取了200人进行调查,男女人数相同,其中女生对乒乓球运动有兴趣的占80%,而男生有15人表示对乒乓球运动没有兴趣.
(1)完成2×2列联表,并回答能否有90%的把握认为“对乒乓球运动是否有兴趣与性别有关”?
(2)为了提高同学们对比赛的参与度,比赛分两个阶段进行.第一阶段的比赛赛制采取单循环方式,每场比赛采取三局二胜制,然后由积分的多少选出进入第二阶段比赛的同学,每场积分规则如下:比赛中以取胜的同学积3分,负的同学积0分;以取胜的同学积2分,负的同学积1分.其中,小强同学和小明同学的比赛倍受关注,设每局小强同学取胜的概率为,记小强同学所得积分为, 求的分布列和期望.
附表:
5.(2022·广东茂名·二模)某水果经营户对出售的苹果按大小和色泽两项指标进行分类,最大横切面直径不小于70毫米则大小达标,着色度不低于90%则色泽达标,大小和色泽均达标的苹果为一级果;大小和色泽有一项达标另一项不达标的苹果为二级果;两项均不达标的苹果为三级果.已知该经营户购进一批苹果,从中随机抽取100个进行检验,得到如下统计表格:
(1)根据以上数据,判断是否有95%的把握认为该经营户购进的这批苹果的大小达标和色泽达标有关;
(2)该经营户对三个等级的苹果按照分层抽样从样本中抽取10个苹果,再从中随机抽取3个,求抽到二级果个数X的概率分布列和数学期望.
附:
,其中.
6.(2022·广东惠州·二模)2019年4月,江苏省发布了高考综合改革实施方案,试行“”高考新模式.为调研新高考模式下,某校学生选择物理或历史与性别是否有关,统计了该校高三年级800名学生的选科情况,部分数据如下表:
(1)根据所给数据完成上述表格,并判断是否有99.9%的把握认为该校学生选择物理或历史与性别有关;
(2)该校为了提高选择历史科目学生的数学学习兴趣,用分层抽样的方法从该类学生中抽取5人,组成数学学习小组.一段时间后,从该小组中抽取3人汇报数学学习心得.记3人中男生人数为X,求X的分布列和数学期望.
附:
【巩固练习】
一、单选题
1.(2022·山东·汶上县第一中学高三开学考试)某市为了减少水资源的浪费,计划对居民生活用水费用实施阶梯式水价制度.为了确定一个比较合理的标准,通过简单随机抽样,获得了100户居民的月均用水量数据(单位:吨),得到如图所示的频率分布直方图.估计该市居民月均用水量的中位数为( )
A.8.25B.8.45C.8.65D.8.85
2.(2022·黑龙江·佳木斯一中三模(文))新冠肺炎疫情防控中,测量体温是最简便、最快捷,也是筛查成本比较低、性价比很高的筛查方式,是更适用于大众的普通筛查手段.某班级体温检测员对某一周内甲、乙两名同学的体温进行了统计,其结果如图所示,则下列结论不正确的是( )
A.甲同学的体温的极差为0.5℃
B.甲同学的体温的众数为36.3℃
C.乙同学的体温的中位数与平均数不相等
D.乙同学的体温比甲同学的体温稳定
3.(2022·广西·模拟预测(文))2022年6月6日是第27个“全国爱眼日”,为普及科学用眼知识,提高群众健康水平,预防眼疾,某区残联在残疾人综合服务中心开展“全国爱眼日”有奖答题竞赛活动.已知5位评委老师按百分制(只打整数分)分别给出某参赛小队评分,可以判断出一定有评委打满分的是( )
A.平均数为98,中位数为98B.中位数为96,众数为99
C.中位数为97,极差为9D.平均数为98,极差为6
4.(2022·黑龙江·佳木斯一中三模(文))下列说法正确的序号是( )
①在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加0.8个单位;
②利用最小二乘法求回归直线方程,就是使得最小的原理;
③已知,是两个分类变量,若它们的随机变量的观测值越大,则“与有关系”的把握程度越小;
④在一组样本数据,,…,(,,,…,不全相等)的散点图中,若所有样本都在直线上,则这组样本数据的线性相关系数为.
A.①③B.①②C.②④D.③④
5.(2022·四川省仁寿县文宫中学高三阶段练习(理))某医疗研究所为了检查新研发的疫苗对某种病毒的预防作用,把1000只已注射疫苗的小白鼠与另外1000只未注射疫苗的小白鼠的感染记录作比较,提出原假设:“这种疫苗不能起到预防该病毒传染的作用.”并计算得,则下列说法正确的是( )
A.这种疫苗对预防该病毒传染的有效率为1%
B.若某人未使用疫苗,则他有99%的可能性传染该病毒
C.有99%的把握认为“这种疫苗能起到预防该病毒传染的作用”
D.有1%的把握认为“这种疫苗能起到预防该病毒传染的作用”
二、多选题
6.(2022·全国·模拟预测)最近几个月,新冠肺炎疫情又出现反复,各学校均加强了疫情防控要求,学生在进校时必须走测温通道,每天早中晚都要进行体温检测并将结果上报主管部门.某班级体温检测员对一周内甲乙两名同学的体温进行了统计,其结果如图所示,则下列结论正确的是( )
A.甲同学体温的极差为0.4℃
B.乙同学体温的众数为36.4℃,中位数与平均数相等
C.乙同学的体温比甲同学的体温稳定
D.甲同学体温的第60百分位数为36.4℃
7.某地为响应“扶贫必扶智,扶智就扶知识、扶技术、扶方法”的号召,建立农业科技图书馆,供农民免费借阅,收集了近5年的借阅数据如下表:
根据上表,可得关于的经验回归方程为,则( )A.
B.借阅量4.9,5.1,5.5,5.7,5.8的上四分位数为5.7
C.与的线性相关系数
D.2021年的借阅量一定不少于6.12万册
三、填空题
8.(2022·云南·高三阶段练习)某市某次高中数学统测学生测试成绩频率分布直方图如图所示.现按测试成绩由高到低分成A,B,C,D四个等级,其中等占等占等占等占的比例,规定达到等级及以上才能通过考试,则要通过本次考试的学生分数至少为___________.
9.(2022·全国·高三专题练习)为了增强学生的身体素质,提高适应自然环境、克服困难的能力,某校在课外活动中新增了一项登山活动,并对“学生喜欢登山和性别是否有关”做了一次调查,其中被调查的男女生人数相同,得到如图所示的等高条形统计图,则下列说法中正确的有________.
①被调查的学生中喜欢登山的男生人数比喜欢登山的女生人数多
②被调查的女生中喜欢登山的人数比不喜欢登山的人数多
③若被调查的男女生均为100人,则可以认为喜欢登山和性别有关
④无论被调查的男女生人数为多少,都可以认为喜欢登山和性别有关
四、解答题
10.某企业在举行的安全知识竞答活动中,随机抽取了50名员工,统计了他们的成绩,全部介于70到95之间,将成绩按如下方式分成五组:第一组,第二组,第五组,如图是按上述分组方法得到的频率分布直方图
(1)请根据频率分布直方图,求样本数据的平均数和中位数(所有结果均保留两位小数);
(2)从第一组和第五组的员工中,随机抽取4名员工,记这4名员工中来自第五组的员工的人数为,求随机变量的分布列及数学期望.
11.某学校为了解高三尖子班数学成绩,随机抽查了60名尖子生的期中数学成绩,得到如下数据统计表:
若数学成绩超过135分的学生为“特别优秀”,超过120分而不超过135分的学生为“优秀”,已知数学成绩“优秀”的学生与“特别优秀”的学生人数比恰好为.
(1)求x,y,p,q的值;
(2)学校教务为进一步了解这60名学生的学习方法,从数学成绩“优秀”、“特别优秀”的学生中用分层抽样的方法抽取5人,再从这5人中随机抽取3人进行问卷调查.设X为抽取的3人中数学成绩“优秀”的人数,求X的分布列和数学期望.
12.在实施“乡村振兴”的进程中,某地政府引领广大农户发展特色农业,种植优良品种柑橘.现在实验基地中种植了相同数量的、两种柑橘.为了比较、两个柑橘品种的优劣,在柑橘成熟后随机选取、两种柑橘各株,并根据株产量(单位:)绘制了如图所示的频率分布直方图(数据分组为:、、、、、):
(1)求、的值;
(2)将频率当做概率,在所有柑橘中随机抽取一株,求其株产量不低于的概率;
(3)求两种柑橘株产量平均数的估计值(同一组数据中的平均数用该组区间的中点值代表),并从产量角度分析,哪个品种的柑橘更好?说明理由.
13.某花圃为提高某品种花苗质量,开展技术创新活动,在实验地分别用甲、乙方法培训该品种花苗.为观测其生长情况,分别在实验地随机抽取各50株,对每株进行综合评分,将每株所得的综合评分制成如图所示的频率分布直方图.记综合评分为80 及以上的花苗为优质花苗.
(1)求图中的值,并求综合评分的中位数.
(2)填写下面的列联表,并判断是否有99%的把握认为优质花苗与培育方法有关.
附:下面的临界值表仅供参考.
(参考公式:,其中)
14.文旅部门统计了某网红景点在2022年3月至7月的旅游收入(单位:万),得到以下数据:
(1)根据表中所给数据,用相关系数加以判断,是否可用线性回归模型拟合与的关系?若可以,求出关于之间的线性回归方程;若不可以,请说明理由;
(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如下列联表,请填写下面的列联表,依据的独立性检验,能否认为“游客是否喜欢该网红景点与性别有关联”.
参考公式:相关系数,参考数据:.线性回归方程:,其中,.
临界值表:
15.随着科技进步,近来年,我国新能源汽车产业迅速发展.以下是中国汽车工业协会2022年2月公布的近六年我国新能源乘用车的年销售量数据:
(1)根据表中数据,求出y关于x的线性回归方程;(结果保留整数)
(2)若用模型拟合y与x的关系,可得回归方程为,经计算该模型和第(1)问中模型的(为相关指数)分别为0.87和0.71,请分别用这两个模型,求2022年我国新能源乘用车的年销售量的预测值;
(3)你认为(2)中用哪个模型得到的预测值更可靠?请说明理由.
参考数据:设,其中.
参考公式:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
16.一工厂为了提高生产效率,对某型号生产设备进行了技术改造,为了对比改造前后的效果,采集了20台该种型号的设备技术改造前后连续正常运行的时间长度(单位:天)数据,整理如下表:
(1)根据所给数据,完成下面的列联表,并判断能否有99%的把握认为技术改造前与技术改造后的连续正常运行时间有差异?
(2)若某台设备出现故障,则立即停工并申报维修,根据长期生产经验,每台设备停工天的总损失额记为(单位:元)满足,现有两种维修方案(一天完成维修)可供选择:
方案一:加急维修单,维修人员会在设备出现故障的当天上门维修,维修费用为4000元;
方案二:常规维修单,维修人员会在设备出现故障当天或者之后3天中的任意一天上门维修,维修费用为1000元.
现统计该工厂最近100份常规维修单,获得每台设备在第天得到维修的数据如下:
将频率视为概率,若某台设备出现故障,以该设备维修所需费用与停工总损失额的和的期望值为决策依据,应选择哪种维修方案?
,
特征数
具体数字算法
频率分布直方图(表)
众数
次数出现最多的数字
频率最大或最高组的中间值
中位数
样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取当中两个数据的平均数作为中位数
频率等于0.5时的横坐标
平均数
所有数字之和除以总个数
每个小矩形面积乘以小矩形底边中点的横坐标之和
方差
平均数反映了数据取值的平均水平,标准差、方差描述了一组数据波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定
甲校
乙校
丙校
男生
97
90
x
女生
153
160
y
甲
乙
86
90
95
92
87
91
88
93
88
95
口罩使用数量
频率
0.2
m
0.3
n
0.1
年份
2016
2017
2018
2019
2020
年销售量(万台)
8
12
15
20
25
日期(月)
日
日
日
日
日
日
日
人数(人)
第x年
1
2
3
4
5
利润y/亿元
2
3
4
5
7
年份
2016
2017
2018
2019
2020
年份代码x
1
2
3
4
5
年借阅量y/万册
4.9
5.1
5.5
5.7
5.8
年份
2015
2016
2017
2018
2019
2020
年份代码
1
2
3
4
5
6
售卖山羊数量(万只)
11
13
16
15
20
21
养殖时间(月数)
6
7
8
9
甲品种山羊(只)
20
35
35
10
乙品种山羊(只)
10
30
40
20
月份x
1
2
3
4
5
销售量y(万件)
4.9
5.8
6.8
8.3
10.2
年份
2016
2017
2018
2019
2020
年份代号x
1
2
3
4
5
能源消费总量近似值y(单位:千万吨标准煤)
442
456
472
488
498
年份x
2018
2019
2020
2021
1
2
3
4
累计投资金额y(单位:亿元)
2
3
5
6
旅游类别
城市展馆科技游
乡村特色游
齐鲁红色游
登山套票
游园套票
观海套票
套票价格x(元)
39
49
58
67
77
86
购买数量y(万人)
16.7
18.7
20.6
22.5
24.1
25.6
公司
文史男
文史女
理工男
理工女
甲
10
10
20
10
乙
15
20
10
5
购买金额(元)
[0,150)
[150,300)
[300,450)
[450,600)
[600,750)
[750,900]
人数
10
15
20
15
20
10
不少于600元
少于600元
合计
男
40
女
18
合计
2.072
2.706
3.841
6.635
7.879
0.150
0.100
0.050
0.010
0.005
夜晚天气
日落云里走
下雨
不下雨
临界值表
0.10
0.05
0.010
0.001
出现
25
5
不出现
25
45
2.706
3.841
6.635
10.828
PM2.5
64
16
10
10
0.050
0.010
0.001
3.841
6.635
10.828
了解全面
了解不全面
合计
青年人
中老年人
合计
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
有兴趣
没兴趣
合计
男
女
合计
P(K2≥k0)
0.50
0.40
0.25
0.150
0.100
0.050
k0
0.455
0.780
1.323
2.072
2.706
3.841
直径小于70毫米
直径不小于70毫米
合计
着色度低于90%
10
15
25
着色度不低于90%
15
60
75
合计
25
75
100
0.050
0.025
0.010
3.841
5.024
6.635
性别
科目
男生
女生
合计
物理
300
历史
150
合计
400
800
0.050
0.010
0.001
k
3.841
6.635
10.828
年份
2016
2017
2018
2019
2020
年份代码
1
2
3
4
5
年借阅量(万册)
4.9
5.1
5.5
5.7
5.8
期中数学成绩(单位:分)
频数
频率
3
0.05
x
p
9
0.15
15
0.25
18
0.30
y
q
合计
60
1.00
优质花苗
非优质花苗
合计
甲培优法
20
乙培优法
10
合计
月份
3
4
5
6
7
旅游收入
10
12
11
12
20
喜欢
不喜欢
总计
男
100
女
60
总计
110
年份
2016
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
6
新能源乘用车年销售y(万辆)
50
78
126
121
137
352
144
4.78
841
5.70
380
528
设备编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
改造前
22
26
32
17
28
27
34
27
18
23
20
36
26
24
34
40
25
21
25
24
改造后
28
33
39
26
25
35
38
34
43
24
40
35
29
33
35
37
31
41
31
33
设备连续正常运行天数超过30天
设备连续正常运行天数未超过30天
合计
改造前
改造后
合计
1
2
3
4
频数
10
30
40
20
0.050
0.025
0.010
0.005
0.001
3.841
5.024
6.635
7.879
10.828
相关试卷
这是一份第二十二讲统计初步及成对数据的统计分析解析版,共52页。
这是一份新高考数学二轮复习讲义第二十二讲统计初步及成对数据的统计分析(含解析),共52页。
这是一份新高考数学一轮复习《成对数据的统计分析》课时练习(2份打包,教师版+原卷版),文件包含新高考数学一轮复习《成对数据的统计分析》课时练习教师版doc、新高考数学一轮复习《成对数据的统计分析》课时练习原卷版doc等2份试卷配套教学资源,其中试卷共9页, 欢迎下载使用。