





高考数学重难点培优全攻略(新高考专用)第20讲 统计与成对数据的分析(3大考点+强化训练)(原卷版+解析)
展开
这是一份高考数学重难点培优全攻略(新高考专用)第20讲 统计与成对数据的分析(3大考点+强化训练)(原卷版+解析),文件包含高考数学重难点培优全攻略新高考专用第20讲统计与成对数据的分析3大考点+强化训练原卷版docx、高考数学重难点培优全攻略新高考专用第20讲统计与成对数据的分析3大考点+强化训练解析版docx等2份试卷配套教学资源,其中试卷共43页, 欢迎下载使用。
考点分类讲解
考点一:统计图表、数字特征
1.频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示eq \f(频率,组距),频率=组距×eq \f(频率,组距).
2.在频率分布直方图中各小长方形的面积之和为1.
3.利用频率分布直方图求众数、中位数与平均数.
(1)最高的小长方形底边中点的横坐标即众数.
(2)中位数左边和右边的小长方形的面积和相等.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
易错提醒 (1)对于给出的统计图表,一定要结合问题背景理解图表意义.
(2)频率分布直方图中纵坐标不要误以为是频率.
【例1】(2024·陕西西安·二模)某教育机构为调查中小学生每日完成作业的时间,收集了某位学生100天每天完成作业的时间,并绘制了如图所示的频率分布直方图(每个区间均为左闭右开),根据此直方图得出了下列结论,其中正确的是( )
A.估计该学生每日完成作业的时间在2小时至2.5小时的有50天
B.估计该学生每日完成作业时间超过3小时的概率为0.3
C.估计该学生每日完成作业时间的平均数为2.75小时
D.估计该学生每日完成作业时间的中位数与平均数相等
【答案】C
【分析】直接根据直方图来计算判断每一个选项.
【详解】对于A:估计该学生每日完成作业的时间在2小时至2.5小时的有天,A错误;
对于B:估计该学生每日完成作业时间超过3小时的概率为,B错误;
对于C:,C正确;
对于D:估计该学生每日完成作业时间的中位数为,
则,解得,D错误.
故选:C.
【变式1】(23-24高三上·安徽亳州·期末)如图所示为某企业员工年龄(岁)的频率分布直方图,从左到右依次为第一组、第二组、……、第五组,若第五组的员工有80人,则第二组的员工人数为( )
A.140B.240C.280D.320
【答案】C
【分析】根据频率分布直方图的性质,求得的值,进一步计算即可 .
【详解】由已知得,
所以,因为第五组的员工人数为80,
所以第二组的员工人数为.
故选:C.
【变式2】(23-24高三下·内蒙古锡林郭勒盟·开学考试)为了积极推进国家乡村振兴战略,某示范村不断自主创新,拓宽村民增收渠道,近年来取得了显著成效.据悉该村2023年经济总收入是2022年的2倍,为了更好地了解该村经济收入变化情况,统计了该村两年的经济收入构成比例,得到如图所示的条形图和饼图.则以下说法错误的是( )
A.2023年“种植收入”和2022年“种植收入”一样多
B.2023 年“养殖收入”与“第三产业收入”之和比2022年的全年总收入还多
C.2023年“外出务工收入”是2022年“外出务工收入”的
D.2023年“其他收入”比2022年“其他收入”的2倍还多
【答案】C
【分析】设2022年总收入为m,则2023年总收入为,A选项,分别计算出2022年和2023年种植收入,得到A正确;B选项,计算出,B正确;C选项,分别计算出2022年和2023年外出务工收入,得到C错误;D选项,分别计算出2022年和2023年其他收入,得到D正确.
【详解】设2022年总收入为m,则2023年总收入为,
对于A,2022年种植收入为,2023年种植收入为,A正确;
对于B,2023年养殖收入和第三产业收入之和为,B正确;
对于C,2022年外出务工收入为,2023年外出务工收入为,
是2022年外出务工收入的,C不正确;
对于D,2022年其他收入为,2023年其他收入为,
由于,故2023年其他收入比2022年其他收入的2倍还多,D正确.
故选:C.
【变式3】(2024·甘肃·一模)小李一周的总开支分布如图(1)所示,其中一周的食品开支如图(2)所示,则以下判断错误的是( )
A.小李这一周用于肉蛋奶的支出高于用于娱乐的支出
B.小李这一周用于食品中其他类的支出在总支出中是最少的
C.小李这一周用于主食的支出比用于通信的支出高
D.小李这一周用于主食和蔬菜的总支出比日常支出高
【答案】D
【分析】条形图各支出占食品支出的比例乘以即是条形图各支出占总支出的比例,由此关系即可逐一判断每一个选项.
【详解】对于A,肉蛋奶的支出占食品开支的,
从而小李这一周用于肉蛋奶的支出占比(总开支是单位1)与用于娱乐的支出占比(总开支是单位1)大小关系为,故A描述正确,不符合题意;
对于B,小李这一周用于食品中其他类的支出在总支出中占比为,
对比其他类型的支出占比可知,B描述正确,不符合题意;
对于C,小李这一周用于主食的支出占比(总开支是单位1)与通信的支出占比(总开支是单位1)的大小关系为,
,故C描述正确,不符合题意;
对于D,小李这一周用于主食和蔬菜的总支出占比(总开支是单位1)与日常支出占比(总开支是单位1)的大小关系为,
,故D描述错误,符合题意.
故选:D.
考点二:回归分析
求经验回归方程的步骤
(1)依据成对样本数据画出散点图,确定两个变量具有线性相关关系(有时可省略).
(2)计算出eq \x\t(x),eq \x\t(y),eq \(a,\s\up6(^)),eq \(b,\s\up6(^)).
(3)写出经验回归方程.
易错提醒 (1)样本点不一定在经验回归直线上,但点(eq \x\t(x),eq \x\t(y))一定在经验回归直线上.
(2)求eq \(b,\s\up6(^))时,灵活选择公式,注意公式的推导和记忆.
(3)利用样本相关系数判断相关性强弱时,看|r|的大小,而不是r的大小.
(4)区分样本相关系数r与决定系数R2.
(5)通过经验回归方程求的都是估计值,而不是真实值.
【例2】(22-23高三下·浙江杭州·阶段练习)某公司在x年的销售额(万元)如下表,根据表中数据用最小二乘法得到的回归方程为,则当关于a,b的表达式取到最小值时,( )
A.5B.13
C.8059D.8077
【答案】D
【分析】表达式表示的是样本点与回归直线方程的整体接近程度,故可根据此意义逆向分析的意义,结合条件即可解决之.
【详解】由题意得,,
表示样本点与回归直线的整体接近程度,
且由样本点构成的表为
对应的回归直线方程为:,
由表知,所以,
由题意可知:在散点图中,样本点是将样本点整体向左平移了2016个单位,
故取到最小值时,回归直线与必平行,则有,
所以,所以.
故选:D.
【变式1】(2023·上海奉贤·三模)已知两组数据和,其中且时,;且时,,,我们研究这两组数据的相关性,在集合中取一个元素作为a的值,使得相关性最强,则a=( )
A.8B.11C.12D.13
【答案】B
【分析】根据相关性与线性回归方程的关系即可得到答案.
【详解】设点坐标为,且,
由题意得前9个点位于直线上,面,则要使相关性更强,应更接近10,
四个选项中11更接近10,
故选:B.
【变式2】(2024·河北·一模)集校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:
由表格制作成如图所示的散点图:
由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是( )
A.
B.
C.
D.
【答案】A
【分析】根据的特点判断斜率和截距;由于去掉,其它点的线性关系更强,从而可判断相关系数.
【详解】身高的平均数为,
因为离群点的横坐标167小于平均值176,纵坐标90相对过大,
所以去掉后经验回归直线的截距变小而斜率变大,故
去掉后相关性更强,拟合效果也更好,且还是正相关,
,
故选:A.
【变式3】(22-23高三上·四川成都·阶段练习)以模型去拟合一组数据,设将其变换后得到线性回归方程,则原模型中的值分别是( )
A., B.,
C.,D.,
【答案】B
【分析】根据已知条件,结合对数函数的公式可得, 再结合线性回归方程即可求解.
【详解】
两边取对数,可得,
令 可得
∵线性回归方程
∴, 解得.
故选:B.
考点三:独立性检验
独立性检验的一般步骤
(1)根据样本数据列2×2列联表.
(2)根据公式χ2=eq \f(nad-bc2,a+bc+da+cb+d),计算χ2的值.
(3)查表比较χ2与临界值的大小关系,作统计判断.χ2越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.
易错提醒 (1)χ2越大两分类变量无关的可能性越小,推断犯错误的概率越小,通过表格查得无关的可能性.
(2)在犯错误的概率不大于0.01的前提下认为两个变量有关,并不是指两个变量无关的可能性为0.01.
【例3】(2024·宁夏银川·一模)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
附:
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”
【答案】C
【分析】根据题中条件计算可判断选项A、B;根据列联表计算出的值,即可判断选项C,D.
【详解】由题意知,成绩优秀的学生数是,
成绩非优秀的学生数是75,所以,
选项A、B错误;
根据列联表中的数据,
得到
因此有97.5%的把握认为“成绩与班级有关系”.
故C正确,D错误,
故选:C.
【变式1】(2024高三·全国·专题练习)下列命题中
①散点图可以直观地判断两个变量是否具有线性相关关系;
②回归直线就是散点图中经过样本数据点最多的那条直线;
③回归分析和独立性检验没有什么区别;
④回归直线一定经过样本中心点.
其中正确的命题个数为( )
A.B.C.D.
【答案】B
【分析】利用散点图、回归直线、独立性检验的知识分析判断各个命题即得.
【详解】散点图可以直观地判断两个变量是否具有线性相关关系,故①正确;
回归直线可以不经过散点图中的任何一个点,故②错误;
回归分析是对具有相关关系的两个变量进行统计分析的一种方法,
独立性检验是对两个变量是否具有某种关系的分析,故③错误;
回归直线一定经过样本中心点,故④正确.
所以正确的命题个数为个.
故选:B.
【变式2】(2024·广东广州·二模)根据分类变量与的成对样本数据,计算得到.依据的独立性检验,结论为( )
A.变量与独立
B.变量与独立,这个结论犯错误的概率不超过
C.变量与不独立
D.变量与不独立,这个结论犯错误的概率不超过
【答案】A
【分析】根据独立性检验的基本思想可得结论.
【详解】因为,
所以,依据的独立性检验,我们认为变量与独立,
故选:A.
【变式3】(23-24高三上·四川成都·期末)在某病毒疫苗的研发过程中,需要利用基因编辑小鼠进行动物实验.现随机抽取100只基因编辑小鼠对该病毒疫苗进行实验,得到如下列联表(部分数据缺失):
计算可知,根据小概率值______的独立性检验,分析“给基因编辑小鼠注射该种疫苗能起到预防该病毒感染的效果” ( )
附:,.
A.0.001B.0.05C.0.01D.0.005
【答案】B
【分析】计算卡方,再根据独立性检验的概念判断即可.
【详解】完善列联表如下:
假设:“给基因编辑小鼠注射该疫苗不能起到预防该病毒感染的效果”.
因为:,而,
所以根据小概率值的独立性检验,推断不成立.
即认为“给基因编辑小鼠注射该疫苗能起到预防该病毒感染的效果”.
故选:B
强化训练
一、单选题
1.(23-24高三下·四川绵阳·开学考试)为研究高中生的性别与是否喜欢数学课程之间的关系,运用列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过( )
A.B.C.D.
【答案】B
【分析】根据与临界值的大小关系确定犯错误的概率的范围.
【详解】因为,结合表格可知,所以认为“性别与喜欢数学有关”犯错误的概率不超过0.010.
故选:B.
2.(2024·海南·模拟预测)某机构统计了1000名演员的学历情况,制作出如图所示的饼状图,其中本科学历的人数为630.现按比例用分层随机抽样的方法从中抽取200人,则抽取的硕士学历的人数为( )
A.11B.13C.22D.26
【答案】D
【分析】由饼状图先算出硕士学历的人数与总人数1000之比,进一步结合分层抽样的方法即可求解.
【详解】由题意硕士学历的人数与总人数1000之比为,
现按比例用分层随机抽样的方法从中抽取200人,则抽取的硕士学历的人数为.
故选:D.
3.(21-22高二下·山东滨州·期末)针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为:喜欢短视频和性别相互独立.若依据的独立性检验认为喜欢短视频和性别不独立,则的最小值为( )
附:,附表:
A.7B.8C.9D.10
【答案】C
【分析】由已知数据计算,根据独立性检验的结论,列不等式求的取值范围,得最小值.
【详解】根据题意,不妨设,
于是,
由于依据的独立性检验认为喜欢短视频和性别不独立,
根据表格可知,解得,于是最小值为.
故选:C
4.(23-24高三下·上海浦东新·阶段练习)为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了50人,得到如下结果(单位:人)
根据表中数据,以下叙述正确的是:( )
A.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关
B.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关
C.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关
D.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关
【答案】C
【分析】利用卡方计算公式求得,再利用独立性检验中的意义即可得解.
【详解】由题意,得,
则,所以有的把握认为“吸烟与患肺癌有关有关”.
故选:C.
5.(2024·云南曲靖·一模)已知变量关于的回归方程为,若对两边取自然对数,可以发现与线性相关.现有一组数据如下表所示:
则当时,预测的值为( )
A.B.C.D.
【答案】C
【分析】令,可得出,求出、的值,将、的值代入,求出的值,可得出变量关于的回归方程,然后令,可得出的值.
【详解】令,由可得,如下表所示:
由表格中的数据可得,,
则有,解得,故,
当时,.
故选:C.
6.(2024·四川成都·二模)高三某班学生每天完成作业所需的时间的频率分布直方图如图,为响应国家减负政策,若每天作业布置量在此基础上减少小时,则减负后完成作业的时间的说法中正确的是( )
A.减负后完成作业的时间的标准差减少
B.减负后完成作业的时间的方差减少
C.减负后完成作业的时间在小时以上的概率大于
D.减负后完成作业的时间的中位数在至之间
【答案】D
【分析】根据方差、标准差的性质判断A、B,由频率分布直方图分析减负前完成作业的时间在小时以上的概率,即可判断C,分析减负前完成作业的时间的中位数位于之间,即可判断D.
【详解】依题意若每天作业布置量在此基础上减少小时,
则平均数减小小时,方差和标准差均不变,故A、B错误;
减负前完成作业的时间在小时以上的概率为,
所以减负后完成作业的时间在小时以上的概率为,故C错误;
由频率分布直方图可得,,
所以减负前完成作业的时间的中位数位于之间,
所以减负后完成作业的时间的中位数在至之间,故D正确.
故选:D
7.(23-24高三上·江西·期末)为了加深师生对党史的了解,激发广大师生知史爱党、知史爱国的热情,某校举办了“学党史、育文化的党史知识竞赛,并将1000名师生的竞赛成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,则下列说法错误的为( )
A.的值为0.005B.估计这组数据的众数为75分
C.估计这组数据的第85百分位数为85分D.估计成绩低于60分的有250人
【答案】C
【分析】由频率分布直方图面积之和为1可计算从而判断A,由众数定义可判断B,计算低于60(分)的人数即可判断D,根据百分位数的定义计算即可判断C.
【详解】根据频率分布直方图可知:,即,故A正确;
由图易得在区间,的人最多,故可估计这组数据的众数为75,故B正确;
,故成绩低于60(分)的有250人,即D正确;
由图中前四组面积之和为:,
图中前五组面积之和为:,
故这组数据的第85百分位数在第五组数据中,
设这组数据的第85百分位数为,
则有,
故,即估计这组数据的第85百分位数为86分,故C错误.
故选:C.
8.(23-24高三上·浙江绍兴·期末)平均数、中位数和众数都是刻画一组数据的集中趋势的信息,它们的大小关系和数据分布的形态有关.在下图分布形态中,分别对应这组数据的平均数、中位数和众数,则下列关系正确的是( )
A.B.
C.D.
【答案】C
【分析】根据直方图矩形高低以及数据的分布趋势,判断即可得出结论.
【详解】众数是最高矩形的中点横坐标,因此众数在第二列的中点处.
因为直方图第一、二、三、四列高矩形较多,且在右边拖尾低矩形有三列,所以中位数大于众数,
右边拖尾的有三列,所以平均数大于中位数,
因此有.
故选:C.
二、多选题
1.(23-24高三上·广东深圳·期末)为丰富优质旅游资源,释放旅游消费潜力,推动旅游业高质量发展,某地政府从2023年国庆期间到该地旅游的游客中,随机抽取部分游客进行调查,得到各年龄段游客的人数和对景区服务是否满意的数据,并绘制统计图如图所示,利用数据统计图估计,得到的结论正确的是( )
A.游客中,青年人是老年人的2倍多
B.老年人的满意人数是青年人的2倍
C.到该地旅游的游客中满意的中年人占总游客人数的24.5%
D.到该地旅游的游客满意人数超过一半
【答案】ACD
【分析】根据题意结合统计图表逐项分析判断.
【详解】由扇形统计图可知青年人占比是老年人占比的2倍多,故A正确;
其中满意的青年人占总人数的,
满意的中年人占总人数的,
满意的老年人占总人数的,故B错误,C正确;
总满意率为,故D正确.
故选:.
2.(2024·广西南宁·一模)下列说法中,正确的是( )
A.一组数据的第40百分位数为12
B.若样本数据的方差为8,则数据的方差为2
C.已知随机变量服从正态分布,若,则
D.在独立性检验中,零假设为:分类变量和独立.基于小概率值的独立性检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,可以认为和独立
【答案】BC
【分析】对A,根据百分位数的定义求解即可;对B,根据方差的公式推导数据的方差与的方差关系求解即可;对C,根据正态分布的对称性推导即可;对D,由独立性检验的性质判断即可.
【详解】对A,由于共10个数据,且,
故第40百分位数为第4,5个数据的平均数为,故A错误;
对B,设数据的平均数为,方差为,
则数据的平均数为,
方差为
,所以,故B正确;
对C,则,即,由正态分布的性质可得,故C正确;
对D,在独立性检验中,零假设为:分类变量和独立.基于小概率值的独立性检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,可以认为和独立.故D错误.
故选:BC
3.(2024·云南·模拟预测)下列说法正确的是( )
A.设随机变量的均值为是不等于的常数,则相对于的偏离程度小于相对于的偏离程度(偏离程度用差的平方表示)
B.若一组数据的方差为0,则所有数据都相同
C.用决定系数比较两个回归模型的拟合效果时,越小,残差平方和越小,模型拟合效果越好
D.在对两个分类变量进行独立性检验时,如果列联表中所有数据都扩大为原来的10倍,在相同的检验标准下,再去判断两变量的关联性时,结论不会发生改变
【答案】AB
【分析】根据均值的性质,方差的公式及决定系数的含义可判断A,B,C;根据独立性检验的含义可判断D.
【详解】对于:由均值的性质可知,由于是不等于的常数,
故可得,即相对于的偏离程度小于相对于的偏离程度,A正确;
对于:根据方差公式,可知若一组数据
,的方差为0,则正确;
对于:由决定系数的定义可知,错误;
对于D:如果列联表中所有数据都扩大为原来的10倍,则的值变为原来的10倍,在相同的检验标准下,再去判断两变量的关联性时,结论可能发生改变,D错误,
故选:AB.
三、填空题
1.(23-24高三下·北京海淀·开学考试)某直播间从参与购物的人群中随机选出200人,并将这200人按年龄分组,得到的频率分布直方图如图所示,则在这200人中年龄在的人数 ,直方图中 .
【答案】
【分析】利用频率分布直方图求出年龄在的频率即可求出;由各小矩形面积和为1求出.
【详解】由频率分布直方图知,年龄在的频率为,
所以;
由于,所以.
故答案为:30;0.035
2.(23-24高三·天津滨海新·期末)下列说法中正确的有 (填正确说法的序号).
①回归直线恒过点,且至少过一个样本点;
②若样本数据的方差为4,则数据的标准差为4;
③已知随机变量,且,则;
④若线性相关系数越接近1,则两个变量的线性相关性越弱;
⑤是用来判断两个分类变量是否相关的随机变量,当的值很小时可以推断两个变量不相关.
【答案】②③
【分析】根据线性回归方程的概念可以判断①,根据方差的性质可以判断②,根据正态分布的性质可以判断③,根据相关系数的概念可以判断④,根据独立性检验的基本概念可以判断⑤.
【详解】因为回归直线可以不过样本点,所以①错误;
由于,所以数据的方差为16,故标准差为4,因此②正确;
根据正态分布的概念,,故,即,故,因此③正确;
根据相关系数的概念,若线性相关系数越接近1,则两个变量的线性相关性越强,故④错误;
的值很小时只能说明两个变量的相关
性不强,故⑤错误.
故答案为:②③
3.(23-24高三上·宁夏银川·阶段练习)有甲、乙两个班级共计105 人进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
附: 其中.
已知在全部 105人中随机抽取1人,成绩优秀的概率为 ,则下列说法正确的是
①列联表中c的值为30,b的值为35;
②列联表中c的值为20,b的值为 45;
③根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”;
④根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”.
【答案】②③
【分析】由成绩优秀的概率,可求的成绩优秀的人数,进而求出非优秀人数,得到的值,计算的观测值,对照题目中的表格,即可得到结论.
【详解】由题意,在全部的105人中随机抽取1人,成绩优秀的概率为,
所以成绩优秀的人数为人,非优秀的人数为人,
所以,故①错误,②正确;
则,
若按的可靠性要求,能认为“成绩与班级有关系”,故③正确,④错误.
故答案为:②③.
【点睛】关键点睛:熟练掌握的计算方法是本题解决的关键.
四、解答题
1.(2024·贵州毕节·二模)某地区工会利用“健步行APP”开展健步走活动.为了解会员的健步走情况,工会在某天从系统中抽取了100名会员,统计了当天他们的步数(千步为单位),并将样本数据分为,,,…,,九组,整理得到如图所示的频率分布直方图.
(1)根据频率分布直方图,估计样本数据的70%分位数;
(2)据统计,在样本数据,,的会员中体检为“健康”的比例分别为,,,以频率作为概率,估计在该地区工会会员中任取一人,体检为“健康”的概率.
【答案】(1)14.5
(2)0.38
【分析】(1)根据频率分布直方图和总体百分位数的定义直接求解即可.
(2)设任取的会员数据在,,中分别为事件,,,先求出对应概率,即可求解体检为“健康”的概率.
【详解】(1)解:(1)由于在的样本数据比例为:
∴样本数据的70%分位数在内∴估计为:.
(2)(2)设任取的会员数据在,,中分别为事件,,,
∴,,
设事件在该地区工会会员中任取一人体检为“健康”
.
2.(2024·宁夏吴忠·模拟预测)配速是马拉松运动中常使用的一个概念,是速度的一种,是指每公里所需要的时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图1是一名马拉松跑者的心率(单位:次/分钟)和配速(单位:分钟/公里)的散点图,图2是一次马拉松比赛(全程约42公里)前3000名跑者成绩(单位:分钟)的频率分布直方图.
(1)由散点图看出,可用线性回归模型拟合与的关系,求与的线性回归方程;
(2)该跑者如果参加本次比赛,将心率控制在160次/分钟左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次,
参考公式:线性回归方程中,,.
【答案】(1)
(2)210分钟,192名
【分析】(1)先计算出,代入公式求出,得到线性回归方程;
(2)代入,求出,计算出所花时间为分钟,频率分布直方图分析出有的跑者成绩超过该跑者,从而求出答案.
【详解】(1)由散点图中数据和参考数据得,
,
,
.
关于的线性回归方程为;
(2)将代入,得.
该跑者跑完马拉松全程所花时间为分钟.
从马拉松比赛的频率分布直方图可知成绩好于210分钟的累计频率为:
,
有的跑者成绩超过该跑者.
则该跑者在本次比赛获得名次大约是名.
3.(2024·黑龙江·二模)2023 年是全面贯彻落实党的二十大精神的开局之年,也是实施“十四五”规划承上启下的关键之年,经济增长呈现稳中有进的可喜现象.某省为做好刺梨产业的高质量发展,项目组统计了全省近5年刺梨产业综合产值如下:
年份代码x,综合产值y(单位:亿元)
(1)请通过样本相关系数,推断y与x之间的相关程度;(若,则线性相关性程度很强;若,则线性相关性程度一般,若,则线性相关性程度很弱.)
(2)求出y关于x的经验回归方程,并预测 2024 年该省刺梨产业的综合产值.
参考公式:样本相关系数经验回归方程 中斜率和截距的最小二乘法估计公式分别为,.
参考数据:
【答案】(1)线性相关性程度很强,理由见解析;
(2),2024年该省刺梨产业的综合产值为亿元.
【分析】(1)根据公式计算出相关系数,得到结论.
(2)根据公式求出和,得到经验回归方程,并令,预测2024年该省刺梨产业的综合产量.
【详解】(1)依题意,,,
,
,,
故,
所以线性相关性程度很强.
(2)由(1)得,则,
所以关于的经验回归方程为,当时,.
4.(2024·黑龙江齐齐哈尔·一模)睡眠是生命健康不可缺少的源泉,然而许多人被睡眠时长过短、质量不高等问题所困扰.2023年3月21日是第23个世界睡眠日,这一天某研究小组随机调查了某高校100名学生在某一天内的睡眠情况,将所得数据按照分成6组,制成如图所示的频率分布直方图:
(1)求的值,并由频率分布直方图估计该校所有学生每一天的平均睡眠时长(同一组的数据用该组区间的中点值作代表);
(2)每一天睡眠时长不低于7.75小时认定为睡眠充足,以频率代替概率,样本估计总体,在该高校学生中随机抽查3人,求至少有两人每一天睡眠时长充足的概率.
【答案】(1),7.295(小时)
(2)0.104
【分析】(1)根据频率之和为求得,根据平均数的求法求得平均数.
(2)根据独立重复事件概率计算公式求得所求概率.
【详解】(1),解得,
依题意,该校学生每一天的平均睡眠时长为:
(小时);
(2)100名学生的睡眠充足的频率为,
以频率代替概率,样本估计总体,该校学生睡眠充足的概率为0.2,
所以至少有两人睡眠时长充足的概率为.
5.(2024·安徽黄山·一模)某校高三年级名学生的高考适应性演练数学成绩频率分布直方图如图所示,其中成绩分组区间是、、、、、.
(1)求图中的值,并根据频率分布直方图,估计这名学生的这次考试数学成绩的第百分位数;
(2)从这次数学成绩位于、的学生中采用比例分配的分层随机抽样的方法抽取人,再从这人中随机抽取人,该人中成绩在区间的人数记为,求的分布列及数学期望.
【答案】(1),第分位数为
(2)分布列答案见解析,
【分析】(1)根据频率直方图所有矩形的面积之和为可得出的值,利用百分位数的定义可求得这名学生的这次考试数学成绩的第百分位数;
(2)分析可知,随机变量的可能取值有、、、,计算出随机变量在不同取值下的概率,可得出随机变量的分布列,进而可求得的值.
【详解】(1)解:由频率分布直方图可得,解得.
前四个矩形的面积之和为,
前五个矩形的面积之和为,
设这名学生的这次考试数学成绩的第百分位数为,
则,解得,
因此,这名学生的这次考试数学成绩的第百分位数为.
(2)解:数学成绩位于、的学生人数之比为,
所以,所抽取的人中,数学成绩位于的学生人数为,
数学成绩位于的学生人数为人,
由题意可知,随机变量的可能取值有、、、,
则,,
,,
所以,随机变量的分布列如下表所示:
所以,.
x
2017
2018
2019
2020
2021
2022
k
1
2
3
4
5
6
身高(单位:
167
173
175
177
178
180
181
体重(单位:
90
54
59
64
67
72
76
优秀
非优秀
总计
甲班
10
b
乙班
c
30
合计
P(K2≥k0)
0.05
0.025
0.010
0.005
k0
3.841
5.024
6.635
7.879
被某病毒感染
未被某病毒感染
合计
注射疫苗
10
50
未注射疫苗
30
50
合计
30
100
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
被某病毒感染
未被某病毒感染
合计
注射疫苗
10
40
50
未注射疫苗
20
30
50
合计
30
70
100
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
0.05
0.01
3.841
6.635
不患肺癌
患肺癌
合计
不吸烟
24
6
30
吸烟
6
14
20
合计
30
20
50
1
2
3
4
5
优秀
非优秀
总计
甲班
10
b
乙班
c
30
0.10
0.05
0.025
0.010
0.0005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
年份
2019
2020
2021
2022
2023
年份代码x
1
2
3
4
5
综合产值y
1.5
2
3.5
8
15
相关试卷
这是一份高考数学重难点培优全攻略(新高考专用)第18讲 计数原理与概率(3大考点+强化训练)(原卷版+解析),文件包含高考数学重难点培优全攻略新高考专用第18讲计数原理与概率3大考点+强化训练原卷版docx、高考数学重难点培优全攻略新高考专用第18讲计数原理与概率3大考点+强化训练解析版docx等2份试卷配套教学资源,其中试卷共27页, 欢迎下载使用。
这是一份高考数学重难点培优全攻略(新高考专用)第15讲 圆锥曲线的方程与性质(3大考点+强化训练)(原卷版+解析),文件包含高考数学重难点培优全攻略新高考专用第15讲圆锥曲线的方程与性质3大考点+强化训练原卷版docx、高考数学重难点培优全攻略新高考专用第15讲圆锥曲线的方程与性质3大考点+强化训练解析版docx等2份试卷配套教学资源,其中试卷共39页, 欢迎下载使用。
这是一份高考数学重难点培优全攻略(新高考专用)第14讲 直线与圆(3大考点+强化训练)(原卷版+解析),文件包含高考数学重难点培优全攻略新高考专用第14讲直线与圆3大考点+强化训练原卷版docx、高考数学重难点培优全攻略新高考专用第14讲直线与圆3大考点+强化训练解析版docx等2份试卷配套教学资源,其中试卷共38页, 欢迎下载使用。
