所属成套资源:【备考2023】高考数学大题精练 (全国通用)(原卷版+解析版)
专题04 概率与统计(文)——【备考2023】高考数学大题精练 (全国通用)(原卷版+解析版)
展开这是一份专题04 概率与统计(文)——【备考2023】高考数学大题精练 (全国通用)(原卷版+解析版),文件包含专题04概率与统计文解析版docx、专题04概率与统计文原卷版docx等2份试卷配套教学资源,其中试卷共55页, 欢迎下载使用。
专题04 概率与统计(文)
概率统计文科题型,在大题17,18题型位置,大多数是常规门槛基础题,是实际生活问题为背景,多考察直方图数据处理计算,回归直线求解应用,独立检验计算分析,相关系数计算分析等,试题阅读量大,数据关系较复杂,计算量大,难点在于阅读并能准确的把试题转化为对应数学知识处理。
常考题型:独立检验型,相关系数型,回归直线方程应用,非线性回归方程型,剔除数据求回归方程型,直方图型等等
一、独立检验型
例题、为了有针对性地提高学生体育锻炼的积极性,某学校对学生是否经常锻炼的情况进行了调查.从本校学生中随机选取了800名学生进行调查了解,并将调查结果(“经常”或“不经常”)制成下表所示的列联表:
性别
不经常
经常
合计
女生
200
300
500
男生
150
150
300
合计
350
450
800
(1)通过计算判断,有没有99%的把握认为性别因素与学生锻炼的经常性有关?
(2)将频率视作概率.若该学校有4000名学生,估计该校经常锻炼的学生人数.
附表及公式:
0.15
0.10
0.05
0.025
0.010
2.072
2.706
3.841
5.024
6.635
其中,.
【答案】(1)有(2)2250
【分析】(1)计算的值,与附表中的值比较,可得结论;
(2)求出样本数据中经常锻炼的学生的频率,将频率视为概率,即可求得该校经常锻炼的学生人数的估计值.
【详解】(1)由题,有,
因此,有99%的把握认为性别因素与学生锻炼的经常性有关系.
(2)由图表可知,样本数据中,经常锻炼的学生人数为450,频率为,
将频率视为概率,则在该校随机抽取一名学生,抽取到经常锻炼的学生的概率为,
则该校4000名学生中,经常锻炼的学生人数的估计值为.
应用独立性检验解决实际问题包括的主要环节
(1)提出零假设:X和相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出列联表,计算的值,并与临界值比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
某校团委针对“学生性别和喜欢课外阅读”是否有关做了一次不记名调查,其中被调查的全体学生中,女生人数占总人数的.调查结果显示,男生中有的人喜欢课外阅读,女生中有的人喜欢课外阅读.
(1)以频率视为概率,若从该校全体学生中随机抽取2名男生和2名女生,求其中恰有2人喜欢课外阅读的概率;
(2)若有95%的把握认为喜欢课外阅读和性别有关,求被调查的男生至少有多少人?
附:
0.050
0.010
3.841
6.635
,.
【答案】(1);(2)12.
【分析】(1)由相互独立事件同时发生的概率,可得结论;
(2)设出男生人数,列出列联表,根据及均为整数即可求解.
【详解】(1)从该校全体学生中随机抽取2名男生和2名女生,记其中恰有2人喜欢课外阅读为事件,
则.
(2)设被调查的男生人数为,则被调查的女生人数为,则列联表为:
喜欢课外阅读
不喜欢课外阅读
合计
男生
女生
合计
若有95%的把握认为喜欢课外阅读和性别有关,则,
即,则,
因为均为整数,所以被调查的男生至少有12人.
(内蒙古2023届高三仿真模拟考试文科数学试题)国际足联世界杯(),简称“世界杯”,是由全世界国家级别球队参与,象征足球界最高荣誉,并具有最大知名度和影响力的足球赛事.年卡塔尔世界杯共有支球队参加比赛,共有场比赛.某社区随机调查了街道内男、女球迷各名,统计了他们观看世界杯球赛直播的场次,得到下面的列联表:
少于场比赛
不少于场比赛
总计
男球迷
女球迷
总计
(1)求的值,并完成上述列联表;
(2)若一名球迷观看世界杯球赛直播的场次不少于场比赛,则称该球迷为“资深球迷”,请判断能否有的把握认为该社区的一名球迷是否为“资深球迷”与性别有关.
参考公式:,其中.
参考数据:
【答案】(1),列联表见解析(2)有的把握认为该社区的一名球迷是否为“资深球迷”与性别有关
【分析】(1)根据球迷总人数可构造方程求得的值,进而补全列联表;
(2)由列联表数据可计算得到,对比临界值表可得结论.
【详解】(1)由题意得:,解得:;
补全列联表如下:
少于场比赛
不少于场比赛
总计
男球迷
女球迷
总计
(2)由(1)得:,
有的把握认为该社区的一名球迷是否为“资深球迷”与性别有关.
1.(2022年高考全国甲卷数学(文)真题)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数
未准点班次数
A
240
20
B
210
30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:,
0.100
0.050
0.010
2.706
3.841
6.635
【答案】(1)A,B两家公司长途客车准点的概率分别为,(2)有
【分析】(1)根据表格中数据以及古典概型的概率公式可求得结果;
(2)根据表格中数据及公式计算,再利用临界值表比较即可得结论.
【详解】(1)根据表中数据,A共有班次260次,准点班次有240次,
设A家公司长途客车准点事件为M,
则;
B共有班次240次,准点班次有210次,
设B家公司长途客车准点事件为N,
则.
A家公司长途客车准点的概率为;
B家公司长途客车准点的概率为.
(2)列联表
准点班次数
未准点班次数
合计
A
240
20
260
B
210
30
240
合计
450
50
500
=,
根据临界值表可知,有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
2.(2021年全国高考甲卷数学(文)试题)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)75%;60%;(2)能.
【分析】根据给出公式计算即可
【详解】(1)甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.
(2),
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
二、相关系数型
例题、(河南省郑州市2023届高三第一次质量预测文科数学试题)自主创新是我国经济发展的核心动力,科技自立自强已被赋予国家发展战略支点的功能.目前实现科技自立自强我们仍面临巨大挑战,越来越多的企业主动谋划、加快发展,推动我国科技创新迈上新台阶.某企业拟对某芯片进行科技升级,根据市场调研与模拟,得到科技升级投入x(亿元)与科技升级直接收益y(亿元)的数据统计如下:
序号
1
2
3
4
5
6
7
x
2
3
4
6
8
10
13
y
13
22
31
42
50
56
58
根据表格中的数据,建立了y与x的两个回归模型:模型①:;模型②:.
(1)根据下列表格中的数据,比较模型①、②的相关指数的大小,并选择拟合精度更高、更可靠的模型;
(2)根据(1)选择的模型,预测对芯片科技升级的投入为17亿元时的直接收益.
回归模型
模型①
模型②
回归方程
182.4
79.2
(附:刻画回归效果的相关指数,)
【答案】(1)模型①的相关指数小于模型②的相关指数,回归模型②的拟合效果更好
(2)72.93亿元
【分析】(1)根据相关指数公式,结合不等式性质,可得答案;
(2)根据(1)选的模型,代入数据,可得答案.
【详解】(1)由表格中的数据,182.4>79.2,
∴,
∴模型①的相关指数小于模型②的相关指数,
∴回归模型②的拟合效果更好
(2)当x=17亿时,科技升级直接收益的预测值为:
.
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
章节整体概况-成对数据的统计分析
判断两个变量是否线性相关及相关程度通常有两种方法:
(1) 利用散点图直观判断;
(2)将相关数据代入相关系数公式求出,然后根据的大小进行判断.求线性回归方程时要严格按照公式求解,并一定要注意计算的准确性.
我国技术给直播行业带来了很多发展空间,加上受疫情影响,直播这种成本较低的获客渠道备受商家青睐,某商场统计了2022年1~5月某商品的线上月销售量y(单位:千件)与售价x(单位:元/件)的情况如下表示.
月份
1
2
3
4
5
售价x(元/件)
60
56
58
57
54
月销售量y(千件)
5
9
7
10
9
(1)求相关系数,并说明是否可以用线性回归模型拟合与的关系(当时,可以认为两个变量有很强的线性相关性;否则,没有很强的线性相关性)(精确到0.01);
(2)建立关于的线性回归方程,并估计当售价为元/件时,该商品的线上月销售量估计为多少千件?
(3)若每件商品的购进价格为元/件,如果不考虑其他费用,由(2)中结论,当商品售价为多少时,可使得该商品的月利润最大?(该结果保留整数)
参考公式:对于一组数据,相关系数,其回归直线的斜率和截距的最小二乘估计分别为:.参考数据:.
【答案】(1),可以用线性回归模型拟合
(2),当55元/件估计可销售千件
(3)当商品售价为元/件时,可使得该商品的月利润最大.
【分析】(1)根据数据计算,从而分别代入计算出,,,由公式计算相关系数并判断相关性;
(2)代入公式求解,,从而写出回归方程,再代入,计算;
(3)设每月的利润为元,写出关于的函数解析式,根据二次函数的性质,求解对称轴即可.
【详解】(1)由已知数据可得,
,
,
,
所以相关系数,
因为,所以与有很强的线性相关性,可以用线性回归模型拟合.
(2)由于,
,
所以关于的线性回归方程为,
当时,,
故当售价为元/件时,该商品的线上月销售量估计为千件.
(3)设每月的利润为元,则,
当时,Z取得最大值.
即当商品售价为元/件时,可使得该商品的月利润最大.
1.(河南省部分名校2022-2023学年高三下学期学业质量联合检测理科数学试题某学校组织学生观看了“天宫课堂”第二课的直播后,极大地激发了学生学习科学知识的兴趣,提高了学生学习的积极性,特别是对实验操作的研究与探究.现有某化学兴趣小组的同学在老师的指导下,开展了某项化学实验操作,为了解实验效度与实验中原料的消耗量(单位:)的关系,该校实验员随机选取了10个小组的实验数据如下表.
小组编号
1
2
3
4
5
6
7
8
9
10
总计
实验效度
6
原料的消耗量
15
并计算得.
(1)求这10个小组的实验效度与实验中原料的消耗量的平均值;
(2)求这10个小组的实验效度与实验中原料的消耗量的相关系数(精确到);
(3)经该校实验员统计,以往一个学年各种实验中需用到原料的实验有200次左右.假设在一定的范围内,每次实验中原料的消耗量与实验效度近似成正比,其比例系数可近似为样本中相应的平均值的比值.根据要求,实验效度平均值需达到.请根据上述数据信息,估计该校本学年原料的消耗量.
附:相关系数
【答案】(1)0.6,1.5g(2)0.75(3)
【分析】(1)根据数值计算即可;(2)先化简公式:,,然后再代入相关数据计算可得结果;(3)由比例关系直接计算即可.
【详解】(1)由题意得这10个小组的实验效度的平均值为,
这10个小组实验中原料的消耗量的平均值为.
(2)相关系数
.
(3)设该校本学年原料的消耗量为,
则由题可知,
所以估计该校本学年原料的消耗量为.
2.(安徽省合肥市2023届高三下学期第一次教学质量检测数学试题)研究表明,温度的突然变化会引起机体产生呼吸道上皮组织的生理不良反应,从而导致呼吸系统疾病的发生或恶化.某中学数学建模社团成员欲研究昼夜温差大小与该校高三学生患感冒人数多少之间的关系,他们记录了某周连续六天的温差,并到校医务室查阅了这六天中每天高三学生新增患感冒而就诊的人数,得到资料如下:
日期
第一天
第二天
第三天
第四天
第五天
第六天
昼夜温差x(℃)
4
7
8
9
14
12
新增就诊人数y(位)
参考数据:,.
(1)已知第一天新增患感冒而就诊的学生中有7位女生,从第一天新增的患感冒而就诊的学生中随机抽取3位,若抽取的3人中至少有一位男生的概率为,求的值;
(2)已知两个变量x与y之间的样本相关系数,请用最小二乘法求出y关于x的经验回归方程,据此估计昼夜温差为15℃时,该校新增患感冒的学生数(结果保留整数).
参考公式:,.
【答案】(1)(2)33人
【分析】(1)根据题意由求解;
(2)根据样本相关系数,求得,再利用公式求得即可.
【详解】(1)解:∵,∴,∴,∴.
(2)∵,∴,∴.∵,
∴,∴.
又∵,解得.
∴,
∴,当时,,
∴可以估计,昼夜温差为15℃时,该校新增患感冒的学生数为33人.
1.(2022年高考全国乙卷数学(文)真题)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
【答案】(1);(2)(3)
【分析】(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)代入题给相关系数公式去计算即可求得样本的相关系数值;
(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估计值.
【详解】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为
(2)
则
(3)设该林区这种树木的总材积量的估计值为,又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.则该林区这种树木的总材积量估计为
2.(2020年全国统一高考数学试卷(理科)(新课标Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
【答案】(1);(2);(3)详见解析
【分析】(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据即可;
(2)利用公式计算即可;
(3)各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.
【详解】(1)样区野生动物平均数为,
地块数为200,该地区这种野生动物的估计值为
(2)样本(i=1,2,…,20)的相关系数为
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
三、回归直线方程
例题、下表为2015—2021年中国数字经济规模(单位:万亿元)及2022—2024年中国数字经济规模预测统计表,记2015—2024年对应的代码分别为1~10.
年份
2015年
2016年
2017年
2018年
2019年
2020年
2021年
2022年
2023年
2024年
年份代码
1
2
3
4
5
6
7
8
9
10
中国数字经济规模/万亿元
18.6
22.6
27.2
31.3
35.8
39.2
45.5
54.3
60.6
68.3
(1)根据2015—2021年的数据知可用线性回归模型拟合中国数字经济规模y与年份代码x之间的关系,求y关于x的线性回归方程(系数精确到0.01);
(2)对于未来n年的变化,通过两种不同模型预测得到两组数据,,…,与,,,,记M为数据,,…,,,,…,中的最大值,若,则称这两组数据相吻合,利用(1)中求得的线性回归方程对2022—2024年的中国数字经济规模进行预测,判断所得预测数据与表中预测数据是否吻合.
参考数据:,.
参考公式:线性回归方程中,斜率与截距的最小二乘估计公式分别为,.
【答案】(1) (2)所得预测数据与表中预测数据不吻合
【分析】(1)根据最小二乘法估计公式求出和,代入可得结果;
(2)利用计算出对应的函数值,再计算和的值,并比较它们的大小可得答案.
【详解】(1),因为,所以,
, 所以,
,故y关于x的线性回归方程为.
(2)当时,,当时,,
当时,,
因为,,
,所以所得预测数据与表中预测数据不吻合.
回归方程:
对于一组具有线性相关关系的成对样本数据,由最小二乘法得
,.
将称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.
(2)观测值:对于响应变量Y,通过观测得到的数据称为观测值.
(3)预测值:通过经验回归方程得到的称为预测值.
(4)残差:观测值减去_预估值称为残差.
(5)的计算公式为.在表达式中,与经验回归方程无关,残差平方和与经验回归方程有关.因此越大,表示残差平方和越小,即模型的拟合效果约好;越小,表示残差平方和越大,即模型的拟合效果_越差,越接近1,拟合效果越好.
从某居民区随机抽取10个家庭,获得第i个家庭的月收入(单位:千元)与月储蓄(单位:千元)的数据资料,计算得,,,.
(1)求家庭的月储蓄对月收入的线性回归方程;
(2)判断变量与之间是正相关还是负相关,并利用(1)中的回归方程,分析2021年该地区居民月收入与月储蓄之间的变化情况,并预测当该居民区某家庭月收入为7千元,该家庭的月储蓄额.附:线性回归方程系数公式.
中,,,其中,为样本平均值.
【答案】(1)=0.3x-0.4(2)正相关,分析见解析,1.7(千元)
【分析】(1)由题意得到n=10,求得,进而求得,写出回归方程;.
(2)由判断变量与之间是正相关,将x=7代入回归方程求解.
【详解】(1)由题意知n=10,.
则. 所以所求回归方程为=0.3x-0.4.
(2)因为,
故x与y之间是正相关, 2021年该地区居民月收入随月储蓄的增加而增加.
将x=7代入回归方程可以预测该家庭的月储蓄为=0.3×7-0.4=1.7(千元)
1.(安徽省合肥市2023届高三下学期第一次教学质量检测数学试题)研究表明,温度的突然变化会引起机体产生呼吸道上皮组织的生理不良反应,从而导致呼吸系统疾病的发生或恶化.某中学数学建模社团成员欲研究昼夜温差大小与该校高三学生患感冒人数多少之间的关系,他们记录了某周连续六天的温差,并到校医务室查阅了这六天中每天高三学生新增患感冒而就诊的人数,得到资料如下:
日期
第一天
第二天
第三天
第四天
第五天
第六天
昼夜温差x(℃)
4
7
8
9
14
12
新增就诊人数y(位)
参考数据:,.
(1)已知第一天新增患感冒而就诊的学生中有7位女生,从第一天新增的患感冒而就诊的学生中随机抽取3位,若抽取的3人中至少有一位男生的概率为,求的值;
(2)已知两个变量x与y之间的样本相关系数,请用最小二乘法求出y关于x的经验回归方程,据此估计昼夜温差为15℃时,该校新增患感冒的学生数(结果保留整数).
参考公式:,.
【答案】(1)(2)33人
【分析】(1)根据题意由求解;
(2)根据样本相关系数,求得,再利用公式求得即可.
【详解】(1)解:∵,∴,∴,∴.
(2)∵,∴,∴.∵,
∴,∴.
又∵,解得.
∴,∴,当时,,
∴可以估计,昼夜温差为15℃时,该校新增患感冒的学生数为33人.
2.(广东省惠州市2013届高三1月模拟考试数学文试题)某市春节期间7家超市的广告费支出(单位:万元)和销售额(单位:万元)数据记录如下表:
超市
A
B
C
D
E
F
G
广告费支出(万元)
1
2
4
6
11
13
19
销售额(万元)
19
32
40
44
52
53
54
(1)若用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;
(2)若用二次函数回归模型拟合y与x的关系,可得回归方程为,经计算,二次函数回归模型和线性回归模型的相关指数分别约为0.93和0.75,请用说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为3万元时的销售额.
参考数据及公式:,,
【答案】(1);(2)二次函数回归模型更合适,33.47万元.
【分析】(1)根据最小二乘法结合条件即得;
(2)根据相关指数的概念及回归方程即得.
【详解】(1)由题可得,,
,,则,所以,
所以y关于x的线性回归方程是;
(2)因为,
所以二次函数回归模型更合适,
用此模型,当时,,
由此预测A超市广告费支出为3万元时的销售额为33.47万元.
1.(2016年全国普通高等学校招生统一考试文科数学(全国3卷参考版))下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:,,
,≈2.646.
参考公式:相关系数
回归方程中斜率和截距的最小二乘估计公式分别为:
【答案】(Ⅰ)答案见解析;(Ⅱ)答案见解析.
【详解】试题分析:(Ⅰ)根据相关系数的公式求出相关数据后,代入公式即可求得的值,最后根据值的大小回答即可;(Ⅱ)准确求得相关数据,利用最小二乘法建立y关于t的回归方程,然后预测.
试题解析:(Ⅰ)由折线图中数据和附注中参考数据得
,,,
,
.
因为与的相关系数近似为0.99,说明与的线性相关相当高,从而可以用线性回归模型拟合与的关系.
(Ⅱ)由及(Ⅰ)得,
.
所以,关于的回归方程为:.
将2016年对应的代入回归方程得:.
所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.
2.(2018年全国普通高等学校招生统一考试文科数学(新课标II卷))下图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据2000年至2016年的数据(时间变量的值依次为)建立模型①:;根据2010年至2016年的数据(时间变量的值依次为)建立模型②:.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
【答案】(1)利用模型①预测值为226.1,利用模型②预测值为256.5,(2)利用模型②得到的预测值更可靠.
【详解】分析:(1)两个回归直线方程中无参数,所以分别求自变量为2018时所对应的函数值,就得结果;(2)根据折线图知2000到2009,与2010到2016是两个有明显区别的直线,且2010到2016的增幅明显高于2000到2009,也高于模型1的增幅,因此所以用模型2更能较好得到2018的预测.
详解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为
=–30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为
=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=–30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
点睛:若已知回归直线方程,则可以直接将数值代入求得特定要求下的预测值;若回归直线方程有待定参数,则根据回归直线方程恒过点求参数.
四、非线性回归方程
例题、为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下:
天数x
1
2
3
4
5
6
繁殖个数y
3
6
13
25
45
100
(1)判断(为常数)与(为常数,且)哪一个适宜作为繁殖个数y关于天数x变化的回归方程类型?(给出判断即可,不必说明理由)
(2)对于非线性回归方程(为常数,且),令,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值,
3.50
32
2.85
17.5
307
12.12
(ⅰ)证明:对于非线性回归方程,令,可以得到繁殖个数的对数z关于天数x具有线性关系(即为常数);
(ⅱ)根据(ⅰ)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小数).
附:对于一组数据其回归直线方程的斜率和截距的最小二乘估计分别为.
【答案】(1)以更适宜作为繁殖个数y关于天数x变化的回归方程类型;(2)(ⅰ)证明见解析;(ⅱ).
【分析】(1)根据给定数据作出散点图,再借助散点图即可判断作答.
(2)(ⅰ)由(1)选定的回归方程类型,取对数即可得关于x的直线方程作答;(ⅱ)由(ⅰ)的结果,利用最小二乘法求解作答.
【详解】(1)作出繁殖个数y关于天数x变化的散点图,如图,
观察散点图知,样本点分布在一条指数型曲线周围,
所以更适宜作为繁殖个数y关于天数x变化的回归方程类型.
(2)(ⅰ)由(1)知,(为常数,且),又,
因此,令,即有为常数,
所以繁殖个数的对数z关于天数x具有线性关系.
(ⅱ),,由(ⅰ)知,
,
,因此,
所以y关于x的回归方程为.
非线性回归方程,主要是指散点图复合曲线型(非直线),常见的曲线有,反比例函数型,一元二次型,指数函数型,对数函数型,幂函数型等等,可以通过换元或者去对数等转化为线性进行求解
某县依托种植特色农产品,推进产业园区建设,致富一方百姓.已知该县近年人均可支配收入如下表所示,记年为,年为,…以此类推.
年份
年份代号
人均可支配收入(万元)
(1)使用两种模型:①;②的相关指数分别约为,,请选择一个拟合效果更好的模型,并说明理由;
(2)根据(1)中选择的模型,试建立关于的回归方程.(保留位小数)
附:回归方程中斜率和截距的最小二乘估计公式分别为,.
参考数据:,令,.
【答案】(1)应选择(2)
【分析】(1)根据越大,模型拟合效果越好,可确定所选模型;
(2)令,利用最小二乘法可求得,进而得到回归方程.
【详解】(1),根据统计学知识可知:越大,模型拟合效果越好,应选择模型.
(2)令,,,,又,
,,
关于的回归方程为.
1.(广东省广州市天河区2023届高三二模数学试题)某创业者计划在某旅游景区附近租赁一套农房发展成特色“农家乐”,为了确定未来发展方向,此创业者对该景区附近五家“农家乐”跟踪调查了100天,这五家“农家乐”的收费标准互不相同,得到的统计数据如下表,x为收费标准(单位:元/日),t为入住天数(单位:天),以频率作为各自的“入住率”,收费标准x与“入住率”y的散点图如图.
x
100
150
200
300
450
t
90
65
45
30
20
(1)若从以上五家“农家乐”中随机抽取两家深入调查,记为“入住率”超过0.6的农家乐的个数,求的概率分布列;
(2)令,由散点图判断与哪个更合适于此模型(给出判断即可,不必说明理由)?并根据你的判断结果求回归方程;(,的结果精确到0.1)
(3)根据第(2)问所求的回归方程,试估计收费标准为多少时,100天销售额L最大?(100天销售额L=100×入住率×收费标准x)
参考数据:,,,,,,,,,,.
【答案】(1)
0
1
2
P
(2) (3)150元/天
【分析】(1)根据图象得出的所有可能情况,利用超几何分布求得不同下的概率,进而列出分布列.
(2)由散点图判断出更适模型的回归方程,分别求出和,求出回归方程.
(3)写出100天销售额L的表达式,再根据导数求得最大值,即可得出收费标准.
【详解】(1)由题意,抽取两家深入调查,可能为0,1,2.
,,,
∴的分布列为:
0
1
2
P
(2)由散点图可知,散点并非均匀分布在一条直线的两侧,而是大致分布在一条曲线的两侧,不符合线性回归模型要求,∴更合适于此模型,
∵∴∴回归方程为:
(3)由题意得,,在中
当时,解得:,当即时,函数单调递减,
当即时,函数单调递增,∴函数在处取最大值,
∴收费标准为150元/天时,100天销售额L最大.
2.(贵州省贵阳市五校2023届高三上学期联合考试(三)数学试题)为了研究某种细菌随天数变化的繁殖个数,收集数据如下:
天数
1
2
3
4
5
6
繁殖个数
6
12
25
49
95
190
(1)在图中作出繁殖个数关于天数变化的散点图,并由散点图判断(为常数)与(为常数,且)哪一个适宜作为繁殖个数关于天数变化的回归方程类型?(给出判断即可,不必说明理由)
(2)对于非线性回归方程(为常数,且),令,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值.
3.50
62.83
3.53
17.50
596.57
12.09
(ⅰ)证明:“对于非线性回归方程,令,可以得到繁殖个数的对数关于天数具有线性关系(即为常数)”;
(ⅱ)根据(ⅰ)的判断结果及表中数据,建立关于的回归方程(系数保留2位小数).
附:对于一组数据,其回归直线方程的斜率和截距的最小二乘估计分别为.
【答案】(1)选择为回归方程较宜(2)(ⅰ)证明见解析;(ⅱ)
【分析】(1)根据散点图趋势选择;(2)将非线性回归方程模型转化为线性回归方程模型,结合所给数据求解.
【详解】(1)作出散点图如图所示.
由散点图看出样本点分布在一条指数型曲线的周围,
故选择为回归方程较宜.
(2)(i)证明:由已知:令,则,
则,,即.所以繁殖个数的对数关于天数具有线性关系.
(ii)由(i)知繁殖个数的对数关于天数可以用线性回归方程来拟合.由表中数据可得,
,,得到关于的线性回归方程为,又,因此细菌的繁殖个数关于天数的非线性回归方程为.
1.(全国普通高等学校招生统一考试文科数学(新课标Ⅰ))某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费和年销售量(=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
289.8
1.6
1469
108.8
表中,=
(Ⅰ)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y关于x的回归方程;
(Ⅲ)已知这种产品的年利润z与x、y的关系为z=0.2y-x.根据(Ⅱ)的结果回答下列问题:
(ⅰ)年宣传费x=49时,年销售量及年利润的预报值是多少?
(ⅱ)年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据,,……,,其回归线的斜率和截距的最小二乘估计分别为:
【答案】(Ⅰ);(Ⅱ);(Ⅲ)(ⅰ);(ⅱ)46.24
【详解】(Ⅰ)由散点图可以判断,适合作为年销售关于年宣传费用的回归方程类型.
(Ⅱ)令,先建立关于的线性回归方程,由于=,
∴=563-68×6.8=100.6.
∴关于的线性回归方程为,
∴关于的回归方程为.
(Ⅲ)(ⅰ)由(Ⅱ)知,当=49时,年销售量的预报值
=576.6,
年利润的预报值.
(ⅱ)根据(Ⅱ)的结果知,年利润z的预报值
,
∴当=,即时,取得最大值.
故宣传费用为46.24千元时,年利润的预报值最大.
五、剔除数据型回归方程
例题、随着互联网的迅速发展,越来越多的消费者开始选择网络购物,某营销部门统计了年某月某地区的部分特产的网络销售情况,得到网民对不同特产的满意度和对应的销售额(万元)的数据如下表:
特产种类
甲
乙
丙
丁
戊
满意度/%
22
34
25
20
19
销售额/万元
78
90
86
76
75
(1)求销售额关于满意度的相关系数;
(2)约定:销量额关于满意度的相关系数的绝对值在及以上表示线性相关性较强;否则,线性相关性较弱.如果没有达到较强线性相关,则采取“末位淘汰”制(即销售额最少的特产退出销售),求剔除“末位淘汰”的特产后的销量额关于满意度的线性回归方程.(结果精确到)
参考数据:记,的5组样本数据分别为,…,,,,,,,,.
【答案】(1)(2)
【分析】(1)利用公式直接计算即可;
(2)剔除“末位淘汰”的特产的数据,重新计算出平均数以及各个数据,代入公式,求出线性回归直线方程.
(1)
由题意,可得.
(2)
因为,所以线性相关性较弱,淘汰销售额为万元的特产.
剔除“末位淘汰”的特产的数据后,,.
,,,,
所以,,所以所求线性回归方程为.
剔除数据时,要注意平均值和公式数据的相关计算。
变式训练
如图是某公司一种产品的日销售量(单位:百件)关于日最高气温(单位:)的散点图.
数据:
13
15
19
20
21
26
28
30
18
36
(1)请剔除一组数据,使得剩余数据的线性相关性最强,并用剩余数据求日销售量关于日最高气温的线性回归方程;
(2)根据现行《重庆市防暑降温措施管理办法》.若气温超过36度,职工可享受高温补贴.已知某日该产品的销售量为53.1,请用(1)中求出的线性回归方程判断该公司员工当天是否可享受高温补贴?
附:,.
【答案】(1);(2)是
【分析】(1)根据图形应剔除数据点,再利用公式求出,则可得回归方程;
(2)将53.1代入回归方程,可得,再根据题意可得结果.
【详解】(1)应剔除数据点,
剩余5组数据中,,
则,,
则线性回归方程为;
(2)当日销售量为53.1时,,解出,
因为,
于是该公司员工当天可以享受高温补贴.
1.(2023年普通高等学校招生全国统一考试数学预测卷(八))2015年7月31日,在吉隆坡举行的国际奥委会第128次全会上,北京获得2022年冬奥会举办权.在申冬奥过程中,中国正式向国际社会作出“带动三亿人参与冰雪运动”的庄严承诺.这一承诺,既是我国为国际奥林匹克运动做出重大贡献的大国担当展现,也是根据我国经济水平和全民健身需求做出的群众性运动的战略部署.从北京冬奥会申办成功到2021年10月,全国参与冰雪运动人数累计达到3.46亿,实现了“带动三亿人参与冰雪运动”的目标,这是北京冬奥会给予全球冬季体育运动和奥林匹克运动的最为重要的遗产,可以说是2022年北京冬奥会的第一块金牌.“冬奥热”带动“冰雪热”,也带动了冰雪经济,以冰雪运动为主要内容的冰雪旅游近年来发展迅速,2016至2022六个冰雪季的旅游人次y(单位亿)的数据如下表:
年度
2016—2017
2017—2018
2018—2019
2019—2020
2020—2021
2021—2022
年度代号t
1
2
3
4
5
6
旅游人次y
1.7
1.97
2.24
0.94
2.54
3.15
(1)求y与t的相关系数(精确到0.01),并回答y与t的线性相关关系的强弱;
(2)因受疫情影响,现将2019—2020年度的异常数据剔除,用剩下的5个年度数据(年度代号不变),求y关于t的线性回归方程(系数精确到0.01),并推测没有疫情情况下,2019—2020年度冰雪旅游人次的估计值.
附注:参考数据:,,,,.参考公式:相关系数,回归直线的斜率和截距的最小二乘估计公式分别为:,
【答案】(1),线性相关性不强(2),亿
【分析】(1)由已知数据结合相关系数公式求出相关系数,再进行判断即可,
(2)由已知数据结合回归方程公式计算y关于t的线性回归方程,再将代入回归方程可求出2019—2020年度冰雪旅游人次的估计值
【详解】(1)由参考数据计算得
所以,
因为,所以线性相关性不强.
(2)五组数据的均值分别为,
,
关于的线性回归方程为令,则,
因此,在没有疫情情况下,2019-2020年度冰雪旅游人次的估计值为亿.
2.(广东省东莞市2022-2023下学期女阶段性检测数学试题)某兴趣小组测量并统计了某树苗连续6周的高度,用两种经验回归函数模型①;②分别进行拟合,得到相应的经验回归方程:,,并进行了残差分析,得到如下表所示数据:(残差=观测值-预测值)
日期(周)
1
2
3
4
5
6
高度(厘米)
40
45
52
57
63
73
模型①的残差
1
2
模型②的残差
2.6
3.9
(1)求表格中,的值,并根据“残差的绝对值之和越小,模型的拟合效果越好”的原则选出拟合效果更好的经验回归函数模型;
(2)兴趣小组发现第6周的数据测量误差较大,决定剔除第6周的数据.请使用前5周的数据计算经验回归函数模型①的经验回归方程,并用该方程预测树苗第7周的高度.
参考公式:,.
【答案】(1),,模型①的经验回归函数模型拟合效果更好(2),厘米
【分析】(1)利用回归方程可求得,的值,计算模型①②的残差的绝对值之和,比较大小即可得解;
(2)利用最小二乘法求得模型①的经验回归方程,进而求解.
(1),所以,
,所以,
模型①的残差的绝对值之和为,
模型②的残差的绝对值之和为,
因为,
所以模型①的经验回归函数模型拟合效果更好.
(2)
剔除第6周的数据,得,
,,所以,
所以
所以经验回归方程为,
当时,,即预测第7周树苗的高度约为厘米
(全国普通高等学校招生统一考试文科数学(新课标1卷精编版))为了监控某种零件的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个零件,并测量其尺寸(单位:).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得,,
,其中为抽取的第个零件的尺寸,.
(1)求的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到)附:样本的相关系数
,.
【答案】(1)可以;(2)(ⅰ)需要;(ⅱ),.
【分析】(1)依公式求;
(2)(i)由,得抽取的第13个零件的尺寸在以外,因此需对当天的生产过程进行检查;(ii)剔除第13个数据,则均值的估计值为10.02,方差为0.09.
【详解】(1)由样本数据得的相关系数为
.
由于,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)(i)由于,
由样本数据可以看出抽取的第13个零件的尺寸在以外,
因此需对当天的生产过程进行检查.
(ii)剔除离群值,即第13个数据,
剩下数据的平均数为,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
,
剔除第13个数据,剩下数据的样本方差为
,
这条生产线当天生产的零件尺寸的标准差的估计值为.
六、直方图型
例题、新高考取消文理分科,采用选科模式,这赋予了学生充分的自由选择权.新高考地区某校为了解本校高一年级将来高考选考历史的情况,随机选取了100名高一学生,将他们某次历史测试成绩(满分100分)按照,,,,分成5组,制成如图所示的频率分布直方图.
(1)求图中a的值并估计这100名学生本次历史测试成绩的中位数.
(2)据调查,本次历史测试成绩不低于60分的学生,高考将选考历史科目;成绩低于60分的学生,高考将不选考历史科目.按分层抽样的方法从测试成绩在,的学生中选取5人,再从这5人中任意选取2人,求这2人中至少有1人高考选考历史科目的概率.
【答案】(1);(2)
【分析】(1)根据和频率总和为1计算出a的值;频率分布直方图中中位数左右两边的直方图面积相等都为0.5,由此列式即可计算出中位数;
(2)根据频率分布直方图计算出成绩在,的学生频数,根据分层抽样规则计算出对应区间人数,最后列式计算或用列举法即可得出答案.
【详解】(1),解得
设中位数为x,因为学生成绩在的频率为,在的频率为
所以中位数满足等式,解得
故这100名学生本次历史测试成绩的中位数为.
(2)成绩在的频数为
成绩在的频数为
按分层抽样的方法选取5人,则成绩在的学生被抽取人,在的学生被抽取人
从这5人中任意选取2人,都不选考历史科目的概率为,故这2人中至少有1人高考选考历史科目的概率为.
直方图求解众数、中位数、平均数与频率分布直方图的关系:
(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
(3)众数:众数是最高小矩形底边的中点所对应的数据.
(四川省营山县第二中学2023届高三第六次高考模拟检测数学试题)为了丰富大学生的课外生活,某高校团委组织了有奖猜谜知识竞赛,共有名学生参加,随机抽取了名学生,记录他们的分数,将其整理后分成组,各组区间为,,,,并画出如图所示的频率分布直方图
(1)估计所有参赛学生的平均成绩各组的数据以该组区间的中间值作代表;
(2)若团委决定对所有参赛学生中成绩排在前名的学生进行表彰,估计获得表彰的学生的最低分数线
(3)以这名学生成绩不低于分的频率为概率,从参赛的名学生中随机选名,其中参赛学生成绩不低于分的人数记为,求的方差
【答案】(1)分(2)分(3)
【分析】(1)利用频率分布直方图进行数据分析,求出,再求出这名参赛学生的平均成绩,由此估计出所有参赛学生的平均成绩;
(2)求出可以获得表彰的学生人数的频率,设获得表彰的学生的最低分数线为,根据条件建立关于的方程求解即可;
(3)根据条件,可知,然后由方差公式求解即可.
【详解】(1)由,得
这名参赛学生的平均成绩约为分,
故估计所有参赛学生的平均成绩为分
(2)获得表彰的学生人数的频率为,
设获得表彰的学生的最低分数线为,
由分数在区间的频率为,可知,
由,得,
故估计获得表彰的学生的最低分数线为分
(3)这名学生成绩不低于分的频率为,
由题意,可知,
故
1.(全国名校大联考2022-2023学年高三第六次联考文科数学试题)2022年卡塔尔世界杯是第二十二届世界杯足球赛,是历史上首次在卡塔尔和中东国家境内举行、也是继2002年韩日世界杯之后时隔二十年第二次在亚洲举行的世界杯足球赛,除此之外,卡塔尔世界杯还是首次在北半球冬季举行、第二次世界大战后首次由从未进过世界杯的国家举办的世界杯足球赛.某学校统计了该校500名学生观看世界杯比赛直播的时长情况(单位:分钟),将所得到的数据分成7组;(观看时长均在内),并根据样本数据绘制如图所示的频率分布直方图
(1)求a的值,并估计样本数据的中位数;
(2)采用分层抽样的方法在观看时长在和的学生中抽取6人、现从这6人中随机抽取3人分享观看感想,求抽取的3人中恰有2人的观看时长在的概率.
【答案】(1);中位数为160(2)
【分析】(1)由频率和频率和为1,能求出的值,利用直方图中能估计样本数据的中位数;
(2)采用分层抽样的方法能求出观看时长在和内应抽取人数,然后利用古典概型的概率计算公式求解即可.
【详解】(1)解:由频率分布直方图性质得:
,
解得.
,的频率为.
估计样本数据的中位数为160;
(2)解:采用以样本量比例分配的分层随机抽样方式,
则中抽取人,分别记为,,,,
中抽取人,分别记为,,
现从这6人中随机抽取3人分享观看感想,包含的基本事件有:
共20个,
抽取的3人中恰有2人的观看时长在”基本事件有:
共12个,
所以抽取的3人中恰有2人的观看时长在的概率为.
2.(四川省成都市2023届高三第一次诊断性检测数学(文科)试题)成都作为常住人口超2000万的超大城市,注册青年志愿者人数超114万,志愿服务时长超268万小时.2022年6月,成都22个市级部门联合启动了2022年成都市青年志愿服务项目大赛,项目大赛申报期间,共收到331个主体的416个志愿服务项目,覆盖文明实践、社区治理与邻里守望、环境保护等13大领域.已知某领域共有50支志愿队伍申报,主管部门组织专家对志愿者申报队伍进行评审打分,并将专家评分(单位:分)分成6组:,得到如图所示的频率分布直方图.
(1)求图中的值;
(2)已知评分在的队伍有4支,若从评分在的队伍中任选两支队伍,求这两支队伍至少有一支队伍评分不低于85分的概率.
【答案】(1)(2)
【分析】(1)利用直方图中各矩形面积和为1列方程求解即可;
(2)由直方图求得不低于90分的队伍有2支,评分在的队伍有2支.评分在分的队伍有6支,再利用列举法可得两支队伍至少有一支队伍评分不低于85分的概率.
【详解】(1)由,
解得.
(2)由题意知不低于90分的队伍有支,故评分在的队伍有2支.
评分在分的队伍有支.
记评分落在的4支队伍为;评分落在的2支队伍为,.
则从评分在的队伍中任选两支队伍的基本事件有:,,,共15个.
其中两支队伍至少有一支队伍评分不低于85分的基本事件有:,,共9个.
故所求概率为.
1.(全国普通高等学校招生统一考试文科数学(北京卷精编版))某学校艺术专业300名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:
(1)从总体的300名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
【答案】(1)0.4 (2)15人 (3)3∶2
【分析】(1)根据频率分布直方图求出样本中分数小于70的频率,用频率估计概率值;
(2)计算样本中分数小于50的频率和频数,估计总体中分数在区间,内的人数;
(3)由题意计算样本中分数不小于70的学生人数以及男生、女生人数,求男生和女生人数的比例.
【详解】解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,
所以样本中分数小于70的频率为1-0.6=0.4.
所以从总体的300名学生中随机抽取一人,其分数小于70的概率估计值为0.4.
(2)根据题意,样本中分数不小于50的频率为 (0.01+0.02+0.04+0.02)×10=0.9,
故样本中分数小于50的频率为0.1,
故分数在区间[40,50)内的人数为100×0.1-5=5.
所以总体中分数在区间[40,50)内的人数估计为.
(3)由题意可知,样本中分数不小于70的学生人数为
(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为.
所以样本中的男生人数为30×2=60,
女生人数为100-60=40,
男生和女生人数的比例为60∶40=3∶2.
所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.
2.(普通高等学校招生全国统一考试(辽宁卷)文科数学全解全析)为比较注射A、B两种药物产生的皮肤疱疹的面积,选200只家兔作试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.表1和表2所示的分别是注射药物A和药物B后的实验结果(疱疹面积单位:
表1:注射药物A后皮肤疱疹面积的频数分布表
疱疹面积
,
,
,
,
频数
30
40
20
10
表2:注射药物B后皮肤疱疹面积的频数分布表
疱疹面积
,
,
,
,
,
频数
10
25
20
30
15
(1)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;
(2)完成下表所示的列联表,并回答能否有的把握认为注射药物A后的疱疹面积与注射药物B的疱疹面积有差异.的值精确到
疱疹面积小于
疱疹面积不小于
合计
注射药物A
注射药物B
合计
附:
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
【答案】(1)频率分布直方图见解析;注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数
(2)有的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
【分析】(1)由频数分布表中的频数求出每组的频率/组距,画出频率分布直方图,利用图形比较中位数的大小;
(2)根据题意填写列联表,利用独立性检验的公式计算,对照临界值得出结论.
(1)
根据表1可得疱疹面积在,,,的频率分别为0.3,0.4,0.2,0.1,在频率分布直方图中的高分别为0.06,0.08,0.04,0.02;
根据表2疱疹面积在,,,,的频率分别为0.1,0.25,0.2,0.3,0.15,在频率分布直方图中的高分别为0.02,0.05,0.04,0.06,0.03,
故两组数据对应的频率分布直方图如下图所示:
可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之间,
所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数
(2)
根据题意填写列联表如下;
疱疹面积小于
疱疹面积不小于
合计
注射药物
100
注射药物
100
合计
105
95
200
计算;
由于,
所以有以上的把握认为注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异
相关试卷
这是一份预测卷01——【备考2023】高考数学大题精练 (全国通用)(原卷版+解析版),文件包含预测卷01解析版docx、预测卷01原卷版docx等2份试卷配套教学资源,其中试卷共12页, 欢迎下载使用。
这是一份专题06 函数与导数——【备考2023】高考数学大题精练 (全国通用)(原卷版+解析版),文件包含专题06函数与导数解析版docx、专题06函数与导数原卷版docx等2份试卷配套教学资源,其中试卷共73页, 欢迎下载使用。
这是一份专题05 解析几何——【备考2023】高考数学大题精练 (全国通用)(原卷版+解析版),文件包含专题05解析几何解析版docx、专题05解析几何原卷版docx等2份试卷配套教学资源,其中试卷共64页, 欢迎下载使用。