高中数学高考解密08 统计与统计案例(讲义)-【高频考点解密】2021年新高考数学二轮复习讲义+分层训练
展开核心考点一 抽样方法
抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围.
1.【2013年新课标1】为了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )
A、简单随机抽样B、按性别分层抽样 QUOTE C、按学段分层抽样 D、系统抽样
【解析】因该地区小学、初中、高中三个学段学生的视力情况有较大差异,故最合理的抽样方法是按学段分层抽样,故选C.
2.【2019新课标Ⅰ】某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是( )
A.8号学生 B.200号学生 C.616号学生 D.815号学生
【解析】由已知将1000名学生分成100个组,每组10名学生,用系统抽样,46号学生被抽到,所以第一组抽到6号,且每组抽到的学生号构成等差数列,公差,所以,若,解得,不合题意;若,解得,不合题意;若,则,符合题意;若,则,不合题意.故选C.
3.【2018新课标Ⅲ】某公司有大量客户,且不同龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
【解析】因为不同年龄的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段客户对公司服务的客观评价.故填:分层抽样.
1.总体由编号为01,02,…,49,50的50个个体组成,利用下面的随机数表选取6个个体,选取方法是从随机数表第6行的第9列和第10列数字开始从左到右依次选取两个数字,则选出的第4个个体的编号为( )
附:第6行至第9行的随机数表
2748 6198 7164 4148 7086 2888 8519 1620
7477 0111 1630 2404 2979 7991 9683 5125
3211 4919 7306 4916 7677 8733 9974 6732
2635 7900 3370 9160 1620 3882 7757 4950
A.3 B.19 C.38 D.20
【解析】由题意知,编号为01~50的个体才是需要的个体.由随机数表依次可得41,48,28,19,16,20,……故第4个个体的编号为19.故选B.
2.在新冠肺炎疫情期间,大多数学生都进行网上上课.我校高一、高二、高三共有学生1 800名,为了了解同学们对“钉钉”授课软件的意见,计划采用分层抽样的方法从这1 800名学生中抽取一个容量为72的样本.若从高一、高二、高三抽取的人数恰好是从小到大排列的连续偶数,则我校高三年级的人数为( )
A.800 B.750 C.700 D.650
【解析】设从高三年级抽取的学生人数为2x人,则从高二、高一年级抽取的人数分别为2x-2,2x-4.
由题意可得2x+(2x-2)+(2x-4)=72,∴x=13.设我校高三年级的学生人数为N,且高三抽取26人,由分层抽样,得eq \f(N,1 800)=eq \f(26,72),∴N=650(人).故选D.
核心考点二 用样本估计总体
统计中的四个数据特征:
(1)众数:在样本数据中,出现次数最多的那个数据.
(2)中位数:在样本数据中,将数据按大小顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
(3)平均数:样本数据的算术平均数,即eq \(x,\s\up6(-))=eq \f(1,n)(x1+x2+…+xn).
(4)方差与标准差.
s2=eq \f(1,n)[(x1-eq \(x,\s\up6(-)))2+(x2-eq \(x,\s\up6(-)))2+…+(xn-eq \(x,\s\up6(-)))2],
s=eq \r(\f(1,n)[(x1-\(x,\s\up6(-)))2+(x2-\(x,\s\up6(-)))2+…+(xn-\(x,\s\up6(-)))2]).
3.直方图的两个结论
(1)小长方形的面积=组距×eq \f(频率,组距)=频率.
(2)各小长方形的面积之和等于1.
1.【2020·新高考海南卷】我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是( )
A.这11天复工指数和复产指数均逐日增加
B.这11天期间,复产指数增量大于复工指数的增量
C.第3天至第11天复工复产指数均超过80%
D.第9天至第11天复产指数增量大于复工指数的增量
【解析】由图可知,第1天到第2天复工指数减少,第7天到第8天复工指数减少,第10天到第11天复工指数减少,第8天到第9天复产指数减少,故A错误;由图可知,第一天的复产指数与复工指数的差大于第11天的复产指数与复工指数的差,所以这11天期间,复产指数增量小于复工指数的增量,故B错误;由图可知,第3天至第11天复工复产指数均超过80%,故C正确;由图可知,第9天至第11天复产指数增量大于复工指数的增量,故D正确;故选CD.
2.【2020·天津卷】从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )
A.10 B.18 C.20 D.36
【解析】因为直径落在区间[5.43,5.47)内的频率为0.02×(6.25+5.00)=0.225,所以个数为0.225×80=18.故选B.
3.【2019新课标Ⅲ卷】为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
【解析】(1)由已知得0.70=a+0.20+0.15,故a=0.35,
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
1.【2019新课标Ⅱ卷】演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数
C.方差 D.极差
【解析】中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,中位数是不变的,平均数、方差、极差均受影响.故选A.
2.【2018新课标Ⅰ卷】某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
【解析】设新农村建设前经济收入为a,则新农村建设后经济收入为2a,则由饼图可得新农村建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.新农村建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.
3.【2019新课标Ⅱ卷】某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
①分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
②求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:eq \r(74)≈8.602.
【解析】①频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为eq \f(14+7,100)=0.21.
产值负增长的企业频率为eq \f(2,100)=0.02.
所以用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
②100个企业的产值增长率平均数为
eq \(y,\s\up6(-))=eq \f(1,100)×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=eq \f(1,100)eq \(∑,\s\up6(5),\s\d4(i=1))ni(yi-eq \(y,\s\up6(-)))2=eq \f(1,100)×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6,
s=eq \r(0.029 6)=0.02×eq \r(74)≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
核心考点三 回归分析在实际问题中的应用
回归直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))经过样本点的中心(eq \(x,\s\up6(-)),eq \(y,\s\up6(-))),若x取某一个值代入回归直线方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))中,可求出y的估计值.
1.求回归直线方程的关键及实际应用:
(1)关键:正确理解eq \(b,\s\up6(^)),eq \(a,\s\up6(^))的计算公式和准确地计算.
(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
2.相关系数:
(1)当r>0时,表明两个变量正相关;当r<0时,两个变量负相关.
(2)当|r|>0.75时,认为两个变量具有较强的线性相关关系.
1.【2020新课标Ⅰ卷】某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
【解析】由散点图可以看出,这些点大致分布在对数型函数的图象附近.故选D.
2.【2020新课标Ⅱ】某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附相关系数:,.
【解析】(1)样区野生动物平均数为,
地块数为200,该地区这种野生动物的估计值为.
(2)样本的相关系数为:
.
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,由于各地块间植物覆盖面积差异很大,从俄各地块间这种野生动物的数量差异很大,采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
1.【2012新课标文】在一组样本数据,,……,(,,,……,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的样本相关系数为( )
A.−1 B.0 C. eq \f(1,2) D.1
【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.
2.【2015新课标1】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:t)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量(=1,2,······,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中, =.
(Ⅰ)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立关于的回归方程;
(Ⅲ)已知这种产品的年利率与、的关系为.根据(Ⅱ)的结果回答下列问题:
(ⅰ)年宣传费=49时,年销售量及年利润的预报值是多少?
(ⅱ)年宣传费为何值时,年利率的预报值最大?
附:对于一组数据,,,,其回归线的斜率和截距的最小二乘估计分别为,.
【解析】(Ⅰ)由散点图可以判断,适宜作为年销售量关于年宣传费的回归方程类型.
(Ⅱ)令,先建立关于的线性回归方程,由于
.,
所以关于的线性回归方程为,因此关于的回归方程为.
(Ⅲ)(ⅰ)由(Ⅱ)知,当时,年销售量的预报值
年利润的预报值.
(ⅱ)根据(Ⅱ)得结果知,年利润的预报值
.
所以当,即时,取得最大值.
故年宣传费为千元时,年利润的预报值最大.
核心考点四 独立性检验
1.独立性检验:对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是:
则K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))(其中n=a+b+c+d为样本容量).
2.独立性检验的一般步骤
(1)根据样本数据列成2×2列联表;
(2)根据公式K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),计算K2的值;
(3)查表比较K2与临界值的大小关系,作统计判断.
2.K2的观测值k越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.
1.某省二线城市地铁正式开工建设,地铁时代的到来能否缓解该市的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:
则下列结论正确的是( )
附:K2=eq \f(n(ad-bc)2,(a+b)(a+c)(b+d)(c+d))
A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”
B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”
C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”
D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”
【解析】由2×2列联表,可求K2的观测值,
k=eq \f((48+30+12+20)(20×48-12×30)2,(48+30)(48+12)(12+20)(30+20))≈5.288>3.841.
由统计表P(K2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”.故选A.
2.【2020·新高考山东、海南卷】为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
附:K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),
【解析】(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为eq \f(64,100)=0.64.
(2)根据抽查数据,可得2×2列联表:
(3)根据(2)的列联表得
K2的观测值k=eq \f(100×(64×10-16×10)2,80×20×74×26)≈7.484.
由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
1.【2019新课标Ⅰ】某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:.
【解析】(1)由调查数据,男顾客中对该商场服务满意的比率为,
因此男顾客对该商场服务满意的概率的估计值为.
女顾客中对该商场服务满意的比率为,
因此女顾客对该商场服务满意的概率的估计值为.
(2)由题可得.由于,
故有95%的把握认为男、女顾客对该商场服务的评价有差异.核心考点
读高考设问知考法
命题解读
抽样方法
【2013年新课标1】为了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )
以空间几何体为载体考查空间角是高考命题的重点,常与空间线面关系的证明相结合,热点为二面角的求解,均以解答题的形式进行考查,难度主要体现在建立空间直角坐标系和准确计算上.
【2019新课标Ⅰ】某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是( )
【2018新课标Ⅲ】某公司有大量客户,且不同龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
用样本估计总体
【2020·新高考海南卷】我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是( )
【2019新课标Ⅱ卷】演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
【2018新课标Ⅰ卷】某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正确的是( )
【2019新课标Ⅲ卷】试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
回归分析在实际问题中的应用
【2020新课标Ⅰ卷】某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
【2020新课标Ⅱ】为调查该地区某种野生动物数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本的相关系数(精确到0.01);
独立性检验
【2020·新高考山东、海南卷】为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
(1)略;(2)根据所给数据,完成下面的2×2列联表:
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
y的分组
[-0.20,0)
[0,0.20)
[0.20,0.40)
[0.40,0.60)
[0.60,0.80]
企业数
2
24
53
14
7
46.6
563
6.8
289.8
1.6
1469
108.8
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
n
男性市民
女性市民
认为能缓解交通拥堵
48
30
认为不能缓解交通拥堵
12
20
P(K2≥k0)
0.05
0.010
0.005
0.001
k0
3.841
6.635
7.879
10.828
SO2
PM2.5
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
SO2
PM2.5
[0,150]
(150,475]
[0,75]
(75,115]
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
SO2
PM2.5
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
满意
不满意
男顾客
40
10
女顾客
30
20
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
高中数学高考解密16 导数的综合应用 (讲义)-【高频考点解密】2021年新高考数学二轮复习讲义+分层训练: 这是一份高中数学高考解密16 导数的综合应用 (讲义)-【高频考点解密】2021年新高考数学二轮复习讲义+分层训练,共17页。
高中数学高考解密13 函数图像及性质(讲义)-【高频考点解密】2021年新高考数学二轮复习讲义+分层训练: 这是一份高中数学高考解密13 函数图像及性质(讲义)-【高频考点解密】2021年新高考数学二轮复习讲义+分层训练,共10页。
高中数学高考解密04 函数的应用(讲义)-【高频考点解密】2021年高考数学(文)二轮复习讲义+分层训练(1): 这是一份高中数学高考解密04 函数的应用(讲义)-【高频考点解密】2021年高考数学(文)二轮复习讲义+分层训练(1),共7页。