新高考数学二轮复习 专题4 第2讲 统计与成对数据的分析(讲) 【新教材·新高考】
展开高考数学一轮靠老师勤奋、学生努力;高考数学二轮主要看老师的把握水平(课标、考纲),研究水平(选题、集体备课),辅导水平(课堂辅导,课后个辅)。
二、高考数学二轮复习要注意明确两个做法:抓审题,抓个辅
抓审题:让学生说出来,让思维呈现出来。充分调动学生审题、变题能力;
抓个辅:教师要有个辅学生问题清单,让辅导有针对性;个辅全程性,个辅不只在课后,课堂个辅也是关键。
三、高考数学二轮复习要注意坚持三个过关:必须记忆过关;必须限时过关;必须心理过关
1、高考数学每节课必须花5分钟过关记忆性知识。
2、学生训练最大的状态就是能限时过关,应试能力也是数学解题能力,极大限度地减少题海战术。
3、学生最大的障碍就是就是心理问题。
四、高三数学二轮复习要注意避免四个重复:
重复一轮复习老路;重复成套试题训练;重复迷信名校资料;重复个人喜好方向。
第2讲 统计与成对数据的分析(讲·教师版)
高考定位
1.高考对本讲内容的考查往往以实际问题为背景,考查随机抽样、用样本估计总体以及变量的相关性,常以选择题、填空题中的形式呈现,难度较低.
2.回归分析、独立性检验问题常与概率、分布列、期望与方差综合考查,多以解答题形式出现,中等难度.
核心整合
1.直方图的两个结论
(1)小长方形的面积=组距×eq \f(频率,组距)=频率.
(2)各小长方形的面积之和等于1.
2.统计中的四个数字特征
(1)众数:在样本数据中,出现次数最多的那个数据.
(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
(3)平均数:样本数据的算术平均数,即
eq \x\t(x)=eq \f(1,n)(x1+x2+…+xn).
(4)方差与标准差
方差:s2=eq \f(1,n)[(x1-eq \x\t(x))2+(x2-eq \x\t(x))2+…+(xn-eq \x\t(x))2].
标准差:s=eq \r(\f(1,n)[x1-\x\t(x)2+x2-\x\t(x)2+…+xn-\x\t(x)2]).
3.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
(3)回归方程为eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),其中eq \(b,\s\up6(^))=eq \f(\(∑,\s\up6(n),\s\d4(i=1))xiyi-n\x\t(x) \x\t(y),\(∑,\s\up6(n),\s\d4(i=1))x\\al(2,i)-n\x\t(x)2),eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x).
(4)相关系数
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.
|r|越接近于1,表明两个变量的线性相关性越强.|r|越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.
4.独立性检验
(1)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:
(2)K2统计量
K2=eq \f(nad-bc2,a+bc+da+cb+d)(其中n=a+b+c+d为样本容量).
真题体验
1.(2021•全国高考甲卷文科)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A. 该地农户家庭年收入低于4.5万元的农户比率估计为6%
B. 该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C. 估计该地农户家庭年收入的平均值不超过6.5万元
D. 估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
【答案】C
【解析】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.
该地农户家庭年收入低于4.5万元的农户的比率估计值为,故A正确;
该地农户家庭年收入不低于10.5万元的农户比率估计值为,故B正确;
该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为,故D正确;
该地农户家庭年收入的平均值的估计值为(万元),超过6.5万元,故C错误.
综上,给出结论中不正确的是C.故选C.
2.(多选题)(2021•全国新高考II卷)下列统计量中,能度量样本的离散程度的是( )
A.样本的标准差B.样本的中位数
C.样本的极差D.样本的平均数
【答案】AC
【解析】由标准差的定义可知,标准差考查的是数据的离散程度;
由中位数的定义可知,中位数考查的是数据的集中趋势;
由极差的定义可知,极差考查的是数据的离散程度;
由平均数的定义可知,平均数考查的是数据的集中趋势.故选AC.
3.(多选题)(2021•全国新高考Ⅰ卷)有一组样本数据,,…,,由这组数据得到新样本数据,,…,,其中(为非零常数,则( )
A. 两组样本数据的样本平均数相同
B. 两组样本数据的样本中位数相同
C. 两组样本数据的样本标准差相同
D. 两组样数据的样本极差相同
【答案】CD
【解析】A:且,故平均数不相同,错误;
B:若第一组中位数为,则第二组的中位数为,显然不相同,错误;
C:,故方差相同,正确;
D:由极差的定义知:若第一组的极差为,则第二组的极差为,故极差相同,正确.故选CD.
4.(2021•全国高考乙卷文、理科)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为和.
(1)求,,,;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
【解析】(1),
,
,
.
(2)依题意,,,
,所以新设备生产产品的该项指标的均值较旧设备有显著提高.
能力突破
考点一 统计
命题角度1 统计图表
【例1-1】 1.(多选题)(2021·山东日照市高三二模)某保险公司为客户定制了5个险种:甲,一年期短险;乙,两全保险;丙,理财类保险;丁,定期寿险:戊,重大疾病保险,各种保险按相关约定进行参保与理赔.该保险公司对5个险种参保客户进行抽样调查,得出如下的统计图例:
用该样本估计总体,以下四个选项正确的是( )
A.54周岁以上参保人数最少B.18~29周岁人群参保总费用最少
C.丁险种更受参保人青睐D.30周岁以上的人群约占参保人群
【答案】AC
【解析】对A:由扇形图可知,54周岁以上参保人数最少,故选项A正确;
对B:由折线图可知,18~29周岁人群人均参保费用最少,但是由扇形图知参保人数并不是最少的,所以参保总费用不是最少,故选项B错误;
对C:由柱状图可知,丁险种参保比例最高,故选项C正确;
对D:由扇形图可知,30周岁以上的人群约占参保人群,故选项D错误.故选AC.
2.(2021·青海西宁市高三一模(理))某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例.得到如下扇形统计图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入略有增加
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入不变
D.新农村建设后,种植收入在经济收入中所占比重大幅下降
【答案】C
【解析】因为该地区经过一年的新农村建设,农村的经济收入增加了一倍,不妨设建设前的经济收入为,则建设后的经济收入为.
A选项,从扇形统计图中可以看到,新农村建设后,种植收入比建设前增加,故A正确;
B选项,新农村建设后,其他收入比建设前增加,即增加了一倍以上,故B正确;
C选项,养殖收入的比重在新农村建设前与建设后相同,但建设后总收入为之前的2倍,所以建设后的养殖收入也是建设前的2倍,故C错误;
D选项,新农村建设后,种植收入在经济收入中所占比重由建设前的降为,故D正确.故选C.
【规律方法】
对于给出的统计图表,一定要结合问题背景理解图表意义,不能似懂非懂.在解题的过程中,注意正确理统计图表的意义是解题的关键.
命题角度2 用样本估计总体
【例1-2】1.(2021·山东德州市高三二模)2021年我国推进新冠疫苗全人群免费接种,某小区年龄分布如下图所示,现用分层抽样的方法从该小区所有人中抽取60人进行抗体检测,则从40岁至50岁之间的人群中抽取人数为( ).
A.18B.24C.5D.9
【答案】A
【解析】由条形统计图的数据,根据分层抽样的定义可知,若抽取60人,则从40岁至50岁之间的人群中抽取人数为.故选A.
2.(2021·江苏高三月考)学校组织开展劳动实践,高二某班名学生利用假期时间前往敬老院、消防队等场所劳动服务.经统计,该名学生的劳动服务时长平均为小时,标准差为.后来经核实,发现统计的甲、乙两名同学的劳动服务时长有误.甲同学的劳动服务时长实际为小时,被误统计为小时;乙同学的劳动服务时长实际为小时,被误统计为小时.更正后重新计算,得到标准差为,则与的大小关系为( )
A.B.C.D.无法判断
【答案】C
【解析】由于甲同学的劳动服务时长实际为小时,被误统计为小时,
乙同学的劳动服务时长实际为小时,被误统计为小时,所以平均时长不变,
设20名学生的平均时长为,
用分别表示甲乙两名学生原来错误的服务时长,用分别表示甲乙两名学生正确的服务时长,分别表示余下18名学生的劳动服务时长,
所以,
,
所以只比较与即可,
因为,
所以,.故选C.
3. (2020·全国高考Ⅰ卷)某厂接受了一项加工业务,加工出来的产品(单位:件)按标准分为A,B,C,D四个等级.加工业务约定:对于A级品、B级品、C级品,厂家每件分别收取加工费90元,50元,20元;对于D级品,厂家每件要赔偿原料损失费50元.该厂有甲、乙两个分厂可承接加工业务.甲分厂加工成本费为25元/件,乙分厂加工成本费为20元/件.厂家为决定由哪个分厂承接加工业务,在两个分厂各试加工了100件这种产品,并统计了这些产品的等级,整理如下:
甲分厂产品等级的频数分布表
乙分厂产品等级的频数分布表
(1)分别估计甲、乙两分厂加工出来的一件产品为A级品的概率;
(2)分别求甲、乙两分厂加工出来的100件产品的平均利润,以平均利润为依据,厂家应选哪个分厂承接加工业务?
【解析】 (1)由试加工产品等级的频数分布表知,
甲分厂加工出来的一件产品为A级品的概率的估计值为eq \f(40,100)=0.4;
乙分厂加工出来的一件产品为A级品的概率的估计值为eq \f(28,100)=0.28.
(2)由数据知甲分厂加工出来的100件产品利润的频数分布表为
因此甲分厂加工出来的100件产品的平均利润为
eq \f(65×40+25×20-5×20-75×20,100)=15.
由数据知乙分厂加工出来的100件产品利润的频数分布表为
因此乙分厂加工出来的100件产品的平均利润为
eq \f(70×28+30×17+0×34-70×21,100)=10.
比较甲、乙两分厂加工的产品的平均利润,应选甲分厂承接加工业务.
【规律方法】
1.众数、中位数、平均数与直方图的关系
(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.
(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.
(3)平均数等于频率分布直方图中每个小矩形的面积乘小矩形底边中点的横坐标之和.
2.方差的计算与含义
计算方差首先要计算平均数,再按照方差的计算公式进行计算,方差和标准差是描述一个样本和总体的波动大小的特征数,方差、标准差越大说明波动越大.
【对点训练1】
1.(2021·云南高三模拟(文))随着互联网和物流行业的快速发展,快递业务已经成为人们日常生活当中不可或缺的重要组成部分.下图是2012-2020年我国快递业务量变化情况统计图,则关于这年的统计信息,下列说法正确的是( )
2012-2020年我国快递业务量变化情况
A.这年我国快递业务量有增有减
B.这年我国快递业务量同比增速的中位数为
C.这年我国快递业务量同比增速的极差未超过
D.这年我国快递业务量的平均数超过亿件
【答案】D
【解析】由条形图可知,这年我国快递业务量逐年增加,故错误;
将各年我国快递业务量同比增速按从小到大排列得:
,,,,,,,,,
故中位数为第个数,故错误;
这年我国快递业务量同比增速的极差为,故错误;
由条形图可知,自2016年起,各年的快递业务量远超过亿件,
故快递业务量的平均数超过亿件,正确.故选D.
2.(多选题)(2021·河北邯郸市高三三模)在管理学研究中,有一种衡量个体领导力的模型,称为“五力模型”,即一个人的领导力由五种能力——影响力、控制力、决断力、前瞻力和感召力构成.如图是某企业对两位领导人领导力的测评图,其中每项能力分为三个等级,“一般”记为4分、“较强”记为5分、“很强”记为6分,把分值称为能力指标,则下列判断正确的是( )
A.甲、乙的五项能力指标的均值相同
B.甲、乙的五项能力指标的方差相同
C.如果从控制力、决断力、前瞻力考虑,乙的领导力高于甲的领导力
D.如果从影响力、控制力、感召力考虑,甲的领导力高于乙的领导力
【答案】AB
【解析】甲的五项能力指标为6,5,4,5,4.平均值为;
乙的五项能力指标为6,4,5,4,5,平均值为,则A正确;
由于均值相同,各项指标数也相同(只是顺序不同),所以方差也相同,则B正确;
从控制力、决断力、前瞻力考虑,甲的均值为,乙的均值为,所以甲的领导力高于乙的领导力,则C不正确;
从影响力、控制力、感召力考虑,甲、乙的指标均值相同,方差也相同,所以甲、乙水平相当,则D不正确.故选AB.
3. (2019·全国高考Ⅱ卷)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:eq \r(74)≈8.602.
【解析】 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为eq \f(14+7,100)=0.21.
产值负增长的企业频率为eq \f(2,100)=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2) eq \x\t(y)=eq \f(1,100)(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=eq \f(1,100)eq \i\su(i=1,5,n)i(yi- eq \x\t(y))2
=eq \f(1,100)[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6,
s=eq \r(0.029 6)=0.02×eq \r(74)≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
考点二 成对数据的分析
命题角度1 变量间的相关关系
【例2—1】 1.(2021·四川攀枝花市高三二模(理))党的十九大报告中指出:从2020年到2035年,在全面建成小康社会的基础上,再奋斗15年,基本实现社会主义现代化.若到2035年底我国人口数量增长至14.4亿,由2013年到2019年的统计数据可得国内生产总值(GDP)y(单位:万亿元)关于年份代号x的回归方程为,由回归方程预测我国在2035年底人均国内生产总值(单位:万元)约为( )
A.14.0B.13.6C.202.2D.195.6
【答案】A
【解析】到年底对应的年份代号为,由回归方程得,我国国内生产总值约为(万亿元),又,所以到年底我国人均国内生产总值约为万元.故选A.
2.(2021·广东茂名市高三月考)“绿水青山就是金山银山”的生态文明发展理念已经深入人心,推动着新能源汽车产业的迅速发展.下表是2020年我国某地区新能源乘用车的前5个月销售量与月份的统计表:
由上表可知其线性回归方程为:,则的值为( )
A.0.16B.1.6C.0.06D.0.8
【答案】A
【解析】由表中数据可得,,
将代入,即,解得.故选A.
【规律方法】求回归直线方程的关键
(1)正确理解eq \(b,\s\up6(^)),eq \(a,\s\up6(^))的计算公式并能准确地进行运算.
(2)根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则回归直线过样本点的中心(eq \x\t(x),eq \x\t(y)),并且可通过线性回归方程估计预报变量的值.
命题角度2 回归分析的应用
【例2—2】 1.(2021·江西高三模拟(文))某个国家某种病毒传播的中期,感染人数和时间(单位:天)在天里的散点图如图所示,下面四个回归方程类型中最适宜作为感染人数和时间的回归方程类型的是( )
A.B.C.D.
【答案】B
【详解】,,
A中是常数,B中是增函数,C中是减函数,D中是减函数,
散点图所有点所在曲线的切线的斜率随的增大,而增大,而四个选项中,A斜率不变,CD的斜率随的增大而减小,只有B满足.故选B.
2.(多选题)(2021·福建厦门市高三三模)年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区年月至年月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码分别对应年月年月)
根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到以下一些统计量的值:
注:是样本数据中的平均数,是样本数据中的平均数,则下列说法正确的是( )
A.当月在售二手房均价与月份代码呈负相关关系
B.由预测年月在售二手房均价约为万元/平方米
C.曲线与都经过点
D.模型回归曲线的拟合效果比模型的好
【答案】BD
【解析】对于A,散点从左下到右上分布,所以当月在售二手房均价y与月份代码x呈正相关关系,故A不正确;
对于B,令,由,
所以可以预测2021年2月在售二手房均价约为1.0509万元/平方米,故B正确;
对于C,非线性回归曲线不一定经过 ,故C错误;
对于D,越大,拟合效果越好,由,故D正确.故选BD.
3.(2020·全国高考Ⅱ卷文科·T18文理科·T18)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i=120xi=60,∑i=120yi=1 200,∑i=120(xi-x)2=80,∑i=120(yi-y)2=9 000,∑i=120(xi-x)(yi-y)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2,2≈1.414.
【解析】(1)样区这种野生动物数量的平均数为120∑i=120yi=120×1 200=60,
地块数为200,该地区这种野生动物数量的估计值为200×60=12 000.
(2)样本(xi,yi)的相关系数
r=∑i=120(xi-x)(yi-y)∑i=120(xi-x)2∑i=120(yi-y)2=80080×9000=223≈0.94.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各地块的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的办法较好地保持了样本结构与总体结构的一致性,提高了样本代表性,从而可以获得该地区这种野生动物数量更准确的估计.
【规律方法】
1.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r进行判断.若具有线性相关关系,则可通过经验回归方程估计和预测变量的值.
2.正确运用计算eq \(b,\s\up6(^)),eq \(a,\s\up6(^))的公式和准确的计算,是求经验回归方程的关键.并充分利用经验回归直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))必过样本点的中心(eq \x\t(x),eq \x\t(y))进行求值.
【对点训练2】
1.(多选题)(2021·湖南衡阳市高三一模)5G技术的运营不仅提高了网络传输速度,更拓宽了网络资源的服务范围.目前,我国加速了5G技术的融合与创新,前景美好!某手机商城统计了5个月的5G手机销量,如下表所示:
若与线性相关,由上表数据求得线性回归方程为,则下列说法正确的是( )
A.5G手机的销量逐月增加,平均每个月增加约10台
B.
C.与正相关
D.预计12月份该手机商城的5G手机销量约为328部
【答案】BCD
【解析】由表中数据可知,
又因为回归方程为,
代入回归方程,解得,
所以,
解得,
由此知5G手机的销量逐月增加,平均每个月增加约40台左右,
将代入回归方程得,
因为,所以与正相关.故选BCD.
2.(多选题) 19世纪中期,英国著名的统计学家弗朗西斯·高尔顿搜集了1078对夫妇及其儿子的身高数据,发现这些数据的散点图大致呈直线状态,即儿子的身高(单位:)与父母平均身高(单位:)具有线性相关关系,通过样本数据,求得回归直线方程,则下列结论中正确的是( )
A.回归直线方程至少过,中的一个点
B.若,,则回归直线过点
C.若父母平均身高增加,则儿子身高估计增加
D.若样本数据所构成的点都在回归直线上,则线性相关系数
【答案】BCD
【解析】对于A选项,回归直线方程,不一定经过,中的一个点,故A选项正确.
对于B选项,回归直线方程过样本中心点,故B选项正确.
对于C选项,由于,所以若父母平均身高增加,则儿子身高估计增加,故C选项正确.
对于C选项,若样本数据所构成的点都在回归直线上,则线性相关系数,正确.
故选BCD.
3.(2021·甘肃兰州市一诊)近五年来某草场羊只数量与草地植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示:
根据表及图得到以下判断:
①羊只数量与草地植被指数成减函数关系;
②若利用这五组数据得到的两变量间的相关系数为r1,去掉第一年数据后得到的相关系数为r2,则|r1|<|r2|;
③可以利用回归直线方程,准确地得到当羊只数量为2万只时的草地植被指数.
以上判断中正确的个数是________.
【答案】1
【解析】对于①,羊只数量与草地植被指数成负相关关系,不是减函数关系,所以①错误;对于②,用这五组数据得到的两变量间的相关系数为r1,因为第一年数据(1.4,1.1)是离群值,去掉后得到的相关系数为r2,其相关性更强,所以|r1|<|r2|,②正确;对于③,利用回归直线方程,不能准确得到当羊只数量为2万只时的草地植被指数,得到的只是预测值,所以③错误.综上知,正确的判断序号是②,共1个.
4.(2021·河南孟津县第一高级中学高三模拟)西部某深度贫困村,从2014—2019年的人均纯收入(单位:千元)情况如下表,时间变量从2014-2019年的值依次为1,2,……6.
2014—2019年的人均纯收入情况表:
(1)在图中画出表中数据的散点图,根据散点图,是否可用线性回归模型拟合与的关系,请用相关系数加以说明;
(2)建立关于的回归方程(保留两位小数),预测该村2020年的人均纯收入为多少?
附注:参考数据:,,,,.
参考公式:相关系数,
回归方程中斜率和截距的最小二乘法估计公式分别为:,.
【解析】(1)作出散点图如图:
由散点图可知各点大致分布在一条直线附近,
,
因为与的相关系数约为0.99,说明与的相关程度是很高的,所以可以用线性回归方程拟合与的关系.
(2),
所以回归直线方程,
,
即该村2020年人均收入约为5450元左右.
考点三 独立性检验
【例3】(2020·新高考全国Ⅰ卷) 为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
附:K2=eq \f(nad-bc2,a+bc+da+cb+d),
【解析】 (1)由表格可知,该市100天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+6+18+8=64,
所以该市一天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为eq \f(64,100)=0.64.
(2)由所给数据,可得2×2列联表:
(3)根据2×2列联表中的数据可得
K2=eq \f(nad-bc2,a+bc+da+cb+d)
=eq \f(100×64×10-16×102,80×20×74×26)
≈7.484>6.635,
故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
【规律方法】独立性检验的关键
(1)根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.
(2)K2的观测值k越大,对应的假设H0成立的概率越小,H0不成立的概率越大.
【对点训练3】
1.(2021·河北枣强中学高三月考(文))为了调查高一学生在分班选科时是否选择物理科目与性别的关系,随机调查100名高一学生,得到列联表如下:由此得出的正确结论是
附:
A.在犯错误的概率不超过0.01的前提下,认为“选择物理与性别有关”
B.在犯错误的概率不超过0.01的前提下,认为“选择物理与性别无关”
C.有的把握认为“选择物理与性别有关”
D.有的把握认为“选择物理与性别无关”
【答案】A
【解析】因为,
根据临界值表可知,能在犯错误的概率不超过0.01的前提下,认为“选择物理与性别有关”.故选A.
2.(2021·重庆市育才中学高三月考)随着城市规模的扩大和人们生活水平的日益提高,某市近年机动车保有量逐年递增.根据机动车管理部门的统计数据,以5年为一个研究周期,得到机动车每5年纯增数据情况为:
其中,时间变量对应的机动车纯增数据为,且通过数据分析得到时间变量与对应的机动车纯增数量(单位:万辆)具有线性相关关系.
(1)求机动车纯增数量(单位:万辆)关于时间变量的回归方程,并预测2025~2030年间该市机动车纯增数量的值;
附:回归直线方程中斜率和截距的最小二乘估计公式分别为:;.
(2)该市交通管理部门为了了解市民对“单双号限行”的赞同情况,随机采访了200名市民,将他们的意见和是否拥有私家车情况进行了统计,得到如下的列联表:
根据上面的列联表判断,能否有95%的把握认为“对限行的意见与是否拥有私家车”有关.
附:,.
【解析】(1)由
所以,,
.
.
因为过点,所以,
,所以.
2025~2030年时,,所以,
所以2025~2030年间,机动车纯增数量的值约为34.8万辆.
(2)根据列联表,由得观测值为
,
,
所以没有95%的把握认为“对限行的意见与是否拥有私家车有关”.
考点四 概率与统计的综合问题
【例4】(2021·甘肃高三模拟(理))随着移动网络的飞速发展,人们的生活发生了很大变化,其中在购物时利用手机中的支付宝、微信等APP软件进行扫码支付也日渐流行开来.某商场对近几年顾客使用扫码支付的情况进行了统计,结果如下表:
(1)观察数据发现,使用扫码支付的人次y与年份代码x的关系满足经验关系式:,通过散点图可以发现y与x之间具有相关性.设,利用与x的相关性及表格中的数据求出y与x之间的回归方程,并估计2021年该商场使用扫码支付的人次;
(2)为提升销售业绩,该商场近期推出两种付款方案:方案一:使用现金支付,每满200元可参加1次抽奖活动,抽奖方法如下:在抽奖箱里有8个形状、大小完全相同的小球(其中红球有3个,黑球有5个),顾客从抽奖箱中一次性摸出3个球,若摸到3个红球,则打7折;若摸出2个红球则打8折,其他情况不打折.方案二:使用扫码支付,此时系统自动对购物的顾客随机优惠,据统计可知,采用扫码支付时有的概率享受8折优惠,有的概率享受9折优惠,有的概率享受立减10元优惠.若小张在活动期间恰好购买了总价为200元的商品.
(i)求小张选择方案一付款时实际付款额X的分布列与数学期望;
(ii)试比较小张选择方案一与方案二付款,哪个方案更划算?
附:最小二乘法估计公式:经过点的回归直线为相关数据:(其中.
【解析】(1)计算知14.6,
所以=10,
,
所以所求的回归方程为,
当时,(万人次),
估计2021年该商场使用移动支付的有23万人次;
(2)(i)若选择方案一,设付款金额为X元,则可能的取值为140,160,200,
,
,
故X的分布列为
所以(元);
(ii)若选择方案二,记需支付的金额为Y元,
则Y的可能取值为160,180,190,
则其对应的概率分别为,
所以,
由(1)知,
故从概率角度看,小张选择方案二付款优惠力度更大.
【规律方法】
解决概率与统计综合问题的一般步骤
【对点训练3】
(2021·湖北武汉武昌区高三调研)某健身馆在2019年7,8两个月推出优惠项目吸引了一批客户.为预估2020年7,8两个月客户投入的健身消费金额,健身馆随机抽样统计了2019年7,8两个月100名客户的消费金额(单位:元),分组如下:[0,200),[200,400),[400,600),…,[1 000,1 200],得到如图所示的频率分布直方图:
(1)请用抽样的数据预估2020年7,8两个月健身客户人均消费的金额(同一组中的数据用该组区间的中点值作代表);
(2)若把2019年7,8两个月健身消费金额不低于800元的客户称为“健身达人”.经数据处理,现在列联表中得到一定的相关数据,请补全空格处的数据,并根据列联表判断是否有95%的把握认为“健身达人”与性别有关?
(3)为吸引顾客,在健身项目之外,该健身馆特推出健身配套营养品的销售,现有两种促销方案.
方案一:每满800元可立减100元;
方案二:金额超过800元可抽奖三次,每次中奖的概率为eq \f(1,2),且每次抽奖互不影响,中奖1次打9折,中奖2次打8折,中奖3次打7折.
若某人打算购买1 000元的营养品,请从实际付款金额的数学期望的角度分析应该选择哪种促销方案.
附:
K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)).
【解析】 (1) 因为2019年7,8两个月这100名客户消费金额的平均值为(100×0.000 50+300×0.000 75+500×0.001 00+700×0.001 25+900×0.001 00+1 100×0.000 50)×200=620(元),
所以预估2020年7,8两个月健身客户人均消费金额为620元.
(2)列联表如下:
因为K2=eq \f(100×(10×30-20×40)2,50×50×30×70)≈4.762>3.841,所以有95%的把握认为“健身达人”与性别有关.
(3)若选择方案一,则需付款900元;
若选择方案二,设需付款X元,则X的可能取值为700,800,900,1 000,
P(X=700)=Ceq \\al(3,3)eq \b\lc\(\rc\)(\a\vs4\al\c1(\f(1,2)))eq \s\up12(3)=eq \f(1,8),
P(X=800)=Ceq \\al(2,3)eq \b\lc\(\rc\)(\a\vs4\al\c1(\f(1,2)))eq \s\up12(3)=eq \f(3,8),
P(X=900)=Ceq \\al(1,3)eq \b\lc\(\rc\)(\a\vs4\al\c1(\f(1,2)))eq \s\up12(3)=eq \f(3,8),
P(X=1 000)=Ceq \\al(0,3)eq \b\lc\(\rc\)(\a\vs4\al\c1(\f(1,2)))eq \s\up12(3)=eq \f(1,8),
所以E(X)=700×eq \f(1,8)+800×eq \f(3,8)+900×eq \f(3,8)+1 000×eq \f(1,8)=850(元).
因为850<900,所以选择方案二更划算.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
旧设备
9.8
10.3
10.0
10.2
9.9
9.8
10.0
10.1
10.2
9.7
新设备
10.1
10.4
10.1
10.0
10.1
10.3
10.6
10.5
10.4
10.5
等级
A
B
C
D
频数
40
20
20
20
等级
A
B
C
D
频数
28
17
34
21
利润
65
25
-5
-75
频数
40
20
20
20
利润
70
30
0
-70
频数
28
17
34
21
y的分组
[-0.20,0)
[0,0.20)
[0.20,0.40)
[0.40,0.60)
[0.60,0.80)
企业数
2
24
53
14
7
月份代码
1
2
3
4
5
销售量(万辆)
0.5
0.6
1
1.4
1.5
月份
2020年6月
2020年7月
2020年8月
2020年9月
2020年10月
月份编号
1
2
3
4
5
销量/部
52
95
185
227
年份
1
2
3
4
5
羊只数量/万只
1.4
0.9
0.75
0.6
0.3
草地植被指数
1.1
4.3
15.6
31.3
49.7
年份
2014
2015
2016
2017
2018
2019
人均纯收入(千元)
2.6
3.0
3.6
3.9
4.4
5.1
SO2
PM2.5
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
SO2
PM2.5
[0,150]
(150,475]
[0,75]
(75,115]
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
SO2
PM2.5
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
选择物理
不选择物理
总计
男
35
20
55
女
15
30
45
总计
50
50
100
0.050
0.010
0.001
3.841
6.635
10.828
年度周期
1995~2000
2000~2005
2005~2010
2010~2015
2015~2020
时间变量
1
2
3
4
5
纯增数量(单位:万辆)
3
6
9
15
27
赞同限行
不赞同限行
合计
没有私家车
85
15
100
有私家车
75
25
100
合计
160
40
200
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
年度周期
1
2
3
4
5
纯增数量(单位:万辆)
3
6
9
15
27
年份
2016
2017
2018
2019
2020
年份代码x
1
2
3
4
5
使用扫码支付的人次y(单位:万人)
5
12
16
19
21
140
160
200
健身达人
非健身达人
总计
男
10
女
30
总计
P(K2≥k)
0.150
0.100
0.050
0.010
0.005
k
2.072
2.706
3.841
6.635
7.879
健身达人
非健身达人
总计
男
10
40
50
女
20
30
50
总计
30
70
100
新高考数学二轮复习 专题4 第2讲 统计与成对数据的分析(练) 【新教材·新高考】: 这是一份新高考数学二轮复习 专题4 第2讲 统计与成对数据的分析(练) 【新教材·新高考】,文件包含第2讲统计与成对数据的分析练·教师版docx、第2讲统计与成对数据的分析练·学生版docx等2份试卷配套教学资源,其中试卷共23页, 欢迎下载使用。
专题五 第3讲 统计与成对数据的分析--2024年高考数学复习二轮讲义: 这是一份专题五 第3讲 统计与成对数据的分析--2024年高考数学复习二轮讲义,共7页。
新教材适用2024版高考数学二轮总复习第1篇专题6概率与统计第3讲统计与成对数据的分析核心考点4独立性检验教师用书: 这是一份新教材适用2024版高考数学二轮总复习第1篇专题6概率与统计第3讲统计与成对数据的分析核心考点4独立性检验教师用书,共3页。