人教b版高考数学一轮复习第9章统计与统计案例第3节统计模型学案含解析
展开第3节 统计模型
一、教材概念·结论·性质重视
1.线性相关
(1)散点图
一般地,如果收集到了变量x和变量y的n对数据(简称为成对数据),如下表所示.
序号i | 1 | 2 | 3 | … | n |
变量x | x1 | x2 | x3 | … | xn |
变量y | y1 | y2 | y3 | … | yn |
则在平面直角坐标系xOy中描出点(xi,yi),i=1,2,3,…,n,就可以得到这n对数据的散点图.
(2)线性相关
如果由变量的成对数据、散点图或直观经验可知,变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.
(3)正相关和负相关
已知x与y线性相关,如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关;如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.
相关关系与函数关系的区别与联系
(1)相同点:两者均是指两个变量的关系.
(2)不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.
②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.回归直线方程
(1)一般地,已知变量x与y的n对成对数据(xi,yi),i=1,2,3,…,n.任意给定一个一次函数y=bx+a,对每一个已知的xi,由直线方程可以得到一个估计值i=bxi+a,如果一次函数=x+能使残差平方即和(y1-1)2+(y2-2)2+…+(yn-n)2= (yi-i)2取得最小值,则=x+称为y关于x的回归直线方程(对应的直线称为回归直线).因为是使得平方和最小,所以其中涉及的方法称为最小二乘法.
其中,回归系数==,=-.
=(x1+x2+…+xn)=i;
=(y1+y2+…+yn)=i.
3.回归直线方程:=x+的性质
(1)回归直线一定过点(,).
(2)回归系数的实际意义:
①是回归方程的斜率;
②当x增大一个单位时,增大个单位.
(1)回归直线方程不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义.
(2)根据回归直线方程进行预报,得到的仅是一个估计值,而不一定是真实发生的值.
(3)回归直线一定过样本点的中心.
4.相关系数
(1)定义:统计学里一般用
r=
=
来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).
(2)性质
①|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0;
②|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值;
③|r|=1的充要条件是成对数据构成的点都在回归直线上.
5.非线性回归方程
如果具有相关关系的两个变量x,y不是线性相关关系,那么称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程).
6.2×2列联表
(1)定义:如果随机事件A与B的样本数据整理成如下的表格形式.
| A | 总计 | |
B | a | b | a+b |
c | d | c+d | |
总计 | a+c | b+d | a+b+c+d |
因为这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.
(2)χ2计算公式:χ2=,其中n=a+b+c+d.
根据χ2的值可以判断两个分类变量有关的可信程度.若χ2的值越大,则两个分类变量有关系的把握越大.
7.独立性检验
任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平α对应的分位数).若χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2<k成立,就称不能得到前述结论.这一过程通常称为独立性检验.
二、基本技能·思想·活动体验
1.判断下列说法的正误,对的打“√”,错的打“×”.
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ )
(2)通过回归直线方程=x+可以估计预报变量的取值和变化趋势.( √ )
(3)回归直线方程=x+中,若<0,则变量x和y负相关.( × )
(4)因为由任何一组观测值都可以求得一个回归直线方程,所以没有必要进行相关性检验.( × )
2.根据如下样本数据得到的回归直线方程为=x+,则( )
x | 3 | 4 | 5 | 6 | 7 | 8 |
y | 4.0 | 2.5 | -0.5 | 0.5 | -2.0 | -3.0 |
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
B 解析:画出散点图,知>0,<0.
3.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关系数r分别如下表:
| 甲 | 乙 | 丙 | 丁 |
r | 0.98 | 0.78 | 0.50 | 0.85 |
建立的回归模型拟合效果最好的是________.
A 解析:r越大,表示回归模型的拟合效果越好.
4.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:
| 优秀 | 及格 | 总计 |
甲班 | 11 | 34 | 45 |
乙班 | 8 | 37 | 45 |
总计 | 19 | 71 | 90 |
则χ2的值约为________.
A 解析:根据列联表中的数据,可得 χ2=≈0.600.故选A.
5.若变量y与x的非线性回归方程是=2-1,则当的值为2时,x的估计值为________.
解析:由2-1=2,得x=,即x的估计值为.
考点1 相关关系的判断——基础性
1. (多选题)下列变量之间的关系是相关关系的是( )
A.二次函数y=ax2+bx+c中,a,c是已知常数,取b为自变量,因变量是判别式Δ=b2-4ac
B.光照时间和果树亩产量
C.降雪量和交通事故发生率
D.每亩田施肥量和粮食亩产量
BCD 解析:在A中,若b确定,则a,b,c都是常数,Δ=b2-4ac也就唯一确定了,因此,这两者之间是确定性的函数关系;一般来说,光照时间越长,果树亩产量越高;降雪量越大,交通事故发生率越高;施肥量越多,粮食亩产量越高,所以B,C,D是相关关系.
2.以下是在某地搜集到的不同楼盘房屋的销售价格y(单位:万元)和房屋面积x(单位:m2)的数据:
房屋面积x/m2 | 115 | 110 | 80 | 135 | 105 |
销售价格y/万元 | 49.6 | 43.2 | 38.8 | 58.4 | 44 |
(1)画出数据对应的散点图.
(2)判断房屋的销售价格和房屋面积之间是否具有相关关系.如果有相关关系,是正相关还是负相关?
解:(1)数据对应的散点图如图所示.
(2)通过以上数据对应的散点图可以判断,房屋的销售价格和房屋面积之间具有相关关系,并且是正相关.
两个变量是否相关的两种判断方法
(1)根据实际经验,借助积累的经验进行分析判断.
(2)通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.
考点2 一元线性回归模型及其应用——应用性
考向1 线性回归分析
假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x | 2 | 3 | 4 | 5 | 6 |
y | 2.2 | 3.8 | 5.5 | 6.5 | 7.0 |
已知=90,≈140.8,iyi=112.3,≈8.9,≈1.4.
(1)计算y与x之间的相关系数(精确到0.001),并求出回归直线方程;
(2)根据回归直线方程,预测假设使用年限为10年时,维修费用约是多少万元?
解:(1)因为==4,
==5.
iyi-5 =112.3-5×4×5=12.3,
-52=90-5×42=10,
-52=140.8-125=15.8,
所以r===≈≈0.987.
又===1.23,
=-=5-1.23×4=0.08.
所以回归直线方程为=1.23x+0.08.
(2)当x=10时,=1.23×10+0.08=12.38(万元),
即假设使用10年时,维修费用约为 12.38万元.
考向2 相关系数
根据统计,某蔬菜基地西红柿亩产量的增加量y(单位:百千克)与某种液体肥料每亩使用量x(单位:千克)之间的对应数据的散点图如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合);
(2)求y关于x的回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量y约为多少?
附:相关系数公式r==,参考数据:≈0.55,≈0.95.
回归直线方程=x+中斜率和截距的最小二乘估计公式分别为:==,=-.
解:(1)由已知数据可得==5,
==4.
所以(xi-)(yi-)=(-3)×(-1)+(-1)×0+0×0+1×0+3×1=6,
=
=2,
=
=,
所以相关系数
r=
==≈0.95.
因为r>0.75,所以可用线性回归模型拟合y与x的关系.
(2)===0.3.
那么=4-5×0.3=2.5.
所以回归直线方程为=0.3x+2.5.
当x=12时,=0.3×12+2.5=6.1,
即当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为6.1百千克.
考向3 非线性回归分析
(2020·南平质检)千百年来,人们一直在通过不同的方式传递信息.在古代,烽火狼烟、飞鸽传书、快马驿站等通信方式被人们广泛传知;第二次工业革命后,科技的进步带动了电讯事业的发展,电报、电话的发明让通信领域发生了翻天覆地的变化;之后,计算机和互联网的出现则使得“千里眼”“顺风耳”变为现实……此时此刻,5G的到来即将给人们的生活带来颠覆性的变革.“5G领先”一方面是源于我国顶层设计的宏观布局,另一方面则来自政府高度重视、企业积极抢滩、企业层面的科技创新能力和先发优势.某科技创新公司基于领先技术的支持,丰富的移动互联网应用等明显优势,随着技术的不断完善,该公司的5G经济收入在短期内逐月攀升.业内预测,该创新公司在第1个月至第7个月的5G经济收入y(单位:百万元)关于月份x的数据如下表:
时间(月份) | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
收入(百万元) | 6 | 11 | 21 | 34 | 66 | 101 | 196 |
根据以上数据绘制如下散点图.
(1)为了更充分运用大数据、人工智能、5G等技术,公司需要派出员工实地检测产品性能和使用状况.公司领导要从报名的五名科技人员A,B,C,D,E中随机抽取3个人前往,则A,B同时被抽到的概率为多少?
(2)根据散点图判断,y=ax+b与y=c·dx(a,b,c,d均为大于零的常数)哪一个适宜作为5G经济收入y关于月份x的回归方程类型?(给出判断即可,不必说明理由)根据你的判断结果及表中的数据,求出y关于x的回归方程.
(3)请你预测该公司8月份的5G经济收入.
参考数据:
yi | lg yi | xiyi | xivi | 100.45 | 100.54 |
43.5 | 10.78 | 2 535 | 50.12 | 2.82 | 3.47 |
v=lg y,vi=lg yi.
参考公式:对于一组具有线性相关关系的数据(xi,vi)(i=1,2,3,…,n),其回归直线=x+的斜率和截距的最小二乘估计公式分别为=,
=-.
解:(1)从报名的科技人员A,B,C,D,E中随机抽取3个人,则所有的情况为{A,B,C},{A,B,D},{A,B,E},{A,C,D},{A,C,E},{A,D,E},{B,C,D},{B,C,E},{B,D,E},{C,D,E},共10种.记“A,B同时被抽到”为事件Q,则事件Q包含的样本点为{A,B,C},{A,B,D},{A,B,E},共3个,故P(Q)=.
(2)根据散点图判断,y=c·dx适宜作为5G经济收入y关于月份x的回归方程类型.由y=c·dx两边同时取常用对数得lg y=lg(c·dx)=lg c+xlg d.
设lg y=v,所以v=lg c+xlg d.
因为=×(1+2+3+4+5+6+7)=4,
所以=vi=lg yi=×10.78=1.54,x=12+22+32+42+52+62+72=140,
所以lg =
===0.25.
把样本中心(4,1.54)的坐标代入=lg +lg ·x,得1.54=lg +0.25×4,
所以lg =0.54,所以=0.54+0.25x,
所以lg =0.54+0.25x,
所以y关于x的回归方程为=100.54+0.25x=3.47×100.25x.
(3)当x=8时,=100.54+0.25x=3.47×100.25×8=347,
所以预测8月份的5G经济收入为347百万元.
非线性回归分析的步骤
非线性回归问题有时并不给出回归公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤如下:
(2020·广州一模)某种昆虫的日产卵数和时间变化有关,现收集了该昆虫第1天到第5天的日产卵数据:
第x天 | 1 | 2 | 3 | 4 | 5 |
日产卵数y(个) | 6 | 12 | 25 | 49 | 95 |
对数据初步处理后得到了如图所示的散点图和表中的统计量的值.
xi | x | (ln yi) | (xi·ln yi) |
15 | 55 | 15.94 | 54.75 |
(1)根据散点图,利用计算机模拟出该种昆虫日产卵数y关于x的回归方程为y=ea+bx(其中e为自然对数的底数),求实数a,b的值(精确到0.1).
(2)根据某项指标测定,若日产卵数在区间(e6,e8)上的时段为优质产卵期.利用(1)的结论,估计在第6天到第10天中任取2天,其中恰有1天为优质产卵期的概率.
附:对于一组数据(v1,μ1),(v2,μ2),…,(vn,μn),其回归直线的斜率和截距的最小二乘估计公式分别为=,=-·.
解:(1)因为y=ea+bx,两边取自然对数,得ln y=a+bx.
令m=x,n=ln y,得n=a+bm.
因为===0.693,
所以b≈0.7.
因为=-=-0.7×3=1.088,
所以a≈1.1,即a≈1.1,b≈0.7.
(2)根据(1)得y=e1.1+0.7x.
由e6<e1.1+0.7x<e8,得7<x<.
所以在第6天到第10天中,第8,9天为优质产卵期.
从未来第6天到第10天中任取2天的所有可能事件有(6,7),(6,8),(6,9),(6,10),(7,8),(7,9),(7,10),(8,9),(8,10),(9,10),共10种.
其中恰有1天为优质产卵期的有(6,8),(6,9),(7,8),(7,9),(8,10),(9,10),共6种.
设从未来第6天到第10天中任取2天,其中恰有1天为优质产卵期的事件为A,
则P(A)==.
所以从未来第6天到第10天中任取2天,其中恰有1天为优质产卵期的概率为.
在进行线性回归分析时,要按线性回归分析步骤进行.在求r时,通常采用分步计算的方法,r越大,相关性越强.
考点3 列联表与独立性检验——综合性
某省进行高中新课程改革已经四年了,为了了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查.共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
(2)能否在犯错误的概率不超过0.01的前提下认为对新课程教学模式的赞同情况与教师年龄有关系?
解: (1)2×2列联表如下所示.
| 赞同 | 不赞同 | 总计 |
老教师 | 10 | 10 | 20 |
青年教师 | 24 | 6 | 30 |
总计 | 34 | 16 | 50 |
(2)由公式得χ2=≈4.963<6.635,所以在犯错误的概率不超过0.1的前提下认为对新课程教学模式的赞同情况与教师年龄没有关系.
(1)利用χ2=求出χ2的值.再利用显著性水平来判断有多大的把握判断两个事件有关.
(2)解题时应注意准确计算,不可错用公式,准确进行比较与判断.
(2020·新高考全国卷Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表
SO2 PM2.5 | [0,50] | (50,150] | (150,475] |
[0,35] | 32 | 18 | 4 |
(35,75] | 6 | 8 | 12 |
(75,115] | 3 | 7 | 10 |
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
SO2 PM2.5 | [0,150] | (150,475] |
[0,75] |
|
|
(75,115] |
|
|
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
解:(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率p==0.64.
(2)根据抽查数据,可得2×2列联表如下:
SO2 PM2.5 | [0,150] | (150,475] |
[0,75] | 64 | 16 |
(75,115] | 10 | 10 |
(3)根据(2)的列联表得
χ2=≈7.484.
因为7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
高考数学统考一轮复习第9章统计与统计案例第3节变量间的相关关系统计案例学案: 这是一份高考数学统考一轮复习第9章统计与统计案例第3节变量间的相关关系统计案例学案,共12页。
人教b版高考数学一轮复习第9章统计与统计案例新高考新题型微课堂9多选题命题热点之统计学案含解析: 这是一份人教b版高考数学一轮复习第9章统计与统计案例新高考新题型微课堂9多选题命题热点之统计学案含解析,共4页。
人教b版高考数学一轮复习第9章统计与统计案例第2节用样本估计总体学案含解析: 这是一份人教b版高考数学一轮复习第9章统计与统计案例第2节用样本估计总体学案含解析,共9页。学案主要包含了教材概念·结论·性质重现,基本技能·思想·活动体验等内容,欢迎下载使用。