数学高二下期末复习-成对数据的统计分析(含解析)
展开
成对数据的统计分析
知识体系:
2022-2023年度七校联考范围:
板块 | 期末分值 | 大题分布 |
导数 | 65 | 3个大题 |
计数原理 | 20 | 无 |
随机变量及其分布 | 65 | 3个大题 |
成对数据的统计分析 |
知识清单:
一、回归分析
1.两个变量线性相关
(1)散点图:将样本中个数据点(i=1,2,…,)描在平面直角坐标系中得到的图形.
(2)正相关与负相关
①正相关:散点图中的点散布在从左下角到右上角的区域.
②负相关:散点图中的点散布在从左上角到右下角的区域.
2.回归直线的方程
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程.
(3)回归方程的推导过程:
①假设已经得到两个具有线性相关关系的变量的一组数据,,.
②设所求回归方程为,其中是待定参数.
③由最小二乘法得
相关系数:
样本相关系数r的取值范围为[-1,1].
① 若r>0时,成对样本数据正相关;
②若r<0时,成对样本数据负相关;
③当|r|越接近1时,成对样本数据的线性相关程度越强;
④当|r|越接近0时,成对样本数据的线性相关程度越弱.
其中,是回归方程的斜率,是截距.
回归直线方程
注意:在回归直线上
比较两个模型的拟合效果:
- 参数越大,残差平方和越小,拟合效果越好
- 参数越小,残差平方和越大,拟合效果越差
二、独立性检验
1.列联表
设,为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
| 总计 | ||
总计 |
2.独立性检验
利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
随机变量越大,说明两个分类变量,关系越强;反之,越弱。
3.独立性检验的一般步骤
(1)根据样本数据列出列联表;
(2)计算随机变量的观测值k,查下表确定临界值k0:
(3)如果,就推断“X与Y有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”.
注意:
(1)通常认为时,样本数据就没有充分的证据显示“X与Y有关系”.
(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.
(3)先进行零假设
期末押题:
.选择题(共3小题)
1.下列说法正确的序号是
①在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加0.8个单位;
②利用最小二乘法求回归直线方程,就是使得最小的原理;
③已知,是两个分类变量,若它们的随机变量的观测值越大,则“与有关系”的把握程度越小;
④在一组样本数据,,,,,,,,,,不全相等)的散点图中,若所有样本,,2,,都在直线上,则这组样本数据的线性相关系数为.
A.①③ B.①② C.②④ D.③④
2.用模型拟合一组数据组,,2,,,其中;设,得变换后的线性回归方程为,则
A. B.70 C. D.35
3.设两个相关变量和分别满足下表:
1 | 2 | 3 | 4 | 5 | |
1 | 2 | 8 | 8 | 16 |
若相关变量和可拟合为非线性回归方程,则当时,的估计值为
(参考公式:对于一组数据,,,,,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,;
A.33 B.37 C.65 D.73
二.多选题(共2小题)
4.下列说法中,正确的命题有
A.已知随机变量服从正态分布,,则
B.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则, 的值分别是和0.3
C.8个完全相同的球放入编号为1,2,3的三个空盒中,要求放入后3个盒子均不空且数量均不同,则有12种放法
D.若样本数据,,,的方差为2,则数据的方差为4
5.下列命题正确的是
A.两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1
B.对具有线性相关关系的变量、,有一组观测数据,,2,,,其线性回归方程是,且,则实的值是
C.已知样本数据,,,的方差为4,则,,,的标准差是4
D.已知随机变量,若,则
三.解答题(共3小题)
6.经验表明,一般树的直径(树的主干在地面以上处的直径)越大,树就越高.由于测量树高比测量直径困难,因此研究人员希望由树的直径预测树高.在研究树高与直径的关系时,某林场收集了某种树的一些数据如表:
编号 | 1 | 2 | 3 | 4 | 5 | 6 |
直径 | 19 | 22 | 26 | 29 | 34 | 38 |
树高 | 5 | 7 | 10 | 12 | 14 | 18 |
(1)请用样本相关系数(精确到说明变量和满足一元线性回归模型;
(2)建立关于的一元线性回归方程;并估计当树的直径为时,树高为多少?(精确到
附参考公式:相关系数回归直线的斜率和截距的最小二乘估计公式分别为:,
参考数据:
7.根据国家统计局统计,我国年的新生儿数量如下:
年份编号 | 1 | 2 | 3 | 4 | 5 |
年份 | 2018 | 2019 | 2020 | 2021 | 2022 |
新生儿数量(单位:万人) | 1523 | 1465 | 1200 | 1062 | 956 |
(1)由表中数据可以看出,可用线性回归模型拟合新生儿数量与年份编号的关系,请用相关系数说明相关关系的强弱;,则认为与线性相关性很强)
(2)建立关于的回归方程,并预测我国2025年的新生儿数量.
参考公式及数据:,,,,,.
8.奥密克戎变异毒株的潜伏期又缩短了,但具体到个人,感染后潜伏期的长短还是有个体差异的.潜伏期是指已经感染了奥密克戎变异株,但未出现临床症状的和体征的一段时期,奥密克戎潜伏期做核算检测可能为阴性,建议可以多做几次核算检测,有助于明确诊断.某研究机构对某地1000名患者进行了调查和统计,得到如下表:
潜伏期:(单位:天) | , | , | , | , | , | , | , |
人数 | 80 | 210 | 310 | 250 | 130 | 15 | 5 |
(1)求这1000名患者的潜伏期的样本平均值.
(2)该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过6天为标准进行分层抽样,从上述1000名患者中抽取300人,得到如下列联表请将列联表补充完整,并根据列联表判断是否有的把握认为潜伏期与患者年龄有关.
| 潜伏期天 | 潜伏期天 | 总计 |
50岁以上(含 |
|
| 150 |
50岁以下 | 85 |
|
|
总计 |
|
| 300 |
(3)为了做好防疫工作,各个部门、单位抓紧将各项细节落到实处,对“确诊”、“疑似”、“无法明确排除”和“确诊密接者”等“四类”人员,强化网格化管理,不落一户、不漏一人.若在排查期间,某小区有5人被确认为“确诊患者的密接接触”,现医护人员要对这5人进行逐一“单人单管”核酸检测,只要出现一例阳性,则该小区将被划为“封控区”.假设每人被确诊的概率为且相互独立,若当时,至少检测了4人该小区就被划为“封控区”的概率取得最大值,求.
附:,其中
0.15 | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 | |
2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 |
参考答案与试题解析
一.选择题(共3小题)
1.【解答】解:对于①,在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加0.8个单位,故①正确;
对于②,用离差的平方和,即:作为总离差,并使之达到最小;
这样回归直线就是所有直线中取最小值的那一条,
由于平方又叫二乘方,所以这种使“离差平方和为最小”的方法叫做最小二乘法;
所以利用最小二乘法求回归直线方程,就是使得最小的原理;故②正确;
对于③,对分类变量与,对它们的随机变量的观测值来说,越小,则“与有关系”的把握程度越小,故③错误;
对于④,相关系数反映的是两变量之间线性相关程度的强弱,与回归直线斜率无关,题中样本数据的线性相关系数为,故④错误.
故选:.
2.【解答】解:因为,所以,,
即.,
所以.
故选:.
3.【解答】解:令,则,
,,
,
,
故,
当时,.
故选:.
二.多选题(共2小题)
4.【解答】解:对于,服从正态分布,且,于是得,故错误;
对于,由得,依题意得,,即,故正确;
对于,将8个相同的球放进三个不同的盒子,可以等价于在8个球中间插两个板,将它分成3份并对应放到三个不同盒子中,共有种分法,
要求每个盒子中球的数量不相同,考虑存在相同的情况,首先不可能三个盒子数量均相同,只有两个盒子数量相同共3种情况:1、1、6,2、2、4,3、3、2,有种放法,故正确;
对于,若样本数据,,,的方差为2,则数据的方差为,故错误.
故选:.
5.【解答】解:两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,故正确;
,,由得,故正确;
样本数据,,,的方差为4,则样本数据,,,的方差为,标准差为4,正确;
随机变量,若,则,
则,故错误.
故选:.
三.解答题(共3小题)
6.【解答】解:(1),故,
,故,
,
故和成线性正相关,满足一元回归模型.
(2),,
,当 时,.
7.【解答】解:(1),,
,,
.
新生儿数量与年份编号具有很强的负相关性;
(2),
.
.
取,得.
预测我国2025年的新生儿数量为472.7万人.
8.【解答】解:(1)根据统计数据,计算平均数为(天;
(2)依题意潜伏期不超过6天的抽取人,
所以超过6天的抽取人,
所以可得列联表如下:
| 潜伏期天 | 潜伏期天 | 总计 |
50岁以上(含 | 95 | 55 | 150 |
50岁以下 | 85 | 65 | 150 |
总计 | 180 | 120 | 300 |
零假设:潜伏期和年龄独立。
根据列联表计算,
所以没有的把握认为潜伏期与年龄有关;
(3)至少检测4人该小区被测定为“封控区”包含两种情况:
①检测4次被确定,②检测5次被确定,
则至少检测了4人该小区被确定为“封控区”的概率为,
设,
,
,当时,当时,
即在上单调递增,在上单调递减,
所以时函数取得极大值即最大值,
当时,最大,.
声明:试题解析著作权属菁优网所有,未经书面同意,不得复制发布日期:2023/5/25 23:22:41;用户:钱威;邮箱:18580726814;学号:45958276
2024年高考数学重难点突破讲义:学案 第1讲 数据分析——成对数据的统计分析: 这是一份2024年高考数学重难点突破讲义:学案 第1讲 数据分析——成对数据的统计分析,共12页。
备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第3讲成对数据的统计分析: 这是一份备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第3讲成对数据的统计分析,共11页。
高考数学一轮复习第10章第3课时成对数据的统计分析学案: 这是一份高考数学一轮复习第10章第3课时成对数据的统计分析学案,共32页。