所属成套资源:2025届高三数学一轮复习课件与讲义练习
线性回归分析与独立性检验专项练习-2025届高三数学一轮复习
展开
这是一份线性回归分析与独立性检验专项练习-2025届高三数学一轮复习,共19页。试卷主要包含了单选题,多选题,填空题,解答题等内容,欢迎下载使用。
1.(24-25高三上·四川绵阳·阶段练习)由一组样本数据得到经验回归方程,那么下列说法正确的是( )
A.若相关系数r越小,则两组变量的相关性越弱
B.若越大,则两组变量的相关性越强
C.经验回归方程至少经过样本数据中的一个
D.在经验回归方程中,当解释变量x每增加1个单位时,相应的观测值y约增加个单位
2.(2024高三·北京·专题练习)年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
3.(24-25高三上·云南昆明·阶段练习)下列说法错误的是( )
A.若随机变量,则当较小时,对应的正态曲线“瘦高”,随机变量X的分布比较集中
B.在做回归分析时,可以用决定系数刻画模型的回归效果,若越大,则说明模型拟合的效果越好
C.在一元线性回归模型中,如果相关系数,表明两个变量的相关程度很强
D.对于一组数据,,…,,若所有数据均变成原来的2倍,则变为原来的2倍
4.(2024·浙江·一模)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对,进行线性回归分析.若在此图中加上点后,再次对,进行线性回归分析,则下列说法正确的是( )
A.,不具有线性相关性B.决定系数变大
C.相关系数变小D.残差平方和变小
5.(24-25高三上·全国·阶段练习)研究数据表明,某校高中生的数学成绩与物理成绩、物理成绩与化学成绩均有正相关关系.现从该校抽取某班50位同学的数学、物理、化学三科成绩作为样本,设数学、物理、化学成绩分别为变量x,y,z若x,y的样本相关系数为,y,z的样本相关系数为,则x、z的样本相关系数的最大值为( )
附:相关系数
A.B.C.D.1
6.(2023·甘肃兰州·模拟预测)为了检测某种新药的效果,现随机抽取100只小白鼠进行试验,得到如下列联表:
则下列说法一定正确的是( )
附:(其中).
临界值表:
A.在犯错误的概率不超过0.05的前提下,认为“小白鼠是否被治愈与是否服用新药有关”
B.在犯错误的概率不超过0.05的前提下,认为“小白鼠是否被治愈与是否服用新药无关”
C.在犯错误的概率不超过0.005的前提下,认为“小白鼠是否被治愈与是否服用新药有关”
D.在犯错误的概率不超过0.005的前提下,认为“小白鼠是否被治愈与是否服用新药无关”
7.(24-25高三上·山西运城·开学考试)下列说法错误的是( )
A.某校高一年级共有男女学生500人,现按性别采用分层抽样的方法抽取容量为50人的样本,若样本中男生有30人,则该校高一年级女生人数是200
B.数据1,3,4,5,7,9,11,16的第75百分位数为10
C.在一元线性回归方程中,若线性相关系数r越大,则两个变量的线性相关性越强
D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不大于0.05
8.(22-23高三下·重庆北碚·阶段练习)一医疗团队为研究治疗某种疾病的新药能否有助于7天内治愈该疾病病人,在已患病的500例病人中,随机分为两组,实验组服用该新药,对照组不服用该药,在其他治疗措施相同的情况下,统计7天内痊愈病例数,得到如下数据:
根据表格数据,下列结论正确的是( )
参考公式及数据:,其中.
A.在犯错误的概率不大于0.01的前提下,可以认为服用该新药与7天内治愈病人无关
B.在犯错误的概率不大于0.001的前提下,可以认为服用该新药与7天内治愈病人无关
C.根据小概率值的独立性检验,可以推断服用该新药与7天内治愈病人有关
D.根据小概率值的独立性检验,可以推断服用该新药与7天内治愈病人有关
二、多选题
9.(24-25高三上·四川成都·期中)对于样本相关系数,下列说法正确的是( )
A.样本相关系数可以用来判断成对样本数据相关的正负性
B.样本相关系数可以是正的,也可以是负的
C.样本相关系数越大,成对样本数据的线型相关程度越强
D.样本相关系数
10.(2024·全国·模拟预测)下列说法中,正确的是( )
A.某组数据的经验回归方程一定过点
B.若,,,则事件与事件相互独立
C.甲、乙两个模型的决定系数分别约为和,则模型甲的拟合效果更好
D.残差平方和越大,则相应模型的拟合效果越好
11.(2024高三·全国·专题练习)已知变量和变量的一组成对样本数据的散点落在一条直线附近,,,相关系数为,线性回归方程为,则( )参考公式:.
A.当越大时,成对样本数据的线性相关程度越强
B.当时,
C.,时,成对样本数据的相关系数满足
D.时,成对样本数据的线性回归方程满足
三、填空题
12.(24-25高三上·广东江门·阶段练习)已知,之间的一组数据:若与满足经验回归方程,则此曲线必过点 .
13.(24-25高三上·天津河西·阶段练习)下列命题正确的是 .
①对于事件,若,且,则
②若随机变量,则
③相关系数的绝对值越接近1,两个随机变量的线性相关程度越强
④在做回归分析时,残差图中残差点分布的带状区域的宽度越宽表示回归效果越差
14.(24-25高三上·山东济宁·阶段练习)某传媒公司针对“社交电商用户是否存在性别差异”进行调查,共调查了个人,得到下侧列联表.已知,若根据的独立性检验认为“社交电商用户存在性别差异”,则的最小值为 .
参考公式:,其中.
四、解答题
15.(2024·陕西西安·二模)近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.“保护环境,人人有责”,在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如下表所示:
(1)计算与的相关系数(保留三位小数);
(2)求关于的线性回归方程,并预测该地区2025年新能源汽车购买数量.
参考公式,,.
参考数值:,.
16.(2024高三·全国·专题练习)2024年巴黎奥运会上,我国乒乓球运动员取得了优异的成绩,这激发了公众参与乒乓球运动的热情,为此,某社区成立了一个社区乒乓球协会.社区乒乓球协会为了解性别是否会影响居民参与乒乓球运动的意愿,对居民是否愿意参加乒乓球运动进行了抽样调查,从该社区的居民中随机抽取了100名进行调查,得到下表:
(1)依据小概率值的独立性检验,能否认为居民是否参与乒乓球运动与性别有关联?
(2)为加强社区乒乓球协会的管理,社区决定从样本参与乒乓球运动的居民中按性别利用分层随机抽样的方法抽取6名组成乒乓球协会管理员,并从这6名居民中选出2名担任协会会长,记男性居民担任协会会长的人数为,求随机变量的分布列及数学期望.
附:,.
17.(24-25高三上·江苏扬州·期中)中国是茶的故乡,茶文化源远流长,博大精深.某兴趣小组,为了了解当地居民对喝茶的态度,随机调查了100人,并将结果整理如下:
(1)是否有90%的把握认为该地居民喜欢喝茶与年龄有关?
(2)以样本估计总体,用频率代替概率.该兴趣小组在当地喜欢喝茶的人群中,随机选出2人参加茶文化艺术节.抽取的2人中,35岁以下的人数记为,求的分布列与期望.
参考公式:,其中.
参考数据:
18.(24-25高三上·黑龙江哈尔滨·期中)为了了解高中学生课后自主学习数学时间(分钟/每天)和他们的数学成绩(分)的关系,某实验小组做了调查,得到一些数据(表一).
表一:
(1)请用相关系数说明该组数据中变量与变量之间的关系可以用线性回归模型拟合(结果精确到0.001);
(2)求关于的经验回归方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩;
(3)基于上述调查,某校提倡学生周六在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周六在校自主学习以及成绩是否有进步统计,得到列联表(表二).依据表中数据及小概率值的独立性检验,分析“周六在校自主学习与成绩进步”是否有关.
表二:
(参考数据:的方差为的方差为230.8,)
附:,.
19.(2024·广东佛山·一模)某机构为了解市民对交通的满意度,随机抽取了100位市民进行调查,结果如下:回答“满意”的人数占总人数的一半,在回答“满意”的人中,“上班族”的人数是“非上班族”人数的;在回答“不满意”的人中,“非上班族”占.
(1)请根据以上数据填写下面列联表,并依据小概率值的独立性检验,分析能否认为市民对于交通的满意度与是否上班存在关联?
(2)该机构欲再从全市随机选取市民,进一步征求改善交通现状的建议.规定:抽样的次数不超过6次,若随机抽取的市民属于不满意群体,则抽样结束;若随机抽取的市民属于满意群体,则继续抽样,直到抽到不满意市民或抽样次数达到6次时,抽样结束.以调查数据中的满意度估计全市市民的满意度,求抽样次数的分布列和数学期望.
附:
参考公式:,其中
参考答案:
1.D
【分析】根据相关系数的含义可判断AB;根据回归直线的含义可判断CD;
【详解】对于A,若相关系数越小,则两组变量的相关性越弱,A错误;
对于B,若越大,则两组变量的相关性越强,是回归直线的斜率,
它不反应两变量的相关性强弱,B错误;
对于C,经验回归方程不一定经过样本数据中的一个,C错误;
对于D,在经验回归方程中,当解释变量x每增加1个单位时,
若,相应的观测值y约增加个单位;若,相应的观测值y约增加个单位;
故当解释变量x每增加1个单位时,相应的观测值y约增加个单位,正确,
故选:D
2.C
【分析】通过对等高堆积条形图的分析,结合所列列联表及不等式性质,逐一对每个选项进行推理判断即可.
【详解】设等高条形图对应列联表如下:
根据第个等高条形图可知,岁及以上男性比岁及以上女性多,即;
岁以下男性比岁以下女性多,即.
根据第个等高条形图可知,男性中岁及以上的比岁以下的多,即;
女性中岁及以上的比岁以下的多,即,
对于A,男性人数为,女性人数为,
因为,所以,所以A正确;
对于B,岁及以上女性人数为,岁以下女性人数为,
因为,所以B正确;
对于C,岁以下男性人数为,岁及以上女性人数为,
无法从图中直接判断与的大小关系,所以C不一定正确;
对于D,岁及以上的人数为,岁以下的人数为,
因为,所以,所以D正确.
故选:C.
3.D
【分析】根据正态分布曲线的性质,可得判定A正确;根据决定系数和相关系数的性质,可得判定B正确,C正确;根据方差的性质,可判定D错误.
【详解】对于A中,若随机变量,则当较小时,对应的正态曲线“瘦高”,随机变量X的分布比较集中,所以A正确;
对于B中,在做回归分析时,可以用决定系数刻画模型回归效果,越大,说明模型拟合的效果越好,所以B正确;
对于C中,一元线性回归模型中,相关系数的绝对值越接近1,表明两个变量的相关性越强,
所以如果相关系数,表明两个变量的相关程度很强,所以C正确;
对于D,若所有数据均变成原来的2倍,则变为原来的4倍,所以D正确.
故选:D.
4.C
【分析】从图中分析得到加入点后,回归效果会变差,再由决定系数,相关系数,残差平方和及相关性的概念和性质作出判断即可.
【详解】对于A,加入点后,变量与预报变量相关性变弱,
但不能说,不具有线性相关性,所以A不正确
对于B,决定系数越接近于1,拟合效果越好,所以加上点后,决定系数变小,故B不正确;
对于C,从图中可以看出点较其他点,偏离直线远,所以加上点后,回归效果变差.
所以相关系数的绝对值越趋于0,故C正确;
对于D,残差平方和变大,拟合效果越差,所以加上点后,残差平方和变大,故D不正确;
故选:C.
5.B
【分析】利用相关系数公式,可看成两个维向量的夹角公式,从而把相关系系数问题转化为向量夹角问题,即可得解.
【详解】设,,,
则有,,,
由相关系数公式可知:,
设与夹角为,与夹角为,
由x,y的样本相关系数为,所以,,
由这两个夹角均为锐角且,所以与夹角的可能性是,
则与夹角余弦值的最大值为,此时x与z样本相关系数最大,
即,
故选:B.
6.A
【分析】根据表中数据求出的值,即可得答案.
【详解】解:由列联表中数据,计算,
且,
所以有的把握认为“小白鼠是否被治愈与是否服用新药有关”
所以在犯错误的概率不超过0.05的前提下,认为“小白鼠是否被治愈与是否服用新药有关”.
故选:A.
7.C
【分析】利用分层抽样计算判断A;求出第75百分位数判断B;利用线性相关系数的意义判断C;利用独立性检验的思想判断D.
【详解】对于A,该校高一年级女生人数是,A正确;
对于B,由,得第75百分位数为,B正确;
对于C,线性回归方程中,线性相关系数绝对值越大,两个变量的线性相关性越强,C错误;
对于D,由,可判断与有关联,此推断犯错误的概率不大于0.05,D正确.
故选:C
8.C
【分析】求出卡方值,和6.635,10.828比较即可根据小概率值的独立性检验判断.
【详解】,所以根据小概率值的独立性检验,有充分证据推断服用该新药对7天内治愈病人有影响,
因此在犯错误的概率不大于0.01的前提下,可以推断服用该新药与7天内治愈病人有关,故C正确,A错误.
,所以根据小概率值的独立性检验,没有充分证据推断服用该新药对7天内治愈病人有关,
因此在犯错误的概率不大于0.001的前提下,不可以推断服用该新药与7天内治愈病人有关,故BD错误.
故选:C.
9.ABD
【分析】利用相关系数与成对样本数据间的相关关系逐项判断,可得出合适的选项.
【详解】对于A选项,样本相关系数可以用来判断成对样本数据相关的正负性,A对;
对于B选项,样本相关系数可以是正的,也可以是负的,B对;
对于C选项,样本相关系数的绝对值越大,成对样本数据的线性相关程度也越强,C错.
对于D选项,样本相关系数,D对;
故选:ABD
10.BC
【分析】根据回归方程、独立事件、决定系数和残差平方和的相关知识依次判断各个选项即可.
【详解】对于A,经验回归方程必过样本中心点,但未必是,A错误;
对于B,,事件与事件相互独立,B正确;
对于C,,越接近,模型拟合效果越好,模型甲的拟合效果更好,C正确;
对于D,残差平方和越小,模型的拟合效果越好,D错误.
故选:BC.
11.BCD
【分析】根据线性相关、相关系数、线性回归方程等知识,对选项逐一分析,即可得到答案.
【详解】对于A,当越接近1时,成对样本数据的线性相关程度越强,故A错误;
对于B,当时,成对样本数据正相关,相关系数与符号相同,则,故B正确;
对于C,当,时,将这组数据添加后,不变,
故相关系数的表达式中的分子和分母均不变,故C正确;
对于D,当,时,将这组数据添加后,不变,
故线性回归方程中的斜率的表达式中的分子和分母均不变,所以,故D正确;
综上所述,正确的有B、C、D.
故选:BCD.
12.
【分析】设,则,根据回归方程性质可得回归直线所过定点.
【详解】由已知,
设,则,
由回归直线性质可得在直线上,
又,,
所以点在直线上,故点在曲线上.
故答案为:.
13.①③④
【分析】根据事件的包含关系结合条件概率定义可判断①;根据正态分布曲线的对称性可判断②;根据相关系数的绝对值的含义可判断③;根据残差图残差点分布的带状区域的含义判断④.
【详解】对于①,对于事件,,即A发生必定有B发生,则,①正确;
对于②,若随机变量,则,②错误;
对于③,相关系数的绝对值越接近1,两个随机变量的线性相关程度越强,正确;
对于④,在做回归分析时,残差图中残差点分布的带状区域的宽度越宽表示回归效果越差,正确,
故答案为:①③④
14.3
【分析】由题意,应用卡方公式得,根据独立检验的结论确定的最小值.
【详解】由题设,零假设社交电商用户与性别无关,
而,
则,
所以根据的独立性检验认为是不是社交电商用户与性别有关,则的最小值3.
故答案为:3
15.(1)
(2)万辆
【分析】(1)利用所提供数据求,代入参考公式求即可;
(2)结合公式求,由此可得回归方程,再利用回归方程进行预测.
【详解】(1),
,
所以;
(2)由(1)知,,
,
所以关于的线性回归方程是,
当时,(万辆),
该地区年新能源汽车购买数量约为万辆.
16.(1)能
(2)分布列见解析;期望为
【分析】(1)进行零假设, 利用公式计算的值, 根据独立性检验下结论;
(2)求随机变量的取值及对应的概率,写出分布列,利用期望公式求解即可.
【详解】(1)零假设为:居民是否参与乒乓球运动与性别无关联.
根据列联表中的数据,
得,
根据小概率值的独立性检验,我们推断不成立,
即能认为居民是否参与乒乓球运动与性别有关联,此推断犯错误的概率不大于0.001.
(2)根据分层随机抽样的知识可知,随机抽取的6名居民中有男性4名,女性2名,
所以随机变量的所有可能取值为0,1,2,
,,,
所以的分布列为
所以.
17.(1)没有90%的把握认为该地居民喜欢喝茶与年龄有关
(2)分布列见解析,
【分析】(1)根据列联表计算得出的值即可得出结论;
(2)易知的所有取值可能为0,1,2,分别计算出对应概率可得分布列及其期望值.
【详解】(1)零假设为:该地居民喜欢喝茶与年龄没有关系.
根据列联表中的数据,可以求得.
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,
即没有90%的把握认为该地居民喜欢喝茶与年龄有关.
(2)的取值可能为0,1,2.
则;;.
所以的分布列为:
所以的期望为.
18.(1)详见解析;
(2)分.
(3)有关
【分析】(1)依据公式计算即可求得相关系数;
(2)利用最小二乘法求得回归方程,再令即可得解;
(3)根据公式求得,再对照临界值表即可得解.
【详解】(1)
,
又的方差为的方差为230.8,
则
r值非常接近于1,故变量与变量之间的关系可以用线性回归模型拟合.
(2),
,
故,当时,,
故预测每天课后自主学习数学时间为100分钟时的数学成绩为分.
(3)
,
因为,所以依据的独立性检验,
可以认为“周六在校自主学习与成绩进步”有关.
19.(1)填表见解析;认为市民对交通的满意度与是否上班有关
(2)分布列见解析;期望为
【分析】(1)首先根据条件填写列联表,再计算,比较小概率值,即可得到结论;
(2)由条件可知,,根据随机变量的意义,写出概率,并列出分布列和数学期望.
【详解】(1)由题意可知,
假设:市民对交通的满意度与是否上班独立,
因为,
根据小概率值的独立性检验,我们推断不成立,即认为市民对交通的满意度与是否上班有关,此推断犯错误的概率不大于0.001.
(2)的可能取值为1,2,3,4,5,6.
由(1)可知市民的满意度和不满意度均为,所以,,,
,,
所以的分布列为:
所以.未治愈
治愈
合计
服用药物
10
40
50
未服用药物
20
30
50
合计
30
70
100
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
7天内未痊愈
7天内痊愈
对照组
30
170
实验组
20
280
0.10
0.010
0.001
2.706
6.635
10.828
x
y
是社交电商用户
不是社交电商用户
合计
男性
女性
合计
年份x
2019
2020
2021
2022
2023
新能源汽车购买数量>(万辆)
0.40
0.70
1.10
1.50
1.80
性别
乒乓球运动
合计
参与
不参与
男性
40
10
50
女性
20
30
50
合计
60
40
100
0.050
0.010
0.001
3.841
6.635
10.828
不喜欢喝茶
喜欢喝茶
合计
35岁以上(含35岁)
30
30
60
35岁以下
25
15
40
合计
55
45
100
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
编号
1
2
3
4
5
学习时间
30
40
50
60
70
数学成绩
65
78
85
99
108
没有进步
有进步
合计
参与周六在校自主学习
35
130
165
未参与周六不在校自主学习
25
30
55
合计
60
160
220
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
满意
不满意
合计
上班族
非上班族
合计
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
岁及以上
岁以下
总计
男性
女性
总计
0
1
2
0
1
2
满意
不满意
合计
上班族
15
40
55
非上班族
35
10
45
合计
50
50
100
1
2
3
4
5
6
相关试卷
这是一份2022年高考数学总复习14回归分析及独立性检验限时练习新人教版,共3页。试卷主要包含了选择题,填空题,解答题等内容,欢迎下载使用。
这是一份2025届高考数学一轮复习专项练习课时规范练50一元线性回归模型与独立性检验,共8页。试卷主要包含了2B等内容,欢迎下载使用。
这是一份高考数学独立性检验专项练习,共18页。试卷主要包含了如表是一个列联表等内容,欢迎下载使用。