所属成套资源:新高考数学一轮复习分层提升练习(2份打包,原卷版+含解析)
新高考数学一轮复习分层提升练习第49练 成对数据的统计分析(2份打包,原卷版+含解析)
展开
这是一份新高考数学一轮复习分层提升练习第49练 成对数据的统计分析(2份打包,原卷版+含解析),文件包含新高考数学一轮复习分层提升练习第49练成对数据的统计分析原卷版doc、新高考数学一轮复习分层提升练习第49练成对数据的统计分析含解析doc等2份试卷配套教学资源,其中试卷共137页, 欢迎下载使用。
一、单选题
1.(2023·天津·统考高考真题)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数,下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈现负相关
C.花瓣长度和花萼长度呈现正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
【答案】C
【分析】根据散点图的特点可分析出相关性的问题,从而判断ABC选项,根据相关系数的定义可以判断D选项.
【详解】根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A选项错误
散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关性,B选项错误,C选项正确;
由于是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,即取出的数据的相关系数不一定是,D选项错误
故选:C
二、解答题
2.(2023·全国·统考高考真题)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表
(ⅱ)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:,
【答案】(1)
(2)(i);列联表见解析,(ii)能
【分析】(1)直接根据均值定义求解;
(2)(i)根据中位数的定义即可求得,从而求得列联表;
(ii)利用独立性检验的卡方计算进行检验,即可得解.
【详解】(1)试验组样本平均数为:
(2)(i)依题意,可知这40只小鼠体重的中位数是将两组数据合在一起,从小到大排后第20位与第21位数据的平均数,
由原数据可得第11位数据为,后续依次为,
故第20位为,第21位数据为,
所以,
故列联表为:
(ii)由(i)可得,,
所以能有的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.
3.(2022·全国·统考高考真题)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:,
【答案】(1)A,B两家公司长途客车准点的概率分别为,
(2)有
【分析】(1)根据表格中数据以及古典概型的概率公式可求得结果;
(2)根据表格中数据及公式计算,再利用临界值表比较即可得结论.
【详解】(1)根据表中数据,A共有班次260次,准点班次有240次,
设A家公司长途客车准点事件为M,
则;
B共有班次240次,准点班次有210次,
设B家公司长途客车准点事件为N,
则.
A家公司长途客车准点的概率为;
B家公司长途客车准点的概率为.
(2)列联表
=,
根据临界值表可知,有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
4.(2022·全国·统考高考真题)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
【答案】(1);
(2)
(3)
【分析】(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)代入题给相关系数公式去计算即可求得样本的相关系数值;
(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估计值.
【详解】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为
(2)
,则
(3)设该林区这种树木的总材积量的估计值为,
又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.则该林区这种树木的总材积量估计为
5.(2021·全国·统考高考真题)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
【答案】(1)75%;60%;
能.
【分析】根据给出公式计算即可
【详解】(1)甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.
(2),
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
【A组 在基础中考查功底】
一、单选题
1.已知x与y之间的一组数据:
则y与x的线性回归方程必过点( )
A.(0.5,3)B.(1.5,0)C.(1,2)D.(1.5,4)
【答案】D
【分析】根据线性回归方程过样本中心点进行求解即可.
【详解】由题中数据可得:,
所以该线性回归方程必过点,
故选:D
2.中国茶文化博大精深、茶水的口感与茶叶的类型和水的温度有关,某数学建模小组建立了茶水冷却时间x和茶水温度y的一组数据,经过分析,提出了四种回归模型,①②③④四种模型的残差平方和的值分别是1.23、0.80、0.12、1.36.则拟合效果最好的模型是( )
A.模型①B.模型②C.模型③D.模型④
【答案】C
【分析】根据残差平方和与拟合效果的关系判定即可.
【详解】残差平方和越小则拟合效果越好,而模型③的值最小,所以C正确.
故选:C
3.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:
文化程度与月收入列联表(单位:人)
由上表中数据计算得.如果认为文化程度与月收入有关系,那么犯错误的概率不会超过( )
附表:
A.0.01B.0.025C.0.03D.0.05
【答案】D
【分析】根据卡方的计算,由表中数据即可得到求解.
【详解】因为 ,所以认为文化程度与月收入有关系,那么犯错误的概率不会超过0.05.
故选:D.
4.下列说法错误的是( )
A.决定系数越大,模型的拟合效果越好
B.若变量x和y之间的样本相关系数为,则变量x和y之间的负相关程度很强
C.残差平方和越小的模型,拟合的效果越好
D.在经验回归方程中,当解释变量x每增加1个单位时,响应变量y平均增加3个单位
【答案】D
【分析】根据已知条件,结合相关系数、决定系数的定义,以及线性回归方程的性质,即可求解.
【详解】用决定系数来刻画回归效果,越大,表示残差平方和越小,即模型的拟合效果越好,故A正确;
若变量x和y之间的样本相关系数为,r接近-1,则变量x和y之间的负相关很强,故B正确;
比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好,故C正确;
在经验回归方程中,当解释变量x每增加1个单位时,响应变量y平均减小3个单位,故D错误.
故选:D.
5.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.列联表中c的值为20,b的值为50
D.由列联表可看出成绩与班级有关系
【答案】D
【分析】根据成绩优秀的概率求得,进而求得,结合比例判断出正确答案.
【详解】依题意,解得,由解得.
补全列联表如下:
甲班的优秀率为,乙班的优秀率为,
,所以成绩与班级有关.所以D选项正确,ABC选项错误.
故选:D
6.相关变量x,y的散点图如图所示,现对这两个变量进行线性相关分析.方案一:根据图中所有数据,得到回归直线方程,相关系数为;方案二:剔除点,根据剩下的数据得到回归直线方程,相关系数为.则( )
A.B.
C.D.
【答案】D
【分析】根据相关系数的意义:其绝对值越接近1,说明两个变量越具有线性相关,以及负相关的意义作判断即可.
【详解】由散点图可知这两个变量为负相关,所以.
因为剔除点后,剩下点的数据更具有线性相关性,更接近1,
所以 .
故选:D.
7.为了研究高中学生中性别与对乡村音乐态度(喜欢和不喜欢两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=8.01,则所得到的统计学结论是认为“性别与喜欢乡村音乐有关系”的把握约为( )
附:
A.0.1%B.0.5%
C.99.5%D.99.9%
【答案】C
【分析】根据题意结合临界值表判断即可
【详解】因为,
所以认为性别与喜欢乡村音乐有关系的把握有99.5%.
故选:C
8.如图给出了某种豆类生长枝数y(枝)与时间t(月)的散点图,那么此种豆类生长枝数与时间的关系用下列函数模型近似刻画最好的是( )
A.B.C.D.
【答案】D
【分析】根据散点图确定正确答案.
【详解】从所给的散点图可以看出图象大约过和,
把这两个点代入所给的四个解析式发现只有最合适,
另外,根据图象可知,图象呈指数增长的形式,也可在最合适.
故选:D.
9.已知一组成对数据中关于的一元非线性回归方程,已知,,,则( )
A.3B.1C.D.
【答案】B
【分析】求出、的均值,根据样本中心在回归直线上求参数即可.
【详解】由,,则,可得.
故选:B
10.如图,5个数据,去掉后,下列说法正确的是( )
A.样本相关系数r变小
B.残差平方和变大
C.决定系数变大
D.解释变量x与响应变量 y的相关性变弱
【答案】C
【分析】根据题意,结合散点图与相关系数,残差平方和以及决定系数的定义,即可得到结果.
【详解】由散点图可知,去掉点后,与的相关性变强,且为正相关,所以变大,变大,残差平方和变小.
故选:C
11.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中.已知该产品的色度y和色差x之间满足线性相关关系,且,现有一对测量数据为,若该数据的残差为0.6,则( )
A.23.4B.23.6C.23.8D.24.0
【答案】A
【分析】先由x、y的平均值和代入方程,求得,从而得到,再将代入并加上残差0.6即可得出答案.
【详解】由题意可知,,,
将代入,即,解得,
所以,
当时,,
则.
故选:A.
12.某研究性学习小组对春季昼夜温差大小与某花卉种子发芽多少之间的关系进行研究,据统计得出了昼夜温差与实验室种子浸泡后的发芽数(颗)之间的线性回归方程:,且对应数据如表:
如果昼夜温差为时,那么种子的发芽数大约是( )
A.21颗B.23颗C.25颗D.27颗
【答案】B
【分析】根据给定的数据,求出样本的中心点,进而求出值,再代入计算作答.
【详解】,
则样本点的中心的坐标为,代入,得.
可得,取,得,
如果昼夜温差为时,那么种子的发芽数大约是23颗,
故选:B.
13.某中学课外活动小组为了研究经济走势,根据该市1999-2021年的GDP(国内生产总值)数据绘制出下面的散点图:
该小组选择了如下2个模型来拟合GDP值y随年份x的变化情况,模型一:;模型二:,下列说法正确的是( )
A.变量y与x负相关
B.根据散点图的特征,模型一能更好地拟合GDP值随年份的变化情况
C.若选择模型二,的图象一定经过点
D.当时,通过模型计算得GDP值为70,实际GDP的值为71,则残差为1
【答案】D
【分析】对于AB,由散点图的变化趋势分析判断,对于C,由线性回归方程的性判断,对于D,结合残差的定义判断.
【详解】对于A,由散点图可知y随年份x的增大而增大,所以变量y与x正相关,所以A错误,
对于B,由散点图可知变量y与x的变化趋向于一条曲线,所以模型二能更好地拟合GDP值随年份的变化情况,所以B错误,
对于C,若选择模型二:,令,则的图象经过点,所以C错误,
对于D,当时,通过模型计算得GDP值为70,实际GDP的值为71,则残差为,所以D正确,
故选:D
14.新型冠状病毒引起的肺炎疫情暴发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示:
由表格可得Y关于x的非线性回归方程为,则此回归模型第5周的残差为( )
A.0B.2C.3D.―2
【答案】D
【分析】利用样本中心点求出,得到回归方程,可计算第5周的预测值和回归模型第5周的残差.
【详解】因为,,所以,
所以,取,得,所以第5周的预测值为144,
则此回归方程第5周的残差为.
故选:D
15.某学习小组用计算机软件对一组数据进行回归分析,甲同学首先求出经验回归方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,数据误输成,将这两个数据修正后得到经验回归方程,则实数( )
A.B.C.D.
【答案】D
【分析】根据样本点的中心为,求得m=9,然后利用样本点的中心,由甲求得,,再由乙求得样本点的中心,代入回归直线方程求解.
【详解】解:由题可知,假设甲输入的为,为,
所以,,
所以,,
所以改为正确数据时得,,
所以样本点的中心为,
将其代入回归直线方程,得.
故选:D
16.已知由样本数据点集合,求得的回归直线方程为,且.现发现两个数据点和误差较大,去除这两点后重新求得的回归直线方程的斜率为,则正确的是( )
A.变量与具有负相关关系
B.去除后的估计值增加速度变快
C.去除后回归方程为
D.去除后相应于样本点(2,3.75)的残差为
【答案】D
【分析】运用回归直线方程的性质、残差的基本概念等进行解题.
【详解】解:选项A:因为去除前回归直线的斜率为,重新求得的回归直线的斜率为,两者均大于0,所以变量与具有正相关关系,所以选项A错误;
选项B:去除前回归直线的斜率为,去除后回归直线的斜率为,去除前的斜率大于去除后的斜率,所以去除后的估计值增加速度变慢,所以选项B错误;
选项C:去除前,则可得,设,,,,则去除后样本中心设为,所以,,
又因为回归直线方程的斜率为,所以去除后的回归直线方程为,
所以选项C错误;
选项D:由C选项可知,去除后的回归直线方程为,当时,,则残差为,所以选项D正确;
故选:D.
二、多选题
17.下面的各图中,散点图与相关系数r符合的是( )
A. B.
C. D.
【答案】ACD
【分析】根据相关系数的定义,结合选项中的散点图,逐项判定,即可求解.
【详解】因为相关系数r的绝对值越接近1,线性相关程度越强,且时正相关,时负相关,
A中,变量的散点图是一条斜率小于0的直线上,所以相关系数,所以A正确;
B中,变量的散点图是一条斜率大于0的直线上,所以相关系数,所以B不正确;
C中,变量的散点图从左到右是向下的带状分布,所以相关系数,所以C正确;
D中,变量的散点图中,之间的样本相关关系非常不明显,所以相关系数接近于0,所以D正确.
故选:ACD.
18.某制药公司为了研究某种治疗高血压的药物在饭前和饭后服用的药效差异,随机抽取了200名高血压患者开展试验,其中100名患者饭前服药,另外100名患者饭后服药,随后观察药效,将试验数据绘制成如图所示的等高条形图,已知,且,则下列说法正确的是( )
A.饭前服药的患者中,药效强的频率为
B.药效弱的患者中,饭后服药的频率为
C.在犯错误的概率不超过0.01的条件下,可以认为这种药物饭前和饭后服用的药效有差异
D.在犯错误的概率不超过0.01的条件下,不能认为这种药物饭前和饭后服用的药效有差异
【答案】AC
【分析】根据等高条形图即可得饭前饭后药效强和弱的人数,即可判断AB,计算卡方与临界值比较即可判断CD.
【详解】对于A,饭前服药的100名患者中,药效强的有80人,所以频率为,故A正确;
对于B,饭前服药的有20人药效弱,饭后服药的有70人药效弱,所以药效弱的有90名患者,饭后服药的频率为,故B错误;
对于C,D,因为,
故在犯错误的概率不超过0.01的条件下,可以认为这种药物饭前和饭后服用的药效有差异,故C正确,D错误.
故选:AC
19.以下四个命题,其中不正确的是( )
A.在对吸烟与患肺病这两个分类变量的独立性检验中,(参考数据:) 若的观测值满足,那么在100个吸烟的人中约有99人患有肺病
B.两个随机变量的线性相关性越强,相关系数就越接近于1
C.对于独立性检验,的观测值越大,判定“两变量有关系”的把握越大
D.回归方程对应的直线至少经过其样本数据点中的一个点
【答案】ABD
【分析】根据独立性检验以及回归直线相关知识逐项分析判断.
【详解】对于选项A、B:的观测值越大,判定“两变量有关系”的可能性越大,故C正确
若的观测值满足,则有的可能性认为两者有关,故A不正确;
对于选项B:两个随机变量的线性相关性越强,相关系数的绝对值就越接近于1,故B不正确;
对于选项D:因为数据点均匀分布在回归方程的两侧,不一定在回归方程上,故D不正确;
故选:ABD.
20.“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有多亿元的餐桌浪费,被倒掉的食物相当于亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了位来店就餐的客人,制成如下表所示的列联表,通过计算得到的观测值为已知,,则下列判断正确的是( )
.
A.在该餐厅用餐的客人中大约有的客人认可“光盘行动”
B.在该餐厅用餐的客人中大约有的客人认可“光盘行动”
C.有的把握认为“光盘行动”的认可情况与年龄有关
D.在犯错误的概率不超过的前提下,认为“光盘行动”的认可情况与年龄有关
【答案】AC
【分析】根据列联表求出客人认可“光盘行动”的频率,可判断AB;再根据的观测值的范围并结合临界值,可判断CD.
【详解】由列联表得到在该餐厅用餐的客人中,客人认可“光盘行动”的频率约为,
由频率估计概率得,在该餐厅用餐的客人中大约有的客人认可“光盘行动”,故A正确,B错误;
因为的观测值为,且,
故有的把握认为“光盘行动”的认可情况与年龄有关,
或者说在犯错误的概率不超过的前提下,认为“光盘行动”的认可情况与年龄有关,故C正确,D错误.
故选:AC.
21.如图是从2013年到2018年六年间我国公共图书馆业机构数与对应年份编号的散点图(为便于计算,将2013年编号为1,2014年编号为2,…,2018年编号为6,把每年的公共图书馆业机构数作为预报变量,把年份编号作为解释变量进行回归分析),得到回归直线方程为,其相关系数,下列结论正确的是( )
A.公共图书馆业机构数与年份编号的正相关性较强
B.在2014—2018年间,2016年公共图书馆业机构数增加量最多
C.公共图书馆业机构数平均每年约增加14
D.可预测2022年公共图书馆业机构数为3232
【答案】AC
【分析】根据散点图和回归方程逐个分析判断即可.
【详解】因为散点图中各点散布在从左下角到右上角的区域内,所以为正相关,因为接近于1,所以公共图书馆业机构数与年份编号的相关性较强,故A正确;
由图可知,在2014—2018年间,2015年公共图书馆业机构数增加量最多,故B错误;
因为回归直线的斜率为13.743,所以公共图书馆业机构数平均每年约增加14,故C正确;
将代入回归直线方程,解得,所以可预测2022年公共图书馆业机构数为,故D错误.
故选:AC
22.若冬季昼夜温差x(单位:)与某新品种反季节大豆的发芽数量y(单位:颗)具有线性相关关系,根据一组样本数据,用最小二乘法近似得到线性回归方程为,则下列结论中正确的是( )
A.y与x具有正相关关系
B.相应于点的残差为
C.若冬季昼夜温差的大小为,则该新品种反季节大豆的发芽数一定是35颗
D.若冬季昼夜温差增加1 ℃,则该新品种反季节大豆的发芽数约增加3.8颗
【答案】ABD
【分析】根据线性回归方程的相关计算,结合题意,进行逐一分析即可.
【详解】对A,因为回归直线的斜率为3.8,所以与具有正相关关系,A正确;
对B,当时,,则残差为,B正确;
对C,回归直线方程只可预测,不是确定的值,故C错误.
对D,冬季昼夜温差增加,则发芽数量的增加量即为回归直线方程的斜率,
则该新品种反季节大豆的发芽数约增加3.8颗,D正确;
故选:ABD.
23.在一次独立性检验中得到如下列联表:
已知,,根据上面的列联表,若依据小概率值的独立性检验,可以认为这两个分类变量A和B没有关系,则下列选项中m可能取到的为( )
A.200B.720C.100D.800
【答案】BD
【分析】根据每个选项中m的值,计算的值,根据独立性检验的基本思想,即可判断答案.
【详解】由题意得,
对于A,当时,,
对于B,当时,,
对于C,当时,,
对于D,当时,,
故只有B,D符合题意,可以认为这两个分类变量A和B没有关系,
故选:BD
24.某同学将收集到的六组数据制作成散点图如图所示,并得到其回归直线的方程为,计算其相关系数为.经过分析确定点F为“离群点”,把它去掉后,再利用剩下的5组数据计算得到回归直线的方程为,相关系数为,以下结论中,正确的是( )
A.B.
C.D.
【答案】ACD
【分析】去掉“离群点”F后,两变量的线性相关性更强,由此可判断A,B的正误;回归直线必经过样本中心点,可求,判断C的正误;回归直线必经过样本中心点,可求,判断D的正误.
【详解】由题图可知两变量呈现正相关,故,,故A正确;
去掉“离群点”F后,两变量的线性相关性更强,故,故B错误;
设去掉“离群点”F前的样本中心点为,
由散点图可得:,,
可知回归直线必经过样本中心点,
所以,故C正确;
设去掉“离群点”F后的样本中心点为,
由散点图可得:,,
回归直线必经过样本中心点,
所以,得,即,故D正确,
故选:ACD.
三、填空题
25.下列命题:
①线性回归直线必过样本数据的中心点;
②如果两个变量的相关性越强,则相关性系数r就越接近于1;
③当相关性系数时,两个变量正相关;
④残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;
⑤甲、乙两个模型的分别约为0.88和0.80,则模型乙的拟合效果更好.
其中正确的命题有 .(填序号)
【答案】①③
【分析】根据回归直线方程的性质与相关系数的概念及相关指数的概念判断即可;
【详解】解:①线性回归直线必过样本数据的中心点,正确;
②如果两个变量的相关性越强,则相关性系数就越接近于1,不正确,
应为相关性系数的绝对值就越接近于1;
③当相关性系数时,两个变量正相关,正确;
④残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,不正确;
⑤甲、乙两个模型的分别约为0.88和0.80,则模型乙的拟合效果更好,不正确,
应为模型甲的拟合效果更好.
故答案为:①③
26.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶震生产产量(单位:万盒)的数据如表所示:若线性相关,线性回归方程为,则当时,的预测值为 万盒.
【答案】
【分析】根据样本中心点求得,进而求得预测值.
【详解】,
所以,所以,
当时,万盒.
故答案为:
27.已知的取值如下表:
根据表中的数据求得关于的回归直线方程为,则表中第2个记录数据的残差 .
【答案】
【分析】利用回归方程求出时的预测值,再求出残差作答.
【详解】关于的回归直线方程为,当时,,
所以表中第2个记录数据的残差.
故答案为:
28.某食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关关系,在市场上收集到了一部分不同年份的该酒品,并测定了其芳香度(如下表).
由最小二乘法得到线性回归方程,但不小心在检测后滴到表格上一滴检测液,污损了一个数据,请你推断该数据为 .
【答案】
【分析】根据回归方程过样本中心点,结合表格数据可构造方程求得污损数据.
【详解】由表格数据知:,
设污损的数据为,则,
,解得:,即污损的数据为.
故答案为:.
29.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到χ2=≈4.844,因为χ2>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性最大为 .
附:
【答案】5%
【分析】根据临界值表结合已知数据分析判断
【详解】因为,
所以依据小概率值的独立性检验,认为主修统计专业与性别有关,出错的可能性最大为5%.
故答案为:5%.
30.某池塘中水生植物的覆盖水塘面积x(单位:)与水生植物的株数y(单位:株)之间的相关关系,收集了4组数据,用模型去拟合x与y的关系,设,x与z的数据如表格所示:
得到x与z的线性回归方程,则 .
【答案】
【分析】根据已知条件,求得,进而代入回归方程可求得,从而得出,联立,即可求得本题答案.
【详解】由已知可得,,,
所以,有,解得,
所以,,
由,得,
所以,,则.
故答案为:
四、解答题
31.新疆农科所在土壤环境不同的A、B两块实验地分别种植某品种的棉花,为了评价该品种的棉花质量,在棉花成熟后,分别从A、B两地的棉花中各随机抽取40根棉花纤维进行统计,结果如表:(记纤维长度不低于300mm的为长纤维,其余为短纤维).
由以上统计数据,填写下面2×2列联表,并依据的独立性检验,分析纤维长度与土壤环境是否有关.
单位:根
附:.
【答案】列联表见解析,纤维长度与土壤环境有关
【分析】根据题中数据填写2×2列联表,计算的值,再与临界值比较即可得出结论.
【详解】根据已知数据得到2×2列联表如下:
所以,
因为,
所以依据的独立性检验,可以认为纤维长度与土壤环境有关.
32.年北京冬奥会的成功申办与“亿人上冰雪”庄严承诺的提出,推动了冰雪运动的普及与发展.北京某大学计划在一年级开设冰球课程,为了解学生对冰球运动的兴趣,随机从该校一年级学生中抽取了人进行调查,其中女生人,且女生中对冰球运动有兴趣的占,而男生中有人表示对冰球运动没有兴趣.
(1)完成列联表
(2)能否有的把握认为“对冰球是否有兴趣与性别有关”?
附表:
【答案】(1)列联表见解析
(2)有的把握认为“对冰球是否有兴趣与性别有关”
【分析】(1)计算出女生中对冰球有兴趣的人数后,即可补全列联表;
(2)根据列联表可计算求得,对比临界值表可得结论.
【详解】(1)由题意知:女生中对冰球有兴趣的有人,则没兴趣的有人,
则列联表如下:
(2)由列联表数据可得:,
有的把握认为“对冰球是否有兴趣与性别有关”.
33.垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某省为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据,其中和分别表示第i个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得:,,,,.
(1)求这20个县年垃圾产生总量的平均值;
(2)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合.(当时,与的相关关系较强,否则相关关系较弱.)
参考公式:相关系数.
【答案】(1)
(2)理由见解析
【分析】(1)根据直接计算可得;
(2)根据所给数据计算出相关系数,即可说明.
【详解】(1)依题意这个县年垃圾产生总量的平均值为(吨).
(2)依题意,
因为与的相关系数接近,所以与之间具有较强的线性相关关系,可用线性回归模型进行拟合.
34.某学校共有名学生参加知识竞赛,其中男生人,为了解该校学生在知识竞赛中的情况,采用分层随机抽样的方法抽取了名学生进行调查,分数分布在分之间,根据调查的结果绘制的学生分数频率分布直方图如图所示.将分数不低于分的学生称为“高分选手”.
(1)求的值;
(2)若样本中属于“高分选手”的女生有人,试完成列联表,依据的独立性检验,能否认为该校学生属于“高分选手”与“性别”有关联?
(参考公式:,其中)
【答案】(1)
(2)表格见解析,认为该校学生属于“高分选手”与性别有关联.
【分析】(1)根据频率分布直方图中所有小矩形的面积之和为得到方程,解得即可;
(2))完善列联表,计算出卡方,即可判断.
【详解】(1)由题意知,解得;
(2)由题可知,样本中男生人,女生人,
属于“高分选手”的有人,其中女生人,
得出以下列联表:
零假设为该校学生属于“高分选手”与性别无关联,
根据表中数据,经计算得到,
∴根据小概率值的独立性检验,我们推断不成立,即认为该校学生属于“高分选手”与性别有关联.
35.“绿水青山就是金山银山”的生态文明发展理念已经深入人心,这将推动新能源汽车产业的迅速发展,下表是近几年我国某地区新能源乘用车的年销售量与年份的统计表:
某机构调查了该地区30位购车车主的性别与购车种类情况,得到的部分数据如下表所示:
(1)求新能源乘用车的销量y关于年份x的相关系数r,并判断y与x是否线性相关;
(2)请将上述2×2列联表补充完整,并依据χ2的值判断,购车车主购置新能源乘用车与性别是否有关.
附:.
【答案】(1)0.94,y与x线性相关
(2)表格见解析,有90%的把握认为购车车主是否购置新能源乘用车与性别有关
【分析】(1)根据相关系数公式进行运算判断即可;
(2)根据已知完成列联表,结合χ2公式进行运算判断即可.
【详解】(1)依题意,
,
,
,
,
则,
|r|≈0.94接近于1,故y与x线性相关;
(2)依题意,完善表格如下:
则χ2=,
故有90%的把握认为购车车主是否购置新能源乘用车与性别有关.
36.某高校共有15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:h).
(1)应收集多少位女生样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图如图所示,其中样本数据分组区间为:.估计该校学生每周平均体育运动时间超过4个小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4个小时.请制作每周平均体育运动时间与性别的列联表,并判断是否有的把握认为“该校学生的每周平均体育运动时间与性别有关”.
【答案】(1)
(2)
(3)列联表见解析,有的把握认为“该校学生的每周平均体育运动时间与性别有关”.
【分析】(1)根据分层抽样比公式进行求解即可;
(2)根据频率分布直方图,结合题意直、对立事件的概率公式接进行求解即可;
(3)结合(1)的数据制作列联表,根据卡方运算公式进行运算判断即可.
【详解】(1)因为运用分层抽样的方法,
所以女生样本数据个数为;
(2)学生每周平均体育运动时间不超过4个小时的概率为:,
所以该校学生每周平均体育运动时间超过4个小时的概率;
(3)由(1)可知男生人数为,
由(2)可知该校学生每周平均体育运动时间超过4个小时的概率,
所以有人,
因此学生每周平均体育运动时间不超过4个小时的人数为,
因此列联表如下:
因为,
所以有的把握认为“该校学生的每周平均体育运动时间与性别有关”.
37.某高中生参加社会实践活动,对某公司1月份至5月份销售的某种配件的销售量及销售单价进行了调查,销售单价和销售量之间的一组数据如下表所示:
(1)由上表数据知,可用线性回归模型拟合与的关系,请用相关系数加以说明;(精确到0.01)
(2)求出关于的线性回归方程;
(3)预计在今后的销售中,销售量与销售单价仍然服从(2)中的关系,如果该种配件的成本是2.5元/件,那么该种配件的销售单价应定为多少元才能获得最大利润?(注:利润销售收入成本)
参考公式:相关系数,线性回归方程的斜率和截距的最小二乘法估计分别为.
参考数据:
【答案】(1)答案见解析
(2)
(3)7.5元
【分析】(1)根据所给公式及数据求出相关系数,即可判断;
(2)根据所给公式及数据求出、,即可得到回归方程;
(3)设销售利润为,则,,再根据二次函数的性质计算可得.
【详解】(1)解: ,,,
由于与的相关系数近似为,说明与的线性相关程度相当高,
从而可以用线性回归模型拟合与的关系.
(2)解:,,
又,,
关于的线性回归方程为.
(3)解:设销售利润为,则,
整理得,
所以当时,故该配件的销售单价应定为元才能获得最大利润.
38.随着我国经济的发展,人民的生活质量日益提高,对商品的需求也日益增多.商家销售商品,既满足顾客需要,又为商家创造效益,是一种相互依存的合作关系.为较好地达到这个目的,商家需要运用数学模型分析商品销售的规律并确定最优的销售价格.某商店以每件2元的价格购进一种小商品,经过一段时间的试销后,得到下表的统计数据:
(1)由上表数据知,可用线性回归模型拟合y与的关系,请用相关系数加以说明;(精确到0.01)
(2)求关于的线性回归方程;
(3)试问商家将每件售价定为多少元时,可使其获得最大日利润?(结果保留整数)
附;相关系数,线性回归方程的斜率和截距的最小二乘法估计分别为,.
参考数据:,,,.
【答案】(1)答案见解析
(2)
(3)6元
【分析】(1)根据相关系数的公式和性质进行求解判断即可;
(2)根据题中所给的公式和数据进行求解即可;
(3)根据二次函数的性质进行求解即可.
【详解】(1)相关系数,
由于接近于1,
故与的线性相关程度相当大,
从而可以用线性回归模型拟合与的关系;
(2)由表知,,,
又,
∴,
∴关于的线性回归方程为;
(3)设商家的日利润为元,
则,
该二次函数的对称轴方程为,
∴当售价定为每件6元时,商家可获得最大日利润.
39.某公司是一家集无人机特种装备的研发、制造与技术服务的综合型科技创新企业,产品主要应用于森林消防、物流运输、航空测绘、军事侦察等领域,获得市场和广大观众的一致好评,该公司生产的甲、乙两种类型无人运输机性能都比较出色,但操控水平需要十分娴熟,才能发挥更大的作用.该公司分别收集了甲、乙两种类型无人运输机在5个不同的地点测试的某项指标数,,数据如下表所示:
(1)试求y与x间的相关系数r,并利用r说明y与x是否具有较强的线性相关关系;(若,则线性相关程度很高)
(2)从这5个地点中任抽2个地点,求抽到的这2个地点,甲型无人运输机指标数均高于乙型无人运输机指标数的概率.
附:相关公式及数据:,.
【答案】(1)0.95,y与x具有较强的线性相关关系
(2).
【分析】(1)利用相关系数的公式计算求解,判断即可.
(2)由列举法并利用古典概型求概率
【详解】(1),,
所以,
由于,
相关系数,
因为,所以y与x具有较强的线性相关关系.
(2)将地点1,2,3,4,5分别记为A,B,C,D,E,任抽2个地点的可能情况有,,,,,,,,,,共10种情况,
其中在地点3,4,5,甲型无人运输机指标数均高于乙型无人运输机指标数,即,,3种情况,
故所求概率为.
40.为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下:
(1)在图中作出繁殖个数y关于天数x变化的散点图,并由散点图判断(a,b为常数)与(,为常数,且,)哪一个适宜作为繁殖个数y关于天数x变化的回归方程类型?(给出判断即可,不必说明理由)
(2)对于非线性回归方程(,为常数,且,),令,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值.
①证明:“对于非线性回归方程,令,可以得到繁殖个数的对数z关于天数x具有线性关系(即,β,α为常数)”;
②根据(1)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小数).
附:对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘估计分别为,.
【答案】(1)作图见解析,选择为回归方程较适宜
(2)① 证明见解析;②
【分析】(1)根据散点图,结合一次函数和指数型函数图象的特征进行判断即可;
(2)①根据对数与指数的互化公式进行求解即可;
②利用题中所给的数据和公式进行求解即可.
【详解】(1)作出散点图如图所示.
由散点图看出样本点分布在一条指数型曲线的周围,
故选择为回归方程较适宜;
(2)①由已知,,则,
则,,即.所以繁殖个数的对数z关于天数x具有线性关系.
②由①知繁殖个数的对数z关于天数x可以用线性回归方程来拟合.
由表中数据可得,
,
则z关于x的线性回归方程为.
又,
因此细菌的繁殖个数y关于天数x的非线性回归方程为.
41.近几年,电商的蓬勃发展带动了快递行业的迅速增长.为了获得更大的利润,某快递公司在城市的网点对“一天中收发一件块递的平均成本(单位:元)与当天揽收的快递件数(单位:千件)之间的关系”进行调查研究,得到相关数据如下表:
根据以上数据,技术人员分别根据甲、乙两种不同的回归模型,得到两个经验回归方程:方程甲:,方程乙:.
(1)为了评价两种模型的拟合效果,完成以下问题:
①根据上表数据和相应回归方程,将以下表格填写完整(结果保留一位小数):
(各注:称为相应于点的随机误差)
②分别计算模型甲与模型乙的随机误差平方和,并依此判断哪个模型的拟合效果更好.
(2)已知该快递网点每天能揽收的快递件数(单位:千件)与揽收一件快递的平均价格(单位:元)之间的关系是,根据(1)中拟合效果较好的模型建立的回归方程解决以下问题:
①若一天揽收快递6千件,则当天总利润的预报值是多少?
②为使每天获得的总利润最高,该快递网点应该将揽收一件快递的平均价格定为多少?(备注:利润=价格-成本)
【答案】(1)①表格见解析;②,,模型乙的拟合效果较好
(2)①元;②6.75元
【分析】(1)根据题意,利用其给出的公式,完成表格以及误差平方和,通过比较,可得答案;
(2)根据题意,建立总利润的函数解析式,根据其求得函数值,结合函数单调性求得最值.
【详解】(1)(1)①表中数据填写如下:
②计算可得:
,
.
因为,所以模型乙的拟合效果较好.
(2)解法一:
①设每天获得的总利润为,则
当时,由回归方程得.
由得,
所以总利润的预报值(元).
②由,
则,
所以当时,取得最大值,此时,
所以当揽收平均价格定为6.75元时,该网点一天的总利润最大.
解法二:
①每天获得的总利润为,则
当时,由回归方程得.
由得,
所以总利润的预报值(千元)
②设揽收一件快递的平均价格为元,
由,得揽收快递件数,
所以,平均成本,
所以每天获得的总利润为
.
当时,该快递网点每天获得的总利润最大,
所以当揽收平均价格定为元时,该网点一天的总利润最大.
42.如图是某采矿厂的污水排放量(单位:吨)与矿产品年产量(单位:吨)的折线图:
(1)依据折线图计算相关系数(精确到0.01),并据此判断是否可用线性回归模型拟合与的关系?(若,则线性相关程度很高,可用线性回归模型拟合)
(2)若可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测年产量为10吨时的污水排放量.
相关公式,
参考数据:.回归方程中,.
【答案】(1)0.95,可用线性回归模型拟合与的关系
(2),5.5吨
【分析】(1)利用公式计算出相关系数,从而作出判断;
(2)利用公式计算出,得到线性回归方程,并代入,求出答案.
【详解】(1)由折线图得如下数据计算,得,
,
,
所以相关系数,
因为,所以可用线性回归模型拟合与的关系;
(2),
所以回归方程为,当时,,
所以预测年产量为10吨时的污水排放量为5.5吨.
43.耐盐碱水稻俗称“海水稻”,是一种可以长在滩涂和盐碱地的水稻.还水稻的灌溉是将海水稀释后进行灌溉.某实验基础为了研究海水浓度()对亩产量(吨)的影响,通过在试验田的种植实验,测得了某种还水稻的亩产量与海水浓度的数据如下表:
绘制散点图发现,可用线性回归模型拟合亩产量与海水浓度之间的相关关系,用最小二乘法计算得与之间的线性回归方程为.
(1)求出的值,并估算当浇灌海水浓度为8%时该品种的亩产量.
(2)①完成下列残差表:
②统计学中常用相关指数来刻画回归效果,越大,模型拟合效果越好,如假设,就说明预报变量的差异有是由解释变量引起的.请计算相关指数(精确到0.01),并指出亩产量的变化多大程度上是由浇灌海水浓度引起的.
(附:残差公式,相关指数,参考数据)
【答案】(1) 亩产量为吨.(2) ①见解析; ②亩产量的变化有98%是由海水浓度引起的
【分析】(1)计算、,代入线性回归方程求得的值,写出回归方程,再利用回归方程预测时的值;
(2)①根据公式计算并填写残差表;②由公式计算相关指数,结合题意得出统计结论.
【详解】解:(1)经计算
由可得
当时,,
所以当海水浓度为时,该品种的亩产量为吨.
(2)①由(1)知,从而有残差表如下
②
所以亩产量的变化有98%是由海水浓度引起的
【点睛】本题考查了线性回归直线方程与相关系数的应用问题,属于基础题.
【B组 在综合中考查能力】
一、单选题
1.已知某公司产品的广告投入(万元)与利润(万元)的一组数据如表所示
利润与广告投入之间具有较强的线性相关关系,其线性回归直线方程是,据此模型估计广告投入为9万元时,利润约为( )
A.112万元B.114.5万元C.115万元D.115.5万元
【答案】B
【分析】先求出x,y的平均值,再结合线性回归方程过样本中心,即可求出线性回归方程,再将代入该方程,即可求解.
【详解】由表格的数据可得,,
线性回归直线方程是,
,,
当时,,
故广告投入为9万元时,利润约为114.5万元.
故选:B.
2.疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考查某种疫苗预防效果,在进行动物试验时,得到如下统计数据:
现从试验动物中任取一只,取得“注射疫苗”的概率为,则下列判断错误的是( )
公式:
.A.注射疫苗发病的动物数为10
B.从该试验未注射疫苗的动物中任取一只,发病的概率为
C.有99%的把握判断注射疫苗与是否发病有关联
D.有95%的把握判断注射疫苗与是否发病有关联
【答案】D
【分析】根据题意结合列联表以及独立性检验的概念逐项分析判断.
【详解】因为从试验动物中任取一只,取得“注射疫苗”的概率为,
所以“注射疫苗”的试验动物有只,
根据题意可得列联表为:
对于选项A:注射疫苗发病的动物数为10,故A正确;
对于选项B:从该试验未注射疫苗的动物中任取一只,发病的概率为,故B正确;
对于选项C、D:因为,
所以有99%的把握判断注射疫苗与是否发病有关联,故C正确,D错误;
故选:D.
3.下列四个命题中,正确命题的个数为( )
①甲乙两组数据分别为:甲:28,31,39,42,45,55,57,58,66;;乙:,29,34,35,48,42,46,55,53,55,67.则甲乙的中位数分别为45和44.
②相关系数,表明两个变量的相关性较弱.
③若由一个列联表中的数据计算得的观测值,那么有99%的把握认为两个变量有关.
④用最小二乘法求出一组数据,的回归直线方程后要进行残差分析,相应于数据,的残差是指.
A.1B.2C.3D.4
【答案】B
【分析】求出两组数据的中位数判断①;利用相关系数的意义判断②;利用的观测值与要求的临界值对判断③;利用残差的意义判断④作答.
【详解】对于①,甲组数据的中位数为45,乙组数据的中位数为,①错误;
对于②,相关系数时,两个变量有很强的相关性,②错误;
对于③,的观测值约为,那么有99%的把握认为两个变量有关,③正确;
对于④,残差分析中,相应数据的残差,④正确,
所以命题正确的序号是③④.
故选:B.
4.在一次独立性检验中,得出2×2列联表如下:
且最后发现,两个分类变量A和B没有任何关系,则a的可能值是( )
A.200B.720C.100D.180
【答案】B
【分析】把列联表中所给的数据代入求的公式,建立不等式,代入验证可知a的可能值.
【详解】两个分类变量A和B没有任何关系,
,
代入选项验证可知满足条件.
故选:B
5.相关变量的样本数据如下表,
经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为,下列说法正确的是( )
A.x增加1时,y一定增加2.3B.变量x与y负相关
C.当y为6.3时,x一定是8D.a=5.2
【答案】D
【分析】根据回归直线方程的几何意义判断A、B错误;令求解判断C,计算并代入回归直线方程中,求得a的值,判断D正确.
【详解】根据回归直线方程知,x增加1时,估计y增加,故A错误;
由知,,故变量x与y正相关,故B错误;
时,,解得,估计的值应为8,故C错误;
又,,
代入回归直线方程中,则,解得,故D正确.
故选:D
6.已知x,y的取值如下表所示,从散点图分析可知y与x线性相关,如果线性回归方程为,则下列说法不正确的是( )
A.m的值为6.2
B.回归直线必过点(2,4.4)
C.样本点(4,m)处的残差为0.1
D.将此图表中的点(2,4.4)去掉后,样本相关系数r不变
【答案】C
【分析】根据平均数的定义及样本中心在经验回归直线方程上,利用残差的定义及样本相关系数的公式即可求解.
【详解】由题意可知,
所以样本中心为,
将点代入,可得,解得,故A正确;
由,得样本中心为,所以回归直线必过点(2,4.4),故B正确;
当时,,
由,得样本点处的残差为,故C错误;
因为样本中心为,
所以
由相关系数公式知, ,将此图表中的点(2,4.4)去掉后,样本相关系数r不变,故D正确;
故选:C.
7.针对时下的“航天热”,某校团委对“是否喜欢航天与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢航天的人数占男生人数的,女生中喜欢航天的人数占女生人数的,若依据的独立性检验,认为是否喜欢航天与学生性别有关,则被调查的学生中男生的人数不可能为( )
A.25B.45C.60D.75
【答案】A
【分析】利用独立性检验卡方的计算公式求得,从而得到关于的不等式,由此得解.
【详解】依题意,设男生的人数为,根据题意列出列联表如下所示:
则,
∵依据的独立性检验,认为是否喜欢航天与学生性别有关,
∴,即,得,
∴,又,∴结合选项知B、C、D都可以.
故选:A.
8.杂交水稻之父袁隆平,推进粮食安全,消除贫困,造福民生做出杰出贡献,他在杂交水稻育种的某试验中,第1个周期到第5个周期育种频数如下
由表格可得关于的二次回归方程为,则此回归模型第2周期的残差(实际值与预报值之差)为( )
A.0B.1C.4D.5
【答案】B
【分析】令则回归方程为,符合线性回归,计算中心点代入方程求得,继而得到回归方程,算出预估值,即可求出残差.
【详解】令则回归方程为,符合线性回归,
周期数的平均数,
频数的平均数,
则中心点为,代入,
可得,则,
所以,
当时的预估值为,
则第2周期的残差为,
故选:B.
二、多选题
9.某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下所示的列联表,经计算,则可以推断出( )
A.该学校男生对食堂服务满意的概率的估计值为
B.调研结果显示,该学校男生比女生对食堂服务更满意
C.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.05
D.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.01
【答案】AC
【分析】根据统计的数据,用频率估计概率可得该学校男、女生对食堂服务满意的概率的估计值;题目的条件中已经给出这组数据的观测值,我们只要把所给的观测值同节选的观测值表进行比较,发现它大于,有的把握认为男、女生对该食堂服务的评价有差异.
【详解】对于A,该学校男生对食堂服务满意的概率的估计值为,故A正确;
对于B,该学校女生对食堂服务满意的概率的估计值为>,故B错误;
因为认为男、女生对该食堂服务的评价有差异,此推断犯错误的概率不超过0.05,故C正确,D错误.
故选:AC.
10.某学习小组收集了7组样本数据(如下表所示):
他们绘制了散点图并计算样本相关系数,发现与有比较强的线性相关关系.若关于的经验回归方程为,则( )
A.与呈正相关关系
B.
C.当时,的预测值为3.3
D.去掉样本点后,样本相关系数不变
【答案】ABD
【分析】首先求,根据样本中心求回归直线方程,即可判断选项.
【详解】由数据可知,,,样本点中心必在回归直线上,
所以,得,故AB正确;
,当时,,故C错误;
因为是样本点中心,,所以去掉这一项,样本相关系数不变,故D正确.
故选:ABD
11.总和生育率有时也简称生育率,是指一个人口群体的各年龄别妇女生育率的总和.它反映的是一名妇女在每年都按照该年龄别现有生育率生育的假设下,在育龄期间生育的子女总数.为了了解中国人均GDPx(单位:万元)和总和生育率y以及女性平均受教育年限z(单位:年)的关系,采用2012~2022近十年来的数据绘制了散点图,并得到经验回归方程,,对应的决定系数分别为,,则( )
A.人均GDP和女性平均受教育年限正相关.
B.女性平均受教育年限和总和生育率负相关
C.
D.未来三年总和生育率一定继续降低
【答案】AB
【分析】根据回归方程判断A,写出女性平均受教育年限和总和生育率的关系式,从而判断B,根据散点图的拟合效果判断C,由回归方程可预测未来趋势,但实际值不一定会持续降低,从而判断D.
【详解】由回归方程知人均GDP和女性平均受教育年限正相关,故A正确;
因为,,
可得女性平均受教育年限z和总和生育率y的关系式为,
所以女性平均受教育年限z和总和生育率y负相关,故B正确;
由散点图可知,回归方程相对拟合效果更好,
所以,故C错误;
根据回归方程预测,未来总和生育率预测值有可能降低,
但实际值不一定会降低,故D错误.
故选:AB
12.下列命题正确的是( )
A.若样本数据的方差为2,则数据的方差为8
B.以模型去拟合一组数据时,为了求出经验回归方程,设,求得线性回归方程为,则的值分别是和4
C.若某校高三(1)班8位同学身高(单位)分别为:,则这组数据的上四分位数(即第75百分位数)为174
D.根据变量与的样本数据计算得到,根据的独立性检验,可判断与有关,且犯错误的概率不超过0.05
【答案】AB
【分析】根据可判断A;对两边同时取对数可得可判断B;从小到大排列这组数据,由第75百分位数计算可判断C;可判断D.
【详解】对于A,根据可得数据的方差为,故A正确;
对于B,对两边同时取对数可得,因为,所以
,所以的值分别是和4,故B正确;
对于C,从小到大可得这组数据为,,则这组数据的上四分位数(即第75百分位数)为,故C错误;
对于D,因为,在犯错误的概率不超过0.05的情况下,可判断与无关,故D错误.
故选:AB.
三、填空题
13.在研究硝酸钠的可溶性程度时,观测它在不同温度(单位:)的水中的溶解度(单位:),得到如下观测结果:
由此得到回归直线的斜率是 .
【答案】
【分析】求出、的值,将表格中的数据代入最小二乘法公式,可求得回归直线的斜率.
【详解】由表格中的数据可得,
,
,
,
所以,回归直线的斜率为.
故答案为:.
14.某单位为了调查性别与对工作的满意程度是否具有相关性,随机抽取了若干名员工,所得数据统计如下表所示,其中,且,若有90%的把握可以认为性别与对工作的满意程度具有相关性,则的值是 .
附:,其中.
【答案】或
【分析】由列不等式,由此求得的取值范围,进而确定正确答案.
【详解】补全列联表如下:
依题意,,
解得,而,所以的值为或.
故答案为:或
15.对于数据组,如果由经验回归方程得到的对应自变量的估计值是,那么将称为对应点的残差.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到如下所示数据:
根据表中的数据,得到销量(单位:件)与单价(单位:元)之间的经验回归方程为,据计算,样本点处的残差为,则 .
【答案】75
【分析】先根据样本点处的残差为,求出,再根据在经验回归方程上可得.
【详解】根据样本点处的残差为,得,得,
所以,
,,
由,得
故答案为:75
16.已知某品牌的新能源汽车的使用年限(单位:年)与维护费用(单位:千元)之间可以用模型去拟合,收集了4组数据,设与的数据如表格所示:
利用最小二乘法得到与的线性回归方程,则 .
【答案】
【分析】求出、代入可得,由得,与比较可得答案.
【详解】,,
代入可得,
由得,即,
而,所以,,得,
则.
故答案为:.
四、解答题
17.为了研究学生每天整理数学错题情况,某课题组在某市中学生中随机抽取了100名学生调查了他们期中考试的数学成绩和平时整理数学错题情况,并绘制了下列两个统计图表,图1为学生期中考试数学成绩的频率分布直方图,图2为学生一个星期内整理数学错题天数的扇形图.若本次数学成绩在110分及以上视为优秀,将一个星期有4天及以上整理数学错题视为“经常整理”,少于4天视为“不经常整理”.已知数学成绩优秀的学生中,经常整理错题的学生占.
(1)求图1中的值以及学生期中考试数学成绩的上四分位数;
(2)根据图1、图2中的数据,补全上方列联表,并根据小概率值的独立性检验,分析数学成绩优秀与经常整理数学错题是否有关?
附:
【答案】(1),分
(2)列联表见详解,数学成绩优秀与经常整理数学错题有关
【分析】(1)根据频率和为1运算求的值,再结合上四分位数的概念运算求解;
(2)根据题意补全列联表,结合题中数据和公式求,并与临界值对比分析.
【详解】(1)由题意可得:每组的频率依次为,
则,则,解得,
因为,
则学生期中考试数学成绩的上四分位数位于,设为,
可得,解得,
所以学生期中考试数学成绩的上四分位数为分.
(2)由题意可得:数学成绩优秀的人数为,数学成绩不优秀的人数为,
经常整理错题的人数为,不经常整理错题的人数为,
数学成绩优秀的学生中,经常整理错题的学生的人数为,
可得列联表为
零假设:数学成绩优秀与经常整理数学错题无关,
因为,
则零假设不成立,且犯错的可能性不大于,
所以数学成绩优秀与经常整理数学错题有关.
18.安顺市教育局为深入贯彻党的教育方针,全面落实《中共中央国务院关于全面加强新时代大中小学劳动教育的意见》,从2022年起,安顺市中小学积极推进劳动教育课程改革,某高中积极响应教育局安排,先后开发开设了具有安顺特色的烹饪、手工、园艺、职业体验、非物质文化遗产等劳动实践类校本课程,为调研学生对新开设劳动课程的满意度并不断改进劳动教育,该校从2022年1月到10月每两个月从全校3000名学生中随机抽取150名学生进行问卷调查,统计数据如下表:
(1)由表中看出,满意人数与月份之间存在很强的线性正相关关系,请用相关系数加以证明(一般认为时有很强的线性相关关系);并求关于的经验回归方程,请用该方程预测12月份该校全体学生中对劳动课程的满意人数;
(2)10月份时,该校为进一步深化劳动教育改革,了解不同性别的学生对劳动课程是否满意,经调研得如下统计表:
请根据的独立性检验,能否认为该校的学生性别与对劳动课程是否满意有关联?
参考公式:,;
,其中,,.
【答案】(1)证明见解析;;人
(2)有的把握性认为该校学生性别与对劳动课程是否满意有关.
【分析】(1)根据表格中的数据,结合公式,求得可得,得到变量关于的相关系很强,且关于正相关,进而求得,,得出回归直线方程,令,求得的值,进而得到结论;
(2)根据表格中的数据,求得,进而得到结论.
【详解】(1)解:由统计数据的表格,可得,
则,,
,
可得,
所以变量关于的相关系很强,且关于正相关,
又由,,
所以关于的回归直线方程为,
令,可得,
据此预测12月份该校全体学生对劳动课程的满意人数为人.
(2)解:提出假设:该校的学生性别与对劳动课程是否满意无关,
根据表格中的数据,可得,
因为,所以有的把握性认为该校学生性别与对劳动课程是否满意有关.
19.为了实现五育并举,鼓励学生在学好文化知识的同时也要锻炼好身体,某学校随机抽查了100名学生,统计他们每天参加体育运动的时间,并把他们之中每天参加体育运动时间大于或等于60分钟的记为“达标”,运动时间小于60分钟的记为“不达标”,统计情况如下图:
参考公式:;
参考数据:
(1)完成列联表,并判断能否在犯错误的概率不超过0.025的前提下认为“运动达标”与“性别”有关.
(2)现从“不达标”的学生中按性别用分层随机抽样的方法抽取6人,再从这6人中任选2人进行体育运动指导,求选中的2人都是女生的概率.
【答案】(1)列联表见解析,在犯错误的概率不超过0.025的前提下可以认为“运动达标”与“性别”有关;
(2)
【分析】(1)由题目数据可完成列联表,后由独立性检验相关知识可得答案;(2)由(1)结合题意可知女生4人,男生2人,后由古典概型相关知识可得答案.
【详解】(1)由题可得运动达标的男,女生分别为38,26人;运动不达标的男,女生为12,24人,据此可得列联表如下:
由参考公式可得:
,因,则在犯错误的概率不超过0.025的前提下可以认为“运动达标”与“性别”有关;
(2)由(1)可知6人中,男生有人,女生有人.
则6人抽取两人的总情况数:.全是女生的情况数为:.
则相应概率为:.
20.某通信公司为了更好地满足消费者对流量的需求,推出了不同定价的流量包,经过一个月的统计,获取了容量为万人的样本.同时为了进一步了解年龄因素是否对流量包价格有影响,统计了小于岁和大于等于岁两个年龄段人群的购买人数,收集数据整理如表所示.
表1
表2
(1)试根据这些数据建立购买总人数关于定价的经验回归方程,并估计定价为元/月的流量包的购买人数;
(2)若把元/月以下(不包括元)的流量包称为低价流量包,元/月以上(包括元)的流量包称为高价流量包,根据以上数据完成列联表,依据的独立性检验,判断年龄段和流量包价格是否有关联.附:
,,.
【答案】(1);约为万人
(2)没有关联,理由见解析
【分析】(1)计算出、的值,将表格中的数据代入最小二乘法公式,求出、的值,可得出回归直线方程,将代入回归方程,可得所求结果;
(2)完善列联表,计算出的观测值,结合临界值表可得出结论.
【详解】(1)解:由表格中的数据可得,,
,,
所以,关于的回归方程为,
当时,(万人),
因此,估计定价为元/月的流量包的购买人数约为万人.
(2)解:零假设年龄段和流量包价格没有关联,
由题中数据完善列联表如下表所示:
,
所以,依据小概率的独立性检验,我们推断成立,
即认为年龄段和流量包价格没有关联.
21.已知一系列样本点,,,,其中,.响应变量关于的线性回归方程为.对于响应变量,通过观测得到的数据称为观测值,通过线性回归方程得到的称为预测值,观测值减去预测值,称为残差,即,称为相应于点的残差.
参考公式:,,.
(1)证明:;
(2)证明:,并说明与线性回归模型拟合效果的关系.
【答案】(1)证明见解析
(2)证明见解析,越大时,线性回归模型拟合效果越好
【分析】(1)根据残差的定义结合回归方程证明即可,
(2)根据给出的相关系数公式,以及回归直线斜率和截距的最小二乘法,结合残差的定义证明.
【详解】(1)因为,
所以,且,,
所以,,
所以;
(2)根据给出的相关系数公式,以及回归直线斜率和截距的最小二乘估计,
可知,记,
所以,
且,
又,
所以,又,
所以,
且当越小时,相关性越强,线性回归模型拟合效果越好,
即越大时,线性回归模型拟合效果越好.
22.《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴,要大力推进数字乡村建设,推进智慧农业发展.某乡村合作社借助互联网直播平台进行农产品销售,众多网红主播参与到直播当中,在众多网红直播中,统计了名网红直播的观看人次和农产品销售量的数据,得到如图所示的散点图.
(1)利用散点图判断,和哪一个更适合作为观看人次和销售量的回归方程类型;(只要给出判断即可,不必说明理由)
(2)对数据作出如下处理:得到相关统计量的值如表:
其中令,.
根据(1)的判断结果及表中数据,求(单位:千件)关于(单位:十万次)的回归方程,并预测当观看人次为万人时的销售量;
参考数据和公式:,
附:对于一组数据、、、,其回归线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)更适合;
(2),预测当观看人次为万人时的销售量约为件.
【分析】(1)根据散点图中散点的分布情况可选择合适的回归模型;
(2)令,则,将表格中的数据代入最小二乘法公式,可求得、的值,进而可得出关于的回归方程,将代入回归方程可得出销售量.
【详解】(1)解:由散点图可知,散点分布在一条对数型曲线附近,所以选择回归方程更适合.
(2)解:令,则,
因为,,
所以,
又因为,,所以,
所以与的线性回归方程为,
故关于的回归方程为.
令,代入回归方程可得(千件)
所以预测观看人次为万人时的销售量约为件.
23.某公司对其产品研发的年投资额(单位:百万元)与其年销售量(单位:千件)的数据进行统计,整理后得到如下统计表:
(1)求变量和的样本相关系数(精确到),并推断变量和的线性相关程度;(若,则线性相关性程度很强;若,则线性相关性程度一般,若,则线性相关性程度很弱.)
(2)求年销售量关于年投资额的经验回归方程.并预测投资额为700万无时的销售量.(参考:)
参考:,,.
【答案】(1),变量和的线性相关程度很强;
(2),投资额为700万时的销售量为千件.
【分析】(1)计算出相关系数所需的数据,根据公式即可求出;
(2)根据公式即可求出与的值,即可得出回归方程.
【详解】(1)由题意,,,
,
,
,
,
,变量和的线性相关程度很强;
(2),,
年销售量关于年投资额的线性回归方程为.
当时,,
所以研发的年投资额为700万元时,产品的年销售量约为千件.
24.随机抽取10家航空公司,对其最近一年的航班正点率和顾客投诉次数进行了调查,所得数据如下:
(1)绘制散点图,说明二者之间的关系形态;
(2)若顾客投诉次数与航班正点率之间具有相关关系,求回归直线方程;
(3)如果航班正点率为80%,试估计顾客投诉次数.
【答案】(1)绘图见解析;
(2);
(3)约次.
【分析】(1)根据表格数据绘制散点图即可;
(2)应用最小二乘法求回归直线方程;
(3)由(2)所得回归方程,将代入估计顾客投诉次数.
【详解】(1)设轴为航班正点率,y轴为顾客投诉次数,散点图如下所示,
由图各点分布,两者呈某种负相关的线性关系.
(2)设回归直线方程为,又,
由,
,
,
,
所以,
故,即.
(3)由(2),当时,,
所以航班正点率为80%,估计顾客投诉约次.
25.流行性感冒(简称流感)是流感病毒引起的急性呼吸道感染,是一种传染性强、传播速度快的疾病.其主要通过空气中的飞沫、人与人之间的接触或与被污染物品的接触传播.流感每年在世界各地均有传播,在我国北方通常呈冬春季流行,南方有冬春季和夏季两个流行高峰.儿童相对免疫力低,在幼儿园、学校等人员密集的地方更容易被传染.某幼儿园将去年春季该园患流感的小朋友按照年龄与人数统计,得到如下数据:
(1)求关于的线性回归方程;
(2)计算变量的相关系数(计算结果精确到0.01),并回答是否可以认为该幼儿园去年春季患流感人数与年龄负相关很强?
附:回归方程中,,相关系数.
【答案】(1)
(2),该幼儿园去年春季患流感人数与年龄负相关很强
【分析】(1)计算相关数据代入公式求解;
(2)计算相关系数并判断相关性强弱.
【详解】(1),
,
,
,
,
,
所以与之间线性回归方程为.
(2),
则,
因为且非常接近,所以该幼儿园去年春季患流感人数与年龄负相关很强.
26.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件列出列联表,并判断是否有的把握认为“生产能手”与“工人所在的年龄组有关”?
【答案】(1)
(2)列联表答案见解析,有的把握认为“生产能手”与“工人所在的年龄组有关”
【分析】(1)由题中数据得出相应人数,再由古典概型求解;
(2)由题中数据列出列联表,计算卡方后判断.
【详解】(1)由已知得,样本中有25周岁以上(含25周岁)工人60名,25周岁以下工人40名.
所以样本中日平均生产件数不足60的工人中,25周岁以上(含25周岁)工人有(名),记为,,;
25周岁以下工人有(名),记为,.
从中随机抽取2名工人,所有的可能结果共有10种,它们是,,,,,,,,,;
其中,至少有一名25周岁以下工人的可能结果共有7种,它们是,,,,,,;
故所求概率.
(2)由题中频率分布直方图可知,在抽取的100名工人中,25周岁以上(含25周岁)的生产能手有(名),25周岁以下的生产能手有(名),据此可得列联表如下:
单位:名
且
零假设为:生产能手与工人所在的年龄组无关,
计算可得,
依据的独立性检验,没有充分证据推断不成立,因此认为成立,
所以有的把握认为“生产能手”与“工人所在的年龄组有关”.
27.一个车间为了估计加工某种新型零件所花费的时间,进行了10次试验,测得的数据如下:
(1)y与x之间是否具有相关关系?
(2)如果y与x之间具有相关关系,求回归直线方程.
(3)据此估计加工110个零件所用的时间.
【答案】(1)y与x之间具有显著的正相关关系
(2)
(3)128.44min
【分析】(1)画出散点图,根据散点图判断与之间的相关性;
(2)根据求回归直线方程的步骤求解;
(3)将代入回归直线方程,求出.
【详解】(1)根据表中的数据绘制下散点图:
显然,与是正线性相关的;
另:,
,
,,,
于是
,
因此y与x之间具有显著的正相关关系.
(2)设所求的回归直线方程为,则
,
,
即所求的回归直线方程为;
(3)当时,y的估计值.
因此,估计加工110个零件所用的时间为128.44min;
综上,与有正相关关系,回归方程为,价格110个零件大约需要分钟.
28.某新能源汽车制造公司,为鼓励消费者购买其生产的特斯拉汽车,约定从今年元月开始,凡购买一辆该品牌汽车,在行驶三年后,公司将给予适当金额的购车补贴.某调研机构对已购买该品牌汽车的消费者,就购车补贴金额的心理预期值进行了抽样调查,得其样本频率分布直方图如图所示.
参考公式:,
(1)估计已购买该品牌汽车的消费群体对购车补贴金额的心理预期值的平均数和中位数(精确到0.01);
(2)统计今年以来元月~5月该品牌汽车的市场销售量,得其频数分布表如上,预测该品牌汽车在今年6月份的销售量约为多少万辆?
【答案】(1)平均数的估计值为3.5万元,中位数的估计值为3.33万元.
(2)2万辆
【分析】(1)根据已知条件,结合平均数和中位数的公式,即可求解;
(2)根据已知条件,结合最小二乘法和线性回归方程的公式,即可求解线性回归方程,再将代入上式的线性回归方程中,即可求解.
【详解】(1)因为直方图的组距为1,则各组频率即为相应小矩形的高,
所以平均数的估计值为:万元.
因为,
所以中位数在区间内,设中位数为,
则有,解得,所以中位数的估计值为3.33万元.
(2)记,,
由散点图可知,5组样本数据呈线性相关关系,
因为,,
则有:,
,
所以,,
所以回归直线方程为,
当时,,
所以预测该品牌汽车在今年6月份的销售量约为2万辆.
29.为研究质量(单位:克)对弹簧长度(单位:厘米)的影响,对不同质量的6个物体进行测量,数据如表所示:
(1)作出散点图并求线性回归方程;
(2)求出;
(3)进行残差分析.
【答案】(1) 散点图见解析,回归方程为;(2);(3)见解析.
【分析】(1)以表中的数据分别作为点的横、纵坐标画出对应的点,即可得到散点图.然后根据表中的数据并结合所给公式求出线性回归方程.(2)根据题中的数据及(1)中的回归方程得到和的值,并列出表格,进一步得到和,最后根据公式可得.(3)从每个测量值的残差和所有测量值的残差分布两个方面作出分析即可.
【详解】(1)根据所给数据,作出散点图如图所示:
由表中的数据可得,
,
,
,
∴,
∴,
故所求回归直线方程为.
(2)由题意及(1)中的回归方程可得下表:
∴,,
∴.
(3)①由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;
②由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高.
由以上分析可知,弹簧长度与质量具有线性关系.
【点睛】(1)本题中涉及的计算较多,所以在解题中要注意计算的准确性,合理利用题中的数据求解.
(2)进行残差分析时,若残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,且这样的带状区域越窄这说明模型的拟合精度越高,回归方程的预报精度越高.另外利用也可刻画回归效果,当越大时说明拟合精度越高.
30.为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下:
(1)在图中作出繁殖个数y关于天数x变化的散点图,并由散点图判断(a,b为常数)与(,为常数,且,)哪一个适宜作为繁殖个数y关于天数x变化的回归方程类型?(给出判断即可,不必说明理由)
(2)对于非线性回归方程(,为常数,且,),令,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值.
①证明:“对于非线性回归方程,令,可以得到繁殖个数的对数z关于天数x具有线性关系(即,β,α为常数)”;
②根据(1)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小数).
附:对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘估计分别为,.
【答案】(1)作图见解析,选择为回归方程较适宜
(2)① 证明见解析;②
【分析】(1)根据散点图,结合一次函数和指数型函数图象的特征进行判断即可;
(2)①根据对数与指数的互化公式进行求解即可;
②利用题中所给的数据和公式进行求解即可.
【详解】(1)作出散点图如图所示.
由散点图看出样本点分布在一条指数型曲线的周围,
故选择为回归方程较适宜;
(2)①由已知,,则,
则,,即.所以繁殖个数的对数z关于天数x具有线性关系.
②由①知繁殖个数的对数z关于天数x可以用线性回归方程来拟合.
由表中数据可得,
,
则z关于x的线性回归方程为.
又,
因此细菌的繁殖个数y关于天数x的非线性回归方程为.
31.某研发小组为了解年研发资金投入量(单位:亿元)对年销售额(单位:亿元)的影响,结合近10年的年研发资金投入量和年销售额的数据(),建立了两个函数模型:①,②,其中,,,均为常数,为自然对数的底数.设,,经过计算得如下数据.
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,选择一个拟合程度更好的模型.
(2)根据(1)中选择的模型及表中数据,建立关于的线性回归方程(系数精确到0.01),根据线性回归方程,若当年的销售额大致为亿元,则估计当年的研发资金投入量为多少亿元.
参考公式:相关系数,
线性回归直线中斜率和截距的最小二乘法估计参数分别为,.
【答案】(1)模型的拟合程度更好
(2),8亿元
【分析】(1)根据题干所给数据求出相关系数为、即可判断;
(2)由(1)可得两边取对数可得,即,再由所给数据求出、,即可得到回归方程,再代入求出即可.
【详解】(1)由题意可知,
因为,所以从相关系数的角度,模型的拟合程度更好.
(2)因为,所以,即.
由题中数据可得,
则,从而关于的线性回归方程为,
故,即.
将年销售额亿元,代入,得,解得,
故估计当年的研发资金投入量为亿元.
32.2019年上半年我国多个省市暴发了“非洲猪瘟”疫情,生猪大量病死,存栏量急剧下降,一时间猪肉价格暴涨,其他肉类价格也跟着大幅上扬,严重影响了居民的生活.为了解决这个问题,我国政府一方面鼓励有条件的企业和散户防控疫情,扩大生产;另一方面积极向多个国家开放猪肉进口,扩大肉源,确保市场供给稳定.某大型生猪生产企业分析当前市场形势,决定响应政府号召,扩大生产,决策层调阅了该企业过去生产相关数据,就“一天中一头猪的平均成本与生猪存栏数量之间的关系”进行研究.现相关数据统计如下表:
(1)研究员甲根据以上数据认为与具有线性回归关系,请帮他求出关于的线性回归方程(保留小数点后两位有效数字)
(2)研究员乙根据以上数据得出与的回归模型:.为了评价两种模型的拟合结果,请完成以下任务:
①完成下表(计算结果精确到0.01元)(备注:称为相应于点的残差);
②分别计算模型甲与模型乙的残差平方和及,并通过比较与的大小,判断哪个模型拟合效果更好;
(3)根据市场调查,生猪存栏数量达到1万头时,饲养一头猪每一天的平均收入为7.5元;生猪存栏数量达到1.2万头时,饲养一头猪每一天的平均收入为7.2元.若按(2)中拟合效果较好的模型计算一天中一头猪的平均成本,问该生猪存栏数量选择1万头还是1.2万头能获得更多利润?请说明理由.(利润=收入-成本)
参考公式:,
参考数据: .
【答案】(1);(2)①见解析;②
因为,故模型的拟合效果更好;(2)1.2万头,理由见解析.
【解析】(1)根据所给数据计算,再计算出方程中的系数,得方程;
(2)①模型甲根据所求线性回归方程计算估计值,得残差,模型乙直接根据估计值得残差,②计算出,可得;
(3)利用模型乙计算出成本,再计算出利润,然后比较可得.
【详解】(1)由题知:,
,故.
(2)①经计算,可得下表:
因为,故模型的拟合效果更好.
(3)若生猪存栏数量达到1万头,由(2)模型乙可知,每头猪的成本为元,
这样一天获得的总利润为元.
若生猪存栏数量达到1.2万头,
由(2)模型乙可知,每头猪的成本为元,
一天获得的总利润为元,
因为,所以选择择生猪存栏数量1.2万头能获得更多利润.
【点睛】本题考查线性回归直线方程,考查回归模型的应用,考查残差的概念,解题方法就是根据所给数据进行计算,本题考查了学生的数据处理能力,运算求解能力.
【C组 在创新中考查思维】
一、单选题
1.设两个相关变量和分别满足,,,2,…,6,若相关变量和可拟合为非线性回归方程,则当时,的估计值为( )
A.32B.63C.64D.128
【答案】C
【分析】先通过换元把非线性回归方程转化为线性回归直线方程,从而可以利用公式求系数的值,然后把的值代入即可得到答案.
【详解】令,则 ,
,,
所以 ,,
所以,即,
所以当时, .
故选:C.
二、多选题
2.小明在家独自用下表分析高三前5次月考中数学的班级排名y与考试次数x的相关性时,忘记了第二次和第四次月考排名,但小明记得平均排名,于是分别用m=6和m=8得到了两条回归直线方程:,,对应的相关系数分别为、,排名y对应的方差分别为、,则下列结论正确的是( )
(附:,)
A.B.C.D.
【答案】BD
【分析】根据表格中的数据和最小二乘法、相关系数的计算公式分别计算当、时的、相关系数(r)和方差(),进而比较大小即可.
【详解】当时,,解得,
则,
,,
,
,
所以,
得,
,
;
同理,当时,,,
所以,
故选:BD.
三、填空题
3.有两个分类变量和,其中一组观测值为如下的2×2列联表:
其中,均为大于5的整数,则 时,在犯错误的概率不超过的前提下为“和之间有关系”.附:
【答案】9
【分析】由题意,计算,列出不等式求出的取值范围,再根据题意求得的值.
【详解】解:由题意知:,
则,
解得:或,
因为:且,,
综上得:,,
所以:.
故答案为:9.
【点睛】本题考查独立性检验的应用问题.
四、解答题
4.某校20名学生的数学成绩和知识竞赛成绩如下表:
计算可得数学成绩的平均值是,知识竞赛成绩的平均值是,并且,,.
(1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到0.01);
(2)设,变量和变量的一组样本数据为,其中两两不相同,两两不相同.记在中的排名是第位,在中的排名是第位,.定义变量和变量的“斯皮尔曼相关系数”(记为)为变量的排名和变量的排名的样本相关系数.
(i)记,.证明:;
(ii)用(i)的公式求得这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”约为0.91,简述“斯皮尔曼相关系数”在分析线性相关性时的优势.
注:参考公式与参考数据.
;;.
【答案】(1)证明见解析
(2)答案见解析
【分析】(1)利用相关系数的公式进行计算即可;
(2)(i)根据题意即相关系数的公式进行计算即可证明;(ii)只要能说出斯皮尔曼相关系数与一般的样本相关系数相比的优势即可.
【详解】(1)由题意,这组学生数学成绩和知识竞赛成绩的样本相关系数为
;
(2)(i)证明:因为和都是1,2,,的一个排列,所以
,
,
从而和的平均数都是.
因此,,
同理可得,
由于
,
所以.
(ii)这组学生的数学成绩和知识竞赛成绩的斯皮尔曼相关系数是0.91,
答案①:斯皮尔曼相关系数对于异常值不太敏感,如果数据中有明显的异常值,那么用斯皮尔曼相关系数比用样本相关系数更能刻画某种线性关系;
答案②:斯皮尔曼相关系数刻画的是样本数据排名的样本相关系数,与具体的数值无关,只与排名有关.如果一组数据有异常值,但排名依然符合一定的线性关系,则可以采用斯皮尔曼相关系数刻画线性关系.
【点睛】方法点睛;新定义题型的特点是:通过给出一个新概念,或约定一种新运算,或给出几个新模型来创设全新的问题情景,要求考生在阅读理解的基础上,依据题目提供的信息,联系所学的知识和方法,实现信息的迁移,达到灵活解题的目的;遇到新定义问题,应耐心读题,分析新定义的特点,弄清新定义的性质,按新定义的要求,“照章办事”,逐条分析、验证、运算,使问题得以解决.
5.移动物联网广泛应用于生产制造、公共服务、个人消费等领域.截至2022年底,我国移动物联网连接数达18.45亿户,成为全球主要经济体中首个实现“物超人”的国家.右图是2018-2022年移动物联网连接数W与年份代码t的散点图,其中年份2018-2022对应的t分别为1~5.
(1)根据散点图推断两个变量是否线性相关.计算样本相关系数(精确到0.01),并推断它们的相关程度;
(2)(i)假设变量x与变量Y的n对观测数据为(x1,y1),(x2,y2),…,(xn,yn),两个变量满足一元线性回归模型 (随机误差).请推导:当随机误差平方和Q=取得最小值时,参数b的最小二乘估计.
(ii)令变量,则变量x与变量Y满足一元线性回归模型利用(i)中结论求y关于x的经验回归方程,并预测2024年移动物联网连接数.
附:样本相关系数,,,,
【答案】(1),这两个变量正线性相关,且相关程度很强.
(2)(i);(ii)经验回归方程;预测2024年移动物联网连接数23.04亿户.
【分析】(1)根据相关系数计算,若两个变量正相关,若两个变量负相关,越接近于1说明线性相关越强.
(2)(i)整理得,根据二次函数求最小值时的取值;
(ii) 根据计算公式求得经验回归方程, 并代入可预测2024年移动物联网连接数.
【详解】(1)由散点图可以看出样本点都集中在一条直线附近,由此推断两个变量线性相关.
因为,
所以 ,
所以 ,
所以这两个变量正线性相关,且相关程度很强.
(2)(i)
,
要使取得最小值,当且仅当.
(ii) 由(i)知 ,
所以y关于x的经验回归方程,又,
所以当 时,则,
所以预测2024年移动物联网连接数23.04亿户.
6.指数是用体重公斤数除以身高米数的平方得出的数字,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准.对于高中男体育特长生而言,当数值大于或等于20.5时,我们说体重较重,当数值小于20.5时,我们说体重较轻,身高大于或等于我们说身高较高,身高小于170cm我们说身高较矮.
(1)已知某高中共有32名男体育特长生,其身高与指数的数据如散点图,请根据所得信息,完成下述列联表,并判断是否有的把握认为男生的身高对指数有影响.
(2)①从上述32名男体育特长生中随机选取8名,其身高和体重的数据如表所示:
根据最小二乘法的思想与公式求得线性回归方程为.利用已经求得的线性回归方程,请完善下列残差表,并求解释变量(身高)对于预报变量(体重)变化的贡献值(保留两位有效数字);
②通过残差分析,对于残差的最大(绝对值)的那组数据,需要确认在样本点的采集中是否有人为的错误,已知通过重新采集发现,该组数据的体重应该为.请重新根据最最小二乘法的思想与公式,求出男体育特长生的身高与体重的线性回归方程.
【参考公式】
,,,,.
【参考数据】
,,,,.
【答案】(1)列联表见解析,没有;(2)①残差表见解析,0.91;②
【分析】(1)根据散点图对出对应数据即可;
(2)将编号为6,7,8的数据代入残差公式计算即可;先计算出,再代入计算;重新计算线性回归方程就是纠正数据中的错误,受影响的有,,纠正完后,再继续结合最小二乘法公式计算即可
【详解】(1)
由于,
因此没有的把握认为男生的身高对指数有影响.
(2)①,对编号为6的数据:,对编号为7的数据:,对编号为8的数据,完成残差表如下所示:
.
所以解释变量(身高)对于预报变量(体重)变化的贡献值约为0.91.
②由①可知,第八组数据的体重应为58.
此时,又,,,
,
,
所以重新采集数据后,男体育特长生的身高与体重的线性回归方程为.
【点睛】本题考查最小二乘法公式的相关应用,残差分析,独立性检验,综合性强,数据量大,对处理信息和数据要求高,属于中档题
对照组
试验组
0.100
0.050
0.010
2.706
3.841
6.635
合计
对照组
6
14
20
试验组
14
6
20
合计
20
20
40
准点班次数
未准点班次数
A
240
20
B
210
30
0.100
0.050
0.010
2.706
3.841
6.635
准点班次数
未准点班次数
合计
A
240
20
260
B
210
30
240
合计
450
50
500
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
0.050
0.010
0.001
k
3.841
6.635
10.828
x
0
1
2
3
y
1
3
5
7
收入
文化程度
月收入2000元以下
月收入2000元及以上
合计
高中文化以上
10
45
55
高中文化及以下
20
30
50
合计
30
75
105
α
0.10
0.05
0.010
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
优秀
非优秀
总计
甲班
乙班
总计
105
优秀
非优秀
总计
甲班
乙班
总计
105
色差x
21
23
25
27
色度y
15
18
19
20
温差
1
2
3
4
5
发芽数颗
3
7
8
10
12
周数(x)
1
2
3
4
5
治愈人数(Y)
2
17
36
103
142
认可
不认可
岁以下
岁以上含岁
总计
200
800
1000
180
m
总计
380
(月份)
1
2
3
4
5
(万盒)
5
6
5
6
8
1
2
3
4
32
48
72
88
年份
芳香度
性别
专业
合计
非统计专业
统计专业
男
13
10
23
女
7
20
27
合计
20
30
50
x
3
4
6
7
z
2
2.5
4.5
7
纤维长度
(0,100)
[100,200)
[200,300)
[300,400)
[400,500]
A地(根数)
4
9
2
17
8
B地(根数)
2
1
2
20
15
A地
B地
总计
长纤维
短纤维
总计
A地
B地
总计
长纤维
25
35
60
短纤维
15
5
20
总计
40
40
80
有兴趣
没兴趣
合计
男生
女生
合计
有兴趣
没兴趣
合计
男生
女生
合计
属于“高分选手”
不属于“高分选手”
合计
男生
女生
合计
属于“高分选手”
不属于“高分选手”
合计
男生
女生
合计
年份
2015
2016
2017
2018
2019
销量(万台)
8
10
13
25
24
车主
购车种类
合计
传统燃油车
新能源车
男性
6
24
女性
2
合计
30
车主
购车种类
合计
传统燃油车
新能源车
男性
18
6
24
女性
2
4
6
合计
20
10
30
男生
女生
合计
每周平均体育运动时间不超过4个小时
45
30
75
每周平均体育运动时间超过4个小时
165
60
225
合计
210
90
300
月份
1
2
3
4
5
销售单价元
9
9.5
10
10.5
11
销售量件
11
10
8
6
5
售价(元/件)
3
4
5
6
7
日销量(件)
69
57
54
40
30
地点1
地点2
地点3
地点4
地点5
甲型无人运输机指标数x
2
4
5
6
8
乙型无人运输机指标数y
3
4
4
4
5
天数x
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
3.50
62.83
3.53
17.50
596.57
12.09
每天揽收快递件数(千件)
2
3
4
5
8
每件快递的平均成本(元)
5.6
4.8
4.4
4.3
4.1
每天揽收快递件数xi/千件
2
3
4
5
8
每件快递的平均成本yi/元
5.6
4.8
4.4
4.3
4.1
模型甲
预报值
5.2
5
4.8
随机误差
-0.4
0.2
0.4
模型乙
预报值
5.5
4.8
4.5
随机误差
-0.1
0
0.1
每天揽收快递件数千件
2
3
4
5
8
每件快递的平均成本元
5.6
4.8
4.4
4.3
4.1
模型甲
预报值
5.2
5.0
4.8
4.6
4.0
随机误差
-0.4
0.2
0.4
0.3
-0.1
模型乙
预报值
5.5
4.8
4.5
4.3
4.0
随机误差
-0.1
0
0.1
0
-0.1
海水浓度
亩产量(吨)
海水浓度
亩产量(吨)
残差
海水浓度
亩产量(吨)
残差
2
3
4
5
6
15
21
39
50
75
是否发病
未发病
发病
总计
未注射疫苗
20
注射疫苗
30
总计
50
50
100
0.10
0.05
0.010
0.001
2.706
3.841
6.635
10.828
是否发病
未发病
发病
总计
未注射疫苗
20
40
60
注射疫苗
30
10
40
总计
50
50
100
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
A
合计
B
200
800
1000
180
a
180+a
合计
380
800+a
1180+a
x
1
2
3
4
5
6
7
y
2.9
3.3
3.6
4.4
4.8
a
5.9
是否喜欢航天
性别
合计
男生
女生
喜欢航天
不喜欢航天
合计
周期数(x)
1
2
3
4
5
频数(y)
2
17
36
93
142
满意
不满意
男
30
20
女
40
10
1
2
3
4
5
6
7
0.5
1.2
0.8
1.5
1.7
2.3
2.5
温度
溶解度
对工作满意
对工作不满意
男
女
对工作满意
对工作不满意
合计
男
女
合计
单价元
8.2
8.4
8.6
8.8
销量件
84
83
78
m
4
6
8
10
2
3
5
6
数学成绩优秀
数学成绩不优秀
合计
经常整理
不经常整理
合计
数学成绩优秀
数学成绩不优秀
合计
经常整理
35
25
60
不经常整理
15
25
40
合计
50
50
100
月份
2
4
6
8
10
满意人数
80
95
100
105
120
满意
不满意
合计
男生
65
10
75
女生
55
20
75
合计
120
30
150
0.10
0.05
0.025
0.010
0.005
2.706
3.841
5.024
6.635
7.879
0.05
0.025
0.010
3.841
5.024
6.635
运动达标
运动不达标
总计
男生
女生
总计
运动达标
运动不达标
总计
男生
38
12
50
女生
26
24
50
总计
64
36
100
定价(元/月)
20
30
50
60
岁(万人)
10
15
7
8
岁(万人)
20
12
6
2
购买总人数(万人)
30
27
13
10
年龄段
流量包
合计
元
元
岁
岁
合计
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
年龄段
流量包
合计
元
元
岁
岁
合计
航空公司编号
1
2
3
4
5
6
7
8
9
10
航班正点率/%
81.8
76.6
76.6
75.7
73.8
72.2
71.2
70.8
91.4
68.5
顾客投诉次数
21
58
85
68
74
93
72
122
18
125
年龄
2
3
4
5
6
患病人数
21
20
15
14
10
生产能手
非生产能手
合计
25周岁以上(含25周岁)
15
45
60
25周岁以下
15
25
40
合计
30
70
100
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
零件个数x
10
20
30
40
50
60
70
80
90
100
加工时间y/min
62
68
75
81
89
95
102
108
115
122
月份
元月
2月
3月
4月
5月
销售量(万辆)
0.5
0.6
1.0
1.4
1.7
5
10
15
20
25
30
7.25
8.12
8.95
9.90
10.9
11.8
0.05
0.005
-0.08
-0.045
0.04
0.025
-2.24
-1.37
-0.54
0.41
1.41
2.31
天数x
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
3.50
62.83
3.53
17.50
596.57
12.09
20
66
770
200
14
460
4.20
3125000
0.308
21500
生猪存栏数量(千头)
2
3
4
5
8
头猪每天平均成本(元)
3.2
2.4
2
1.9
1.5
生猪存栏数量(千头)
2
3
4
5
8
头猪每天平均成本(元)
3.2
2.4
2
1.9
1.5
模型甲
估计值
残差
模型乙
估计值
3.2
2.4
2
1.76
1.4
残差
0
0
0
0.14
0.1
生猪存栏数量(千头)
2
3
4
5
8
头猪每天平均成本(元)
3.2
2.4
2
1.9
1.5
模型甲
估计值
2.80
2.55
2.30
2.05
1.30
残差
0.40
-0.15
-0.30
-0.15
0.20
模型乙
估计值
3.2
2.4
2
1.76
1.4
残差
0
0
0
0.14
0.1
x
1
2
3
4
5
y
10
m
6
n
2
总计
15
50
总计
20
45
65
学生编号i
1
2
3
4
5
6
7
8
9
10
数学成绩
100
99
96
93
90
88
85
83
80
77
知识竞赛成绩
290
160
220
200
65
70
90
100
60
270
学生编号i
11
12
13
14
15
16
17
18
19
20
数学成绩
75
74
72
70
68
66
60
50
39
35
知识竞赛成绩
45
35
40
50
25
30
20
15
10
5
身高较矮
身高较高
合计
体重较轻
体重较重
合计
编号
1
2
3
4
5
6
7
8
身高
166
167
160
173
178
169
158
173
体重
57
58
53
61
66
57
50
66
编号
1
2
3
4
5
6
7
8
体重
57
58
53
61
66
57
50
66
残差
0.1
0.3
0.9
0.10
0.05
0.01
0.005
2.706
3.811
6.635
7.879
身高较矮
身高较高
合计
体重较轻
6
15
21
体重较重
6
5
11
合计
12
20
32
编号
1
2
3
4
5
6
7
8
体重
57
58
53
61
66
57
50
66
残差
0.1
0.3
0.9
3.5
相关试卷
这是一份新高考数学一轮复习讲义 第49讲 成对数据的统计分析(2份打包,原卷版+含解析),文件包含新高考数学一轮复习讲义第49讲成对数据的统计分析原卷版doc、新高考数学一轮复习讲义第49讲成对数据的统计分析含解析doc等2份试卷配套教学资源,其中试卷共133页, 欢迎下载使用。
这是一份新高考数学一轮复习知识清单+巩固练习专题18 统计与成对数据的统计分析(2份打包,原卷版+解析版),文件包含新高考数学一轮复习知识清单+巩固练习专题18统计与成对数据的统计分析原卷版doc、新高考数学一轮复习知识清单+巩固练习专题18统计与成对数据的统计分析解析版doc等2份试卷配套教学资源,其中试卷共44页, 欢迎下载使用。
这是一份(新高考)高考数学一轮复习学案+巩固提升练习9.3《成对数据的统计分析》(2份打包,原卷版+教师版),文件包含新高考高考数学一轮复习讲义+巩固练习93《成对数据的统计分析》原卷版doc、新高考高考数学一轮复习讲义+巩固练习93《成对数据的统计分析》原卷版pdf、新高考高考数学一轮复习讲义+巩固练习93《成对数据的统计分析》教师版doc、新高考高考数学一轮复习讲义+巩固练习93《成对数据的统计分析》教师版pdf等4份试卷配套教学资源,其中试卷共68页, 欢迎下载使用。