所属成套资源:【冲刺双一流】备战2023年高考数学二轮复习核心专题讲练(新高考版)
第1讲 统计和统计案例-【冲刺双一流】备战2023年高考数学二轮复习核心专题讲练(新高考版)
展开这是一份第1讲 统计和统计案例-【冲刺双一流】备战2023年高考数学二轮复习核心专题讲练(新高考版),文件包含第1讲统计和统计案例原卷版docx、第1讲统计和统计案例解析版docx等2份试卷配套教学资源,其中试卷共110页, 欢迎下载使用。
第1讲 统计和统计案例
目录
第一部分:知识强化
第二部分:重难点题型突破
突破一:随机数表法
突破二:分层抽样
突破三:频率分布直方图
突破四:平均数,众数,中位数,方差,标准差
突破五:总体百分位数
突破六:回归直线方程
突破七:相关系数
突破八:残差
突破九:非线性回归
突破十:独立性检验
第三部分:冲刺重难点特训
第一部分:知识强化
1、总体平均数与样本平均数
(1)总体平均数
一般地,总体中有个个体,它们的变量值分别为,,…,
则称为总体均值,又称总体平均数.
(2)加权平均数
如果总体的个变量值中,不同的值共有()个,不妨记为,,…,,其中出现的频数(),则总体均值还可以写成加权平均数的形式:.
(3)样本平均数
如果从总体中抽取一个容量为的样本,它们的变量值分别为,,…,
则称为样本均值,又称样本平均数.
2、分层随机抽样的步骤
①根据己经掌握的信息,将总体分成互不相交的层;
②根据总体中的个体数和样本量计算抽样比;
③确定第层应该抽取的个体数目(为第层所包含的个体数),使得各之和为;
④在各个层中,按步骤③中确定的数目在各层中随机抽取个体,合在一起得到容量为的样本.
3、绘制频率分布直方图的步骤及频率分布直方图的性质
①求极差,即一组数据中的最大值与最小值的差.
②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
③将数据分组.
④列频率分布表.计算各小组的频率,第组的频率是.
⑤画频率分布直方图.其中横轴表示分组,纵轴表示.实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
4、第百分位数
(1)第百分位数的概念
一般地,一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算第p百分位数的步骤
第1步,按从小到大排列原始数据.
第2步,计算.
第3步,若不是整数,而大于的比邻整数为,则第百分位数为第项数据;
若是整数,则第百分位数为第项与第项数据的平均数.
5、总体集中趋势的估计
(1)平均数
①定义:一组数据的和与这组数据的个数的商.数据,,的平均数为.
②特征:平均数对数据有“取齐”的作用,代表该组数据的平均水平,任何一个数据的改变都会引起平均数的变化,这是众数和中位数都不具有的性质.所以与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中极端值的影响较大,使平均数在估计总体时的可靠性降低.
(2)众数
①定义:一组数据中出现次数最多的数据(即频率分布最大值所对应的样本数据)称为这组数据的众数。
②特征:一组数据的众数可能不止一个,也可能没有,反映了该组数据的集中趋势.
(3)中位数
①定义:一组数据按从小到大(或从大到小)的顺序排成一列,处于最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
②特征:一组数据的中位数是唯一的,反映了该组数据的集中趋势.在频率分布直方图中,中位数左边和右边的直方图的面积相等.
6、在频率分布直方图中平均数,中位数,众数的估计值
(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
(3)众数:众数是最高小矩形底边的中点所对应的数据.
7、总体离散程度的估计
(1)极差
一组数据中的最大值与最小值的差称为极差.
(2)方差与标准差
一组数据,,,,用表示这组数据的平均数,
则这组数据的方差:;
标准差:
(3)总体方差和标准差
如果总体中所有个体的变量值分别为,,总体平均数为,则称
为总体方差,为总体标准差.
(4)样本方差和标准差
如果一个样本中个体的变量值分别为,,,样本平均数为,则称
为样本方差,为样本标准差.
(5)加权方差
如果总体的个变量值中,不同的值共有()个,记为,,,其中出现的频数为(),则总体方差为.
8、相关关系的强弱
(1)样本相关系数
现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.
(2)相关系数的性质
①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.
②样本相关系数的取值范围为
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
9、一元线性回归模型参数的最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.
其中
10、残差
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
11、决定系数
(1)残差平方和
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(2)决定系数
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,越大,即拟合效果越好,越小,模型拟合效果越差.
12、分类变量与列联表
(1)分类变量
为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量.
(2)列联表
①2×2列联表给出了两个分类变量数据的交叉分类频数.
②定义一对分类变量和,我们整理数据如下表所示:
合计
合计
知识点2:独立性检验
(1)独立性检验定义:
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.
(2)独立性检验公式:
其中(注意使用公式时分子的平方不要忽略了)
第二部分:重难点题型突破
突破一:随机数表法
1.(2022·广东·博罗县榕城中学高一阶段练习)从800件产品中抽取6件进行质检,利用随机数表法抽取样本时,先将800件产品按001,002,…,800进行编号.如果从随机数表第8行第8列的数开始往右读数(随机数表第7行至第9行的数如下),则抽取的6件产品的编号的75%分位数是( )
……
8442175331 5724550688 77047447672176335025 8392120676
6301637859 1695566711 69105671751286735807 4439523879
3321123429 7864560782 52420744381551001342 9966027954
A.105 B.556 C.671 D.169
2.(2022·全国·高一课时练习)“双色球”彩票中有33个红色球,每个球的编号分别为01,02,…,33.一位彩民用随机数表法选取6个号码作为6个红色球的编号,选取方法是从下面的随机数表中第1行第5列和第6列的数字开始,从左向右读数,则依次选出来的第5个红色球的编号为
7816
6572
0802
6314
0214
4319
9714
0198
3204
9234
4936
8200
3623
4869
6938
7181
A.01 B.02 C.14 D.19
3.(2022·江西景德镇·模拟预测(理))某公司利用随机数表对生产的900支新冠疫苗进行抽样测试,先将疫苗按000,001,…,899进行编号,从中抽取90个样本,若选定从第4行第4列的数开始向右读数,(下面摘取了随机数表中的第3行至第5行),根据下图,读出的第6个数的编号是( )
1676622766 5650267107 3290797853 1355385859 8897541410
1256859926 9682731099 1696729315 5712101421 8826498176
5559563564 3854824622 3162430990 0618443253 2383013030
A.827 B.315 C.696 D.729
4.(2022·全国·高一课时练习)福利彩票“双色球”中红色球由编号为01,02,…,33的33个个体组成,某彩民利用下面的随机数表(下表是随机数表的第一行和第二行)选取6个红色球,选取方法是从随机数表中第1行的第6列和第7列数字开始,由左到右依次选取两个数字,则选出来的第3个红色球的编号为______.
49 54 43 54 82 17 37 93 23 28 87 35 20 56 43 84 26 34 91 64
57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
5.(2022·山西太原·三模(文))设某总体是由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取6个个体,选取方法是从随机数表第1行的第3列数字开始从左到右依次选取两个数字,则选出来的第6个个体编号为___________.
突破二:分层抽样
1.(2022·河南·开封市东信学校模拟预测(文))为了贯彻落实中央新疆工作座谈会和全国对口支援新疆工作会议精神,促进边疆少数民族地区教育事业发展,从A市20名教师、B市15名教师和C市10名教师中,采取分层抽样的方法,抽取一个容量为n的样本,若A市抽取4人,则( )
A.9 B.10 C.12 D.15
2.(2022·新疆乌鲁木齐·二模(理))从某中学随机抽取100名学生,将他们的身高数据(单位cm)绘制成频率分布直方图,若要从身高在,,三组内的学生中,用分层抽样的方法选取16人参加一次活动.则从身高在内的学生中选取的人数应为( )
A.3 B.4 C.5 D.7
3.(2022·广西河池·模拟预测(文))雅言传承文明,经典浸润人生,南宁市某校每年举办“品经诵典浴书香,提雅增韵享阅读”中华经典诵读大赛,比赛内容有三类:“诵读中国”、“诗教中国”、“笔墨中国”.已知高一、高二、高三报名人数分别为:100人、150人和250人.现采用分层抽样的方法,从三个年级中抽取25人组成校代表队参加市级比赛,则应该从高一年级学生中抽取的人数为______.
4.(2022·全国·模拟预测)“中国式过马路”是网友对部分中国人集体闯红灯现象的一种调侃,即“凑够一撮人就可以走了,和红绿灯无关.”出现这种现象是大家受法不责众的“从众”心理影响,从而不顾及交通安全,某校对全校学生过马路方式进行调查,在所有参与调查的人中,“跟从别人闯红灯”“从不闯红灯”“带头闯红灯”人数如表所示.
跟从别人闯红灯
从不闯红灯
带头闯红灯
男生
600
1000
200
女生
400
650
300
用分层抽样的方法从“带头闯红灯”的人中抽取10人参加“文明交通”宣传活动,从这10人中任选取3人,则这三人性别不完全相同的概率为______.
5.(2022·山东聊城·二模)如图是调查某学校高一年级男、女学生是否喜欢徒步运动而得到的等高条形图,阴影部分表示喜欢徒步的频率.已知该年级男生500人、女生400名(假设所有学生都参加了调查),现从所有喜欢徒步的学生中按分层抽样的方法抽取23人,则抽取的男生人数为______.
6.(2022·陕西·交大附中模拟预测(理))某校为了解学生学习的情况,采用分层抽样的方法从高一人、高二 人、高三人中,抽取人进行问卷调查.已知高一被抽取的人数为,那么高三被抽取的人数为_______.
突破三:频率分布直方图
1.(2022·四川省遂宁市第二中学校模拟预测(文))在某次高中学科竞赛中,名考生的参赛成绩统计如图所示,分以下视为不及格,若同一组中数据用该组区间中点作代表,则下列说法中有误的是( )
A.成绩在分的考生人数最多 B.考生竞赛成绩的中位数为分
C.不及格的考生人数为人 D.考生竞赛成绩的平均分约分
2.(2022·江苏·华罗庚中学三模)光明学校为了解男生身体发育情况,从2000名男生中抽查了100名男生的体重情况,根据数据绘制样本的频率分布直方图,如图所示,下列说法中错误的是( )
A.样本的众数约为 B.样本的中位数约为
C.样本的平均值约为66 D.体重超过75kg的学生频数约为200人
3.(2022·天津·静海一中模拟预测)某校随机抽取了400名学生进行成绩统计,发现抽取的学生的成绩都在50分至100分之间,进行适当分组画出频率分布直方图如图所示,下列说法正确的是( )
A.直方图中x的值为0.040
B.在被抽取的学生中,成绩在区间的学生数为30人
C.估计全校学生的平均成绩为84分
D.估计全校学生成绩的样本数据的80%分位数约为93分
4.(2022·安徽·模拟预测(文))某校开展“正心立德,劳动树人”主题教育活动,对参赛的100名学生的劳动作品的得分情况进行统计,并绘制了如图所示的频率分布直方图,根据图中信息,下列说法错误的是( )
A.图中的x值为0.020 B.得分在80分及以上的人数为40
C.这组数据平均数的估计值为77 D.这组数据中位数的估计值为75
5.(2022·云南昆明·一模(文))“双减”政策实施后,某初中全面推进学校素质教育,推动学校体育运动发展,引导学生积极参与体育锻炼,为了解该校学生每周平均体育运动的时间,学校随机调查了500名学生每周平均体育运动时间的样本数据(单位:小时),所得数据分成6组:,,,,,据此得到的频率分布直方图如图所示,则该校学生每周平均体育运动的时间约为______小时(同一组中的数据用该组区间的中点值为代表).
6.(2022·广东汕头·一模)在党史学习教育动员大会上,习近平总书记强调全党同志要做到学史明理、学史增信、学史崇德,学史力行.某单位对200名党员进行党史知识测试,将成绩分成6组:,,,,,,得到如图所示的频率分布直方图,则______.
7.(2022·云南·玉溪市民族中学模拟预测(文))全民健身,强国有我,某企业为增强广大职工的身体素质和健康水平,组织全体职工开启了“学习强国”平台的强国运动项目,为了解他们的具体运动情况,企业工会从该企业全体职工中随机抽取了100名,统计他们的日均运动步数,并得到如下频率分布直方图:
(1)求直方图中a的值;
(2)估计该企业职工日均运动步数的平均数;(同一组中的数据用该组区间的中点值为代表)
(3)若该企业恰好有的职工的日均运动步数达到了企业制定的优秀强国运动者达标线,试估计该企业制定的优秀强国运动者达标线是多少?
8.(2022·河南省杞县高中模拟预测(理))在全民抗击新冠肺炎疫情期间,某市教育部门开展了“停课不停学”活动,为学生提供了多种网络课程资源.活动开展一个月后,某学校随机抽取了高二年级的学生若干进行网络问卷调查,统计学生每天的学习时间(单位:小时),将样本数据分成,,,,五组(全部数据都在内),并整理得到如图所示的频率分布直方图.
(1)已知该校高二年级共有800名学生,根据统计数据,估计该校高二年级每天学习时间不低于5小时的学生人数;
(2)利用统计数据,估计该校高二年级学生每天平均学习时间;
9.(2022·新疆克拉玛依·三模(文))第届北京冬季奥林匹克运动会于年月日至月日在北京和张家口联合举办.这是中国历史上第一次举办冬季奥运会,它掀起了中国人民参与冬季运动的大热潮.某市举办了中学生滑雪比赛,从中抽取名学生的测试分数绘制成茎叶图和频率分布直方图如下,后来茎叶图受到了污损,可见部分信息如图.
(1)求频率分布直方图中的值,并根据直方图估计该市全体中学生的测试分数的平均数(同一组中的数据以这组数据所在区间中点的值作代表,结果保留一位小数);
(2)现要对测试成绩在前26%的中学生颁发“滑雪达人”证书,并制定出能够获得证书的测试分数线,请你用样本来估计总体,给出这个分数线的估计值.
10.(2022·广西·南宁三中一模(文))某种植园在芒果临近成熟时,随机从一些芒果树上摘下100个芒果,其质量分布在,,,,(单位:克)中,经统计频率分布直方图如图所示.
(1)估计这组数据的平均数;
(2)某经销商来收购芒果,同一组中的数据以这组数据所在区间中点的值作代表,用样本估计总体,该种植园中共有芒果大约10000个,经销商提出以下两种收购方案:
方案①:所有芒果以10元/千克收购;
方案②:对质量低于350克的芒果以3元/个收购,对质量高于或等于350克的芒果以5元/个收购.
请通过计算确定种植园选择哪种方案获利更多?
突破四:平均数,众数,中位数,方差,标准差
1.(2022·上海·曹杨二中模拟预测)第24届冬季奥运会于2022年2月4日至20日在北京举行,中国代表团取得了9枚金牌,4枚银牌,2枚铜牌的历史最好成绩.已知六个裁判为某一运动员这一跳的打分分别为95,95,95,93,94,94,评分规则为去掉六个原始分中的一个最高分和一个最低分,剩下四个有效分的平均数即为该选手的本轮得分.设这六个原始分的中位数为,方差为;四个有效分的中位数为,方差为.则下列结论正确的是( )
A., B.,
C., D.,
2.(2022·四川·成都市锦江区嘉祥外国语高级中学有限责任公司模拟预测(文))冬末春初,乍暖还寒,人们容易感冒发热,若发生群体性发热,则会影响到人们的身体健康,干扰正常工作生产,某大型公司规定:若任意连续7天,每天不超过5人体温高于37.3℃,则称没有发生群体性发热,下列连续7天体温高于37.3℃人数的统计特征数中,能判定该公司没有发生群体性发热的为( )
(1)中位数为3,众数为2 (2)均值小于1,中位数为1
(3)均值为3,众数为4 (4)均值为2,标准差为
A.(1)(3) B.(3)(4) C.(2)(3) D.(2)(4)
3.(2022·广西·模拟预测(文))2022年6月6日是第27个“全国爱眼日”,为普及科学用眼知识,提高群众健康水平,预防眼疾,某区残联在残疾人综合服务中心开展“全国爱眼日”有奖答题竞赛活动.已知5位评委老师按百分制(只打整数分)分别给出某参赛小队评分,可以判断出一定有评委打满分的是( )
A.平均数为98,中位数为98 B.中位数为96,众数为99
C.中位数为97,极差为9 D.平均数为98,极差为6
4.(2022·重庆八中模拟预测)已知1,这5个数的平均数为3,方差为2,则这4个数的方差为( )
A.1 B. C. D.2
5.(2022·河南·南阳中学三模(文))某区创建全国文明城市指挥部办公室对所辖街道当月文明城市创建工作进行考评,工作人员在本区选取了甲,乙两个街道,并在这两个街道各随机抽取10个实地点位进行现场测评,下面的茎叶图是两个街道的测评分数(满分100分),下列说法正确的是( )
A.甲,乙两个街道的测评分数的极差相等
B.甲,乙两个街道的测评分数的平均数相等
C.街道乙的测评分数的众数为87
D.甲、乙两个街道测评分数的中位数中,乙的中位数比较大
6.(2022·安徽六安·一模(文))已知某样本的容量为100,平均数为80,方差为95.现发现在收集这些数据时,其中的两个数据记录有误,一个错将90记录为70,另一个错将80记录为100.在对错误的数据进行更正后,重新求得样本的平均数为,方差为,则( )
A., B., C., D.,
7.(2022·山东·肥城市教学研究中心模拟预测)在对某中学高一年级学生每周体育锻炼时间的调查中,采用随机数法,抽取了男生人,女生人. 已知男同学每周锻炼时间的平均数为小时,方差为;女同学每周锻炼时间的平均数为小时,方差为. 依据样本数据,估计本校高一年级学生每周体育锻炼时间的方差为___.
8.(2022·四川·石室中学三模(文))为了考察某校各班参加课外书法小组的人数,在全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为10,样本方差为4,且样本数据互不相同,则样本数据中的最大值为______.
9.(2022·江苏南京·模拟预测)已知样本数据的平均数与方差满足如下关系式:,若已知15个数的平均数为6,方差为9;现从原15个数中剔除这5个数,且剔除的这5个数的平均数为8,方差为5,则剩余的10个数的方差为___________.
突破五:总体百分位数
1.(2022·天津河西·三模)学校组织班级知识竞赛,某班的12名学生的成绩(单位:分)分别是:58、67、73、74、76、82、82、87、90、92、93、98,则这12名学生成绩的第三四分位数是( )
A.88分 B.89分 C.90分 D.91分
2.(2022·天津市第四十七中学模拟预测)为了了解居民用电情况,通过抽样,获得了某城市户居民的月平均用电量(单位:度),以,,,,,,分组的频率分布直方图如下图.该样本数据的55%分位数大约是( )
A. B. C. D.
3.(2022·全国·模拟预测)据某地区气象局发布的气象数据,未来某十天内该地区每天最高温度(单位:℃)分别为:31,29,24,27,26,25,24,26,26,23,则这组数据的第40百分位数为( )
A.27 B.26.5 C.25.5 D.25
4.(2022·海南华侨中学模拟预测)2022年4月24日是第七个“中国航天日”,今年的主题是“航天点亮梦想”.某校组织学生参与航天知识竞答活动,某班8位同学成绩如下:7,6,8,9,8,7,10,m.若去掉m,该组数据的第25百分位数保持不变,则整数的值可以是___________(写出一个满足条件的m值即可).
5.(2022·天津市宁河区芦台第一中学模拟预测)某射击运动员次的训练成绩分别为:,则这次成绩的第百分位数为__________.
突破六:回归直线方程
1.(2022·陕西·交大附中模拟预测(文))设某大学的女生体重(单位:)与身高(单位:)具有线性相关关系,根据一组样本数据,用最小二乘法建立的回归方程为,则下列结论中正确结论的个数是( )
①与具有正的线性相关关系;
②回归直线过样本点的中心;
③若该大学某女生身高增加,则其体重约增加;
④若该大学某女生身高为,则可断定其体重必为.
A.1 B.2 C.3 D.4
2.(2022·四川·成都七中模拟预测(文))根据一组样本数据,,…,,求得经验回归方程为,且.现发现这组样本数据中有两个样本点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的经验回归直线l的斜率为1.2,则( )
A.变量x与y具有正相关关系
B.去除两个误差较大的样本点后,重新求得的经验回归方程为
C.去除两个误差较大的样本点后,y的估计值增加速度变快
D.去除两个误差较大的样本点后,相应于样本点(2,3.75)的残差为0.05
3.(2022·重庆八中模拟预测)某种活性细胞的存活率()与存放温度(℃)之间具有线性相关关系,样本数据如下表所示:
存放温度(℃)
10
4
存活率()
20
44
56
80
经计算,回归直线的斜率为,若这种活性细胞的存放温度为℃,则其存活率的预报值为( )
A.32% B.33% C.34% D.35%
4.(2022·江西赣州·一模(理))袁隆平院士是我国的杂交水稻之父,他一生致力于杂交水稻的研究,为解决中国人民的温饱和保障国家粮食安全做出了重大的贡献.某杂交水稻研究小组先培育出第一代杂交水稻,再由第一代培育出第二代,第二代培育出第三代,以此类推.已知第一代至第四代杂交水稻的每穗总粒数分别为197粒,193粒,201粒,209粒,且亲代与子代的每穗总粒数成线性相关.根据以上信息,预测第五代杂交水稻每穗的总粒数为( )
(注:①亲代是产生后一代生物的生物,对后代生物来说是亲代,所产生的后一代叫子代:②,)
A.211 B.212 C.213 D.214
5.(2022·全国·模拟预测)某种新型产品用于推广营销的费用x(单位:万元)与该产品的销售收入y(单位:万元)在某个销售周期内的统计数据如下表:
推广营销费用x
2
3
4
5
6
销售收入y
14
18
32
37.5
41
根据上表可得到y关于x的线性回归方程,则当该产品的销售收入为80万元时,用于推广营销的费用约为______万元.(结果精确到0.01)
6.(2022·甘肃武威·模拟预测(理))已知之间具有线性相关关系,若通过10组数据得到的回归方程为,且,则__________.
7.(2022·广西广西·模拟预测(理))每年的“双十一”既是旺季来临的标志,也是全年营销的大战役.不管是线上,还是线下都会有各种宣传广告推出各类特价商品,包括日用百货、食品、电器、服装、生鲜等等.据一商家统计,某商品的广告支出费用x(单位:万元)与相应利润y(单位:万元)的关系如下表格(变量x、y为线性相关关系).
x
2
4
6
8
y
20
35
61
80
(1)求y关于x的线性回归方程:
(2) 若要使利润不少于121.1万元,则广告支出费用至少要多少万元?
参考公式与数据:,,.
8.(2022·河南省叶县高级中学模拟预测(文))生产成本指数概括反映经营生产活动中单位成本水平的综合变动程度,它是企业或部门内部进行成本管理的一个有用工具,成本指数越小,意味着成本控制越好.某企业从2016年开始连续6年的生产成本指数如下表所示:
年份
2016
2017
2018
2019
2020
2021
年数
1
2
3
4
5
6
生产成本指数
23
20.5
20.0
16.5
14.0
13.5
(1)由数据看出,可用线性回归模型拟合与的关系,根据表中前4年数据,求关于的线性回归方程;
9.(2022·宁夏·银川一中模拟预测(文))在能源和环保的压力下,新能源汽车无疑将成为未来汽车的发展方向.2016年4月,为促进新能源汽车发展,实施差异化交通管理政策,公安部启用新能源汽车专用号牌.2020年11月,国务院办公厅印发《新能源汽车产业发展规划(2021—2035年)》,要求深入实施发展新能源汽车国家战略,推动中国新能源汽车产业高质量可持续发展.下表是2016年至2020年新能源汽车年销量(单位:十万辆)情况:
年份
2016
2017
2018
2019
2020
年份编号
1
2
3
4
5
年销量
5
7
12
12
14
(1)试建立年销量关于年份编号的线性回归方程;
(2)根据(1)中的线性回归方程预测2023年新能源汽车的年销量.
参考公式:,.
10.(2022·安徽师范大学附属中学模拟预测(文))为促进新能源汽车的推广,某市逐渐加大充电基础设施的建设,该市统计了近五年新能源汽车充电站的数量(单位:个),得到如下表格:
年份x
2017
2018
2019
2020
2021
新能源汽车充电站数量y/个
50
85
105
140
170
(1)若y与x成线性相关关系,求y关于x的线性回归方程
(2)预测2025年该市新能源汽车充电站的数量.
参考公式:
突破七:相关系数
1.(2022·全国·模拟预测)住房和城乡建设部等六部门发布通知提出,到2025年,农村生活垃圾无害化处理水平明显提升.我国生活垃圾主要有填埋、焚烧与堆肥三种处理方式,随着我国垃圾处理结构的不断优化调整,焚烧处理逐渐成为市场主流.根据国家统计局公布的数据,对2013—2020年全国生活垃圾焚烧无害化处理厂的个数y(单位:座)进行统计,得到如下表格:
年份
2013
2014
2015
2016
2017
2018
2019
2020
年份代码x
1
2
3
4
5
6
7
8
生活垃圾焚烧无害化处理厂的个数y
166
188
220
249
286
331
389
463
(1)由表中数据可知,可用线性回归模型拟合y与x之间的关系,请用相关系数加以说明;(精确到0.01)
(2)求出y关于x的线性回归方程,并预测2022年全国生活垃圾焚烧无害化处理厂的个数;
(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,还能用所求的线性回归方程预测吗?请简要说明理由.
参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为,.
参考数据:,,,,,,.
2.(2022·全国·模拟预测)教育部印发的《义务教育课程方案和课程标准(2022年版)》指出,自2022年秋季开始,劳动课将成为中小学一门独立课程.消息一出,“中小学生学做饭”等相关话题引发大量网友关注,儿童厨具也迅速走俏.这类儿童厨具并不是指传统意义上的“过家家”,而是真锅真铲真炉灶,能让孩子煎炒烹炸,把饭菜做熟了吃下肚的“真煮”儿童厨具.一家厨具批发商从2022年5月22日起,每10天就对“真煮”儿童厨具的销量统计一次,得到相关数据如下表所示.
时间
5月22~5月31日
6月1~6月10日
6月11~6月20日
6月21~6月30日
7月1~7月10日
7月11~7月20日
7月21~7月30日
时间代码x
1
2
3
4
5
6
7
销量y/千件
9.4
9.6
9.9
10.1
10.6
11.1
11.4
(1)从这7次统计数据中随机抽取2次,求这2次的销量之和超过21千件的概率.
(2)根据表中数据,判断y与x是否具有线性相关关系?若具有,试求出y关于x的线性回归方程;若不具有,请说明理由.(结果保留两位小数)
附:线性回归方程中斜率和截距的最小二乘估计公式分别为,,相关系数,.
3.(2022·吉林·东北师大附中模拟预测(文))2015年7月31日,在吉隆坡举行的国际奥委会第128次全会上,北京获得2022年冬奥会举办权.在申冬奥过程中,中国正式向国际社会作出“带动三亿人参与冰雪运动”的庄严承诺.这一承诺,既是我国为国际奥林匹克运动做出重大贡献的大国担当展现,也是根据我国经济水平和全民健身需求做出的群众性运动的战略部署.从北京冬奥会申办成功到2021年10月,全国参与冰雪运动人数累计达到3.46亿,实现了“带动三亿人参与冰雪运动”的目标,这是北京冬奥会给予全球冬季体育运动和奥林匹克运动的最为重要的遗产,可以说是2022年北京冬奥会的第一块金牌.“冬奥热”带动“冰雪热”,也带动了冰雪经济,以冰雪运动为主要内容的冰雪旅游近年来发展迅速,2016至2022六个冰雪季的旅游人次y(单位亿)的数据如下表:
年度
2016—2017
2017—2018
2018—2019
2019—2020
2020—2021
2021—2022
年度代号t
1
2
3
4
5
6
旅游人次y
1.7
1.97
2.24
0.94
2.54
3.15
(1)求y与t的相关系数(精确到0.01),并回答y与t的线性相关关系的强弱;
(2)因受疫情影响,现将2019—2020年度的异常数据剔除,用剩下的5个年度数据(年度代号不变),求y关于t的线性回归方程(系数精确到0.01),并推测没有疫情情况下,2019—2020年度冰雪旅游人次的估计值.
附注:参考数据:,,,,.参考公式:相关系数,回归直线的斜率和截距的最小二乘估计公式分别为:,
4.(2022·甘肃·高台县第一中学模拟预测(文))应对严重威胁人类生存与发展的气候变化,其关键在于“控碳”,其必由之路是先实现“碳达峰”,而后实现“碳中和”,2020年第七十五届联合国大会上,我国向世界郑重承诺:争在2030年前实现“碳达峰”,努力争取在2060年前实现“碳中和”,近年来,国家积极发展新能源汽车,某品牌的新能源汽车某区域销售在2021年11月至2022年3月这5个月的销售量(单位:百辆)的数据如下表:
月份
2021年11月
2021年12月
2022年1月
2022年2月
2022年3月
月份代码:
1
2
3
4
5
销售量(单位:百辆)
45
56
64
68
72
(1)依据表中的统计数据,请判断月份代码与该品牌的新能源汽车区域销售量(单位;百辆)是否具有较高的线性相关程度?(参考:若,则线性相关程度一般,若,则线性相关程度较高,计算时精确度为0.01.
(2)求销售量与月份代码之间的线性回归方程,并预测2022年4月份该区域的销售量(单位:百辆)
参考数据:,,,参考公式:相关系数,
线性回归方程中,,,其中,为样本平均值.
5.(2022·全国·模拟预测)数字经济的发展需要、云计算、大数据及物联网等新型基础设施的支撑,作为新基建之首,对我国数字经济的发展有着重要的意义.技术在我国已经进入高速发展阶段,宽带业务办理量也逐渐上升.某营业厅统计了2021年7月至2022年1月宽带业务办理量(单位:单),如表所示:
时间
2021年7月
2021年8月
2021年9月
2021年10月
2021年11月
2021年12月
2022年1月
月份编号
1
2
3
4
5
6
7
宽带业务办理量/单
290
330
360
440
480
520
590
(1)由表中数据可知,可用线性回归模型拟合与之间的关系,请用相关系数加以说明(结果精确到0.01);
(2)求出关于的线性回归方程,并估计该营业厅2022年4月的宽带业务办理量.
参考数据:,,.
参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为,.
突破八:残差(相关指数)
1.(2022·重庆八中模拟预测)身高体重指数(BMI)的大小直接关系到人的健康状况,某高中高三(1)班班主任为了解该班学生的身体健康状况,从该班学生中随机选取5名学生,测量其身高、体重的数据如下表.
学生编号
1
2
3
4
5
身高x/cm
l65
170
175
170
170
体重y/kg
58
67
67
65
63
(1)求体重关于身高的线性回归方程,并预测身高为180cm的同学的体重;
(2)试分析学生的体重差异约有多少是由身高引起的?(注:结果保留两位小数)参考公式:线性回归方程中,,,其中,为样本平均值,.
2.(2022·山东师范大学附中模拟预测)某研究所为了研究某种昆虫的产卵数与温度之间的关系,现将收集到的温度和一组昆虫的产卵数的6组观测数据作了初步处理,得到如图的散点图及一些统计数据.
经计算得到以下数据:,.
(1)若用线性回归模型来拟合数据的变化关系,求y关于x的回归方程(结果精确到0.1);
(2)若用非线性回归模型来拟合数据的变化关系,求得关于的回归方程,且相关指数为.
①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;
②用拟合效果好的模型预测温度为35℃时该组昆虫的产卵数(结果四舍五入取整数).
附参考公式:对于一组具有线性相关关系的数据,其回归直线截距和斜率的最小二乘法估计公式分别为:,相关系数:.参考数据:.
3.(2022·重庆市涪陵高级中学校模拟预测)为响应党中央“扶贫攻坚”的号召,某单位指导一贫困村通过种植紫甘薯来提高经济收入.紫甘薯对环境温度要求较高,根据以往的经验,随着温度的升高,其死亡株数成增长的趋势.下表给出了2021年种植的一批试验紫甘薯在温度升高时6组死亡的株数.
温度/℃
21
23
24
27
29
30
死亡数/株
6
11
20
27
57
77
经计算,,,,,
,,,其中,分别为试验数据中的温度和死亡株数,.
(1)若用一元线性回归模型,求关于的经验回归方程;
(2)若用非线性回归模型求得关于的非线性经验回归方程,且相关指数为.
(ⅰ)试与(1)中的回归模型相比,用说明哪种模型的拟合效果更好;
(ii)用拟合效果好的模型预测温度为35℃时该批紫甘薯的死亡株数(结果取整数).
附:对于一组数据其回归直线的斜率和截距的最小二乘估计分别为:,;相关指数为:.
4.(2022·内蒙古·满洲里市教育研修中心三模(文))碳中和,是指企业、团体或个人测算在一定时间内,直接或间接产生的温室气体排放总量,通过植树造林、节能减排等形式,抵消自身产生的二氧化碳排放,实现二氧化碳的“零排放”.碳达峰,是指碳排放进入平台期后,进入平稳下降阶段.简单地说就是让二氧化碳排放量“收支相抵”.中国政府在第七十五届联合国大会上提出:“中国将提高国家自主贡献力度,采取更加有力的政策和措施,二氧化碳排放力争于2030年前达到峰值,努力争取2060年前实现碳中和.”减少碳排放,实现碳中和,人人都可出一份力.某中学数学教师组织开展了题为“家庭燃气灶旋钮的最佳角度”的数学建模活动.实验假设:
①烧开一壶水有诸多因素,本建模的变量设定为燃气用量与旋钮的旋转角度,其他因素假设一样;
②由生活常识知,旋转角度很小或很大,一壶水甚至不能烧开或造成燃气浪费,因此旋转角度设定在10°到90°间,建模实验中选取5个代表性数据:18°,36°,54°,72°,90°.
某支数学建模队收集了“烧开一壶水”的实验数据,如下表:
项目
旋转角度
开始烧水时燃气表计数/dm3
水烧开时燃气表计数/dm3
18°
9080
9210
36°
8958
9080
54°
8819
8958
72°
8670
8819
90°
8498
8670
以x表示旋转角度,y表示燃气用量.
(1)用列表法整理数据(x,y);
x(旋转角度:度)
18
36
54
72
90
y(燃气用量:dm3)
(2)假定x,y线性相关,试求回归直线方程(注:计算结果精确到小数点后三位)
(3)有队员用二次函数进行模拟,得到的函数关系为.求在该模型中,烧开一壶水燃气用量最少时的旋转角度.请用相关指数R2分析二次函数模型与线性回归模型哪种拟合效果更好?(注:计算结果精确到小数点后一位)
参考数据:,,,,
线性回归模型,二次函数模型.
参考公式:,,.
突破九:非线性回归
1.(2022·山东临沂·三模)在疫情防控常态化的背景下,山东省政府各部门在保安全,保稳定的前提下有序恢复生产,生活和工作秩序,五一期间,文旅部门在落实防控举措的同时,推出了多款套票文旅产品,得到消费者的积极回应.下面是文旅部门在某地区推出六款不同价位的旅游套票,每款的套票价格x(单位:元)与购买人数y(单位:万人)的数据如下表:
旅游类别
城市展馆科技游
乡村特色游
齐鲁红色游
登山套票
游园套票
观海套票
套票价格x(元)
39
49
58
67
77
86
购买数量y(万人)
16.7
18.7
20.6
22.5
24.1
25.6
在分析数据、描点绘图中,发现散点集中在一条直线附近,其中
(1)根据所给数据,求y关于x的回归方程;
附:①可能用到的数据;.
②对于一组数据,其回归直线的斜率和截距的最小二乘估计值分别为
2.(2022·吉林长春·模拟预测(理))今年全国两会期间,习近平总书记在看望参加全国政协十三届五次会议的农业界、社会福利和社会保障界委员时指出“粮食安全是‘国之大者’.悠悠万事,吃饭为大.”某校课题小组针对粮食产量与化肥施用量以及与化肥有效利用率间关系进行研究,收集了10组化肥施用量和粮食亩产量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值.每亩化肥施用量为x(单位:公斤),粮食亩产量为y(单位:百公斤).
参考数据:
650
91.5
52.5
1478.6
30.5
15
15
46.5
表中,
(1)根据散点图判断,与,哪一个适宜作为粮食亩产量y关于每亩化肥施用量x的回归方程(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;并预测每亩化肥施用量为27公斤时,粮食亩产量y的值;()
附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,;②若随机变量,则有,.
3.(2022·山东日照·二模)2018年9月10日,全国教育大会在北京召开,习近平总书记在会上提出“培养德智体美劳全面发展的社会主义建设者和接班人”.某学校贯彻大会精神,为学生开设了一门模具加工课,经过一段时间的学习,拟举行一次模具加工大赛,学生小明、小红打算报名参加大赛.
(1)赛前,小明进行了一段时间的强化训练,加工完成一个模具的平均速度y(秒)与训练天数x(天)有关,经统计得到如下表数据:
x(天)
1
2
3
4
5
6
7
y(秒)
990
990
450
320
300
240
210
经研究发现,可用作为回归方程模型,请利用表中数据,求出该回归方程,并预测小明经过50天训练后,加工完成一个模具的平均速度y约为多少秒?
参考数据:(其中)
1845
0.37
0.55
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
4.(2022·江西赣州·二模(理))某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次,统计数据如下表所示:
x
1
2
3
4
5
6
7
y
6
11
21
34
66
101
196
根据以上数据,绘制了如图所示的散点图.
(1)根据散点图,判断在推广期内,与(c,d均为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及题干中表格内的数据,建立y关于x的回归方程,并预测活动推出第8天使用扫码支付的人次.
参考数据:
62.14
1.54
2535
50.12
3.47
其中,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
5.(2022·湖南·雅礼中学二模)“不关注分数,就是对学生的今天不负责:只关注分数,就是对学生的未来不负责.”为锻炼学生的综合实践能力,长沙市某中学组织学生对雨花区一家奶茶店的营业情况进行调查统计,得到的数据如下:
月份x
2
4
6
8
10
12
净利润(万元〕y
0.9
2.0
4.2
3.9
5.2
5.1
(1)设.试建立y关于x的非线性回归方程和(保留2位有效数字);
(2)从相关系数的角度确定哪一个模型的拟合效果更好,并据此预测次年2月()的净利润(保留1位小数).
附:①相关系数,回归直线中斜率和截距的最小二乘估计公式分别为;②参考数据:,
突破十:独立性检验
1.(2022·四川·双流中学模拟预测(文))自《“健康中国2030”规划纲要》颁布实施以来,越来越多的市民加入到绿色运动“健步走”行列以提高自身的健康水平与身体素质. 某调查小组为了解本市不同年龄段的 市民在一周内健步走的情况,在市民中随机抽取了200人进行调查,部分结果如下表所示,其中一周内健步走少于5万步的人数占样本总数的 岁以上(含45岁)的人数占样本总数的.
一周内健步走万步
一周内健步走万
总计
45岁以上(含45岁)
90
45岁以下
总计
200
(1)请将题中表格补充完整,并判断是否有的把握认为该市市民一周内健步走的步数与年龄有关;
附:
0.150
0.100
0.050
0.025
2.072
2.706
3.841
5.024
,其中.
2.(2022·陕西·咸阳市高新一中模拟预测(文))在2021年的一次车展上,某国产汽车厂家的一个品牌推出了1.5升混动版和纯电动版两款车型,自这两款车型上市后,便获得了不错的口碑,汽车测评人老李通过自媒体平台,分8个指标对这两款车型进行了综合评测打分(满分:5分),如图所示:
(1)求综合评测分数的平均值;从图8个指标中任选1个,求指标分数为4.93的概率;
(2)老李对两款车型的车主的性别作了统计,得到数据如下列联表:
混动版
纯电动版
合计
男
25
女
15
60
合计
70
请将上述列联表补充完整,并判断是否有的把握认为喜欢哪款车型和性别有关.
附:,其中.
3.(2022·广西钦州·模拟预测(文))热心网友们调查统计了柳州市某网红景点在2022年6月至10月的旅游收入(单位:万元),得到以下数据:
月份
6
7
8
9
10
旅游收入
10
12
11
12
20
(1)根据表中所给数据,用相关系数加以判断,是否可用线性回归模型拟合与的关系?若可以,求出关于之间的线性回归方程;若不可以,请说明理由;
(2)为调查游客对该景点的评价情况,网友们随机抽查了200名游客,得到如图列联表,请填写列联表,并判断能否有99.9%的把握认为“游客是否喜欢该网红景点与性别有关联”?
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考数据:,,,,注:与的计算结果精确到0.001.参考公式:相关系数,线性回归方程:,其中,,.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
4.(2022·广西·模拟预测(理))某学校共有1000名学生参加数学知识竞赛,其中男生200人.为了了解该校学生在数学知识竞赛中的情况,采取按性别分层抽样,随机抽取了100名学生进行调查,分数分布在450~950分之间.将分数不低于750分的学生称为“高分选手”.根据调查的结果绘制的学生分数频率分布直方图如图所示.
(1)求的值,并估计该校学生分数的平均数(同一组中的数据用该组区间的中点值作代表);
(2)若样本中属于“高分选手”的男生有10人,完成下列列联表,并判断是否有99.5%的把握认为该校学生属于“高分选手”与“性别”有关.
属于“高分选手”
不属于“高分选手”
合计
男生
女生
合计
参考公式:,其中.
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
5.(2022·吉林·东北师大附中模拟预测)某兴趣小组为了解某城市不同年龄段的市民每周的阅读时长情况,在市民中随机抽取了人进行调查,并按市民的年龄是否低于岁及周平均阅读时间是否少于小时将调查结果整理成列联表,现统计得出样本中周平均阅读时间少于小时的人数占样本总数的.岁以上(含岁)的样本占样本总数的,岁以下且周平均阅读时间少于小时的样本有人.
周平均阅读时间少于小时
周平均阅读时间不少于小时
合计
岁以下
岁以上(含岁)
合计
(1)请根据已知条件将上述列联表补充完整,并依据小概率值的独立性检验,分析周平均阅读时间长短与年龄是否有关联.如果有关联,解释它们之间如何相互影响.
参考公式及数据:,.
第三部分:冲刺重难点特训
一、单选题
1.(2022·河南·邓州春雨国文学校高一阶段练习)现从700瓶水中抽取5瓶进行检验,利用随机数表抽取样本时,先将700瓶水编号,可以编为000,001,002,…,699,在随机数表中任选一个数,例如选出第8行第6列的数3.(下面摘取了附表1的第8行与第9行)
63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54
规定从选定的数3开始向右读,得到的第5个样本的编号为( )
A.719 B.556 C.512 D.050
2.(2022·安徽省宿州市第二中学高二期末)某校共有学生人,为了解学生的身高情况,用分层抽样的方法从三个年级中抽取容量为的样本,其中高一抽取人,高二抽取人,则该校高三学生人数为( )
A. B. C. D.
3.(2022·陕西·咸阳市高新一中模拟预测(文))如图是甲、乙两个商场统计同一时间段各自每天的销售额(单位:万元)的茎叶图,假设销售额的中位数为,平均值为,则下列正确的是( )
A. B.
C. D.
4.(2022·河南新乡·一模(理))对2021年某地某款汽车的销售价格(单价:万元)与销售数量进行统计,随机选取1000台汽车的信息,这1000台汽车的销售价格都不低于5万元,低于30万元,将销售价格分为,,,,这五组,统计后制成如图所示的频率分布直方图,则在选取的1000台汽车中,销售价格在内的车辆台数为( )
A.175 B.375 C.75 D.550
5.(2022·湖北·荆州中学模拟预测)酒后驾驶是严重危害交通安全的行为,某交通管理部门对辖区内四个地区(甲、乙、丙、丁)的酒驾治理情况进行检查督导,若“连续8天,每天查获的酒驾人数不超过10”,则认为“该地区酒驾治理达标”,根据连续8天检查所得数据的数字特征推断,酒驾治理一定达标的地区是( )
A.甲地:均值为7,方差为2 B.乙地:众数为3,中位数为2
C.丙地,均值为4,中位数为5 D.丁地:极差为,中位数为8
6.(2022·天津·耀华中学二模)2022年北京冬季奥运会中国体育代表团共收获9金4银2铜,金牌数和奖牌数均创历史新高.获得的9枚金牌中,5枚来自雪上项目,4枚来自冰上项目.某体育院校随机调查了100名学生冬奥会期间观看雪上项目和冰上项目的时间长度(单位:小时),并按,,,,分组,分别得到频率分布直方图如下:
估计该体育院校学生观看雪上项目和冰上项目的时间长度的第75百分位数分别是和,方差分别是和,则( )
A., B., C., D.,
7.(2022·陕西榆林·三模(理))某公司计划招聘一批新员工,现有100名应届毕业生应聘,通过考试成绩择优录取,这100人考试成绩的频率分布直方图如图所示,若该公司计划招聘60名新员工,则估计新员工的最低录取成绩为( )
A.75分 B.78分 C.80分 D.85分
8.(2022·黑龙江·哈尔滨三中一模(文))某产品的广告费用与销售额的统计数据如下表:
广告费用(万元)
4
2
3
5
销售额(万元)
49
26
39
54
根据上表可得回归方程中的为9.4,据此模型预报广告费用为7万元时销售额为( )
A.73万元 B.81.4万元 C.77.1万元 D.74.9万元
9.(2022·内蒙古·包钢一中一模(文))人类已进入大数据时代,目前,全球年数据产生量已经从级别跃升到,乃至级别(,,,).由国际数据公司的研究结果得到2008年至2020年全球年数据产生量(单位:)的散点图.根据散点图,下面四个选项中最适宜刻画2008年至2020年全球年数据产生量和实际的函数模型是( )
A. B.
C. D.
10.(2022·江苏南通·模拟预测)某市卫健委用模型的回归方程分析年月份感染新冠肺炎病毒的人数,令后得到的线性回归方程为,则( )
A. B. C. D.
11.(2022·贵州贵阳·模拟预测(理))针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,调查样本中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若有的把握认为是否追星和性别有关,则调查样本中男生至少有( )
参考数据及公式如下:
A.12人 B.11人 C.10人 D.18人
二、填空题
12.(2022·上海市向明中学高二期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关“作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若有的把握认为中学生追星与性别有关,则女生至少有_____人.
参考数据及公式如下:
0.050
0.010
0.001
3.841
6.635
10.828
,.
13.(2022·全国·高三专题练习)月亮公转与自转的周期大约为30天,阴历是以月相变化为依据.人们根据长时间的观测,统计了月亮出来的时间y(简称“月出时间”,单位:小时)与天数x(x为阴历日数,,且)的有关数据如表,并且根据表中数据,求得y关于x的线性回归方程为.
x
2
4
7
10
15
22
y
8.1
9.4
12
14.4
18.5
24
其中,阴历22日是分界线,从阴历22日开始月亮就要到第二天(即23日0:00)才升起.则以下结论正确的是________.
①样本点的中心为;②;③预报月出时间为16时的那天是阴历13日;④预报阴历27日的月出时间为阴历28日早上4:00.
14.(2022·全国·高三专题练习)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:
使用年限x(单位:年)
1
2
3
4
5
6
7
失效费y(单位:万元)
2.90
3.30
3.60
4.40
4.80
5.20
5.90
由上表数据可知,y与x的相关系数为______.
(精确到0.01,参考公式和数据:,,,)
三、解答题
15.(2022·全国·高三专题练习)某地经过多年的环境治理,已将荒山改造成了绿水青山.为了估计林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积和材积量,得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得到,,.
附:相关系数,.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为,已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
16.(2022·贵州贵阳·高三阶段练习(文))下面给出了根据我国年—2022年水果人均占有量(单位:kg)和年份代码绘制的散点图和线性回归方程的残差图(2016年—2022年的年份代码分别为1~7).
(1)根据散点图分析与之间的相关关系;
(2)根据散点图相应数据计算得,,求关于的线性回归方程(数据精确到);
(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果.
附:回归方程中的斜率和截距的最小二乘法估计公式分别为
17.(2022·新疆兵团第二师华山中学高三阶段练习(理))时值金秋十月,正是秋高气爽,阳光明媚的美好时刻.复兴中学一年一度的校运会正在密锣紧鼓地筹备中,同学们也在热切地期盼着,都想为校运会出一份力.小智同学则通过对学校有关部门的走访,随机地统计了过去许多年中的五个年份的校运会“参与”数及相关数据,并进行分析,希望能为运动会组织者科学地安排提供参考.
附:①过去许多年来学校的学生数基本上稳定在3500人左右;②“参与”人数是指运动员和志愿者,其余同学均为“啦啦队员”,不计入其中;③用数字表示小智同学统计的五个年份的年份数,今年的年份数是6;
统计表(一)
年份数
1
2
3
4
5
“参与”人数(千人)
1.9
2.3
2.0
2.5
2.8
统计表(二)
高一(3)(4)班参加羽毛球比赛的情况:
男生
女生
小计
参加(人数)
26
50
不参加(人数)
20
小计
44
100
(1)请你与小智同学一起根据统计表(一)所给的数据,求出“参与”人数关于年份数的线性回归方程,并预估今年的校运会的“参与”人数;
(2)根据统计表(二),请问:你能否有超过 的把握认为“羽毛球运动”与“性别”有关?
参考公式和数据一:,,,
参考公式二:,其中.
参考数据:
18.(2022·新疆·克拉玛依市高级中学高二阶段练习(文))海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记表示事件“旧养殖法的箱产量低于50kg”,估计的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
箱产量50kg
箱产量50kg
旧养殖法
新养殖法
附:
0.050 0.010 0.001
3.841 6.635 10.828
相关试卷
这是一份第6讲 素养提升之圆锥曲线新情境、新考法专项冲刺-【冲刺双一流】备战2023年高考数学二轮复习核心专题讲练(新高考版),文件包含第6讲素养提升之圆锥曲线新情境新考法专项冲刺原卷版docx、第6讲素养提升之圆锥曲线新情境新考法专项冲刺解析版docx等2份试卷配套教学资源,其中试卷共50页, 欢迎下载使用。
这是一份第5讲 圆锥曲线综合问题-【冲刺双一流】备战2023年高考数学二轮复习核心专题讲练(新高考版),文件包含第5讲圆锥曲线综合问题原卷版docx、第5讲圆锥曲线综合问题解析版docx等2份试卷配套教学资源,其中试卷共103页, 欢迎下载使用。
这是一份第3讲 双曲线(重难题型)-【冲刺双一流】备战2023年高考数学二轮复习核心专题讲练(新高考版),文件包含第3讲双曲线原卷版docx、第3讲双曲线解析版docx等2份试卷配套教学资源,其中试卷共64页, 欢迎下载使用。