新高考数学二轮复习 专题突破 专题5 第3讲 统计与统计案例(含解析)
展开考点一 用样本估计总体
核心提炼
1.用样本的频率分布估计总体的分布
(1)频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示eq \f(频率,组距),频率=组距×eq \f(频率,组距).
(2)在频率分布直方图中各小长方形的面积之和为1.
2.用样本的数字特征估计总体的数字特征
样本数据:x1,x2,…,xn.
(1)标准差:样本数据到平均数的一种平均距离,
s=eq \r(\f(1,n)[x1-\x\t(x)2+x2-\x\t(x)2+…+xn-\x\t(x)2]).
(2)方差:s2=eq \f(1,n)[(x1-eq \x\t(x))2+(x2-eq \x\t(x))2+…+(xn-eq \x\t(x))2](xn是样本数据,n是样本容量,eq \x\t(x)是样本平均数).
(3)若a>0,数据ax1+b,ax2+b,…,axn+b的标准差为as,方差为a2s2.
例1 (1)某学校为了解男生身体发育情况,从2 000名男生中抽查了100名男生的体重情况,根据数据绘制样本的频率分布直方图,如图所示,下列说法中错误的是( )
A.样本的众数约为67 eq \f(1,2)
B.样本的中位数约为66 eq \f(2,3)
C.样本的平均值约为66
D.体重超过75 kg的学生频数约为200人
答案 C
解析 对于A,样本的众数为eq \f(65+70,2)=67 eq \f(1,2),故A正确;
对于B,设样本的中位数为x,则5×0.03+5×0.05+(x-65)×0.06=0.5,
解得x=66 eq \f(2,3),故B正确;
对于C,由直方图估计样本平均值可得57.5×0.15+62.5×0.25+67.5×0.30+72.5×0.20+77.5×0.10=66.75,故C错误;
对于D,2000名男生中体重超过75 kg的人数大约为2000×5×0.02=200,故D正确.
(2)(2022·张家口模拟)2021年11月10日,中国和美国在联合国气候变化格拉斯哥大会期间发布《中美关于在21世纪20年代强化气候行动的格拉斯哥联合宣言》(以下简称《宣言》).承诺继续共同努力,并与各方一道,加强《巴黎协定》的实施,双方同意建立“21世纪20年代强化气候行动工作组”,推动两国气候变化合作和多边进程.为响应《宣言》要求,某地区统计了2020年该地区一次能源消费结构比例,并规划了2030年一次能源消费结构比例,如图所示:
经测算,预估该地区2030年一次能源消费量将增长为2020年的2.5倍,预计该地区( )
A.2030年煤的消费量相对2020年减少了
B.2030年天然气的消费量比2020年的消费量增长了5倍
C.2030年石油的消费量相对2020年不变
D.2030年水、核、风能的消费量是2020年的7.5倍
答案 D
解析 设2020年该地区一次能源消费总量为a,
2020年煤的消费量为0.6a,规划2030年煤的消费量为a×2.5×0.3=0.75a>0.6a,故A错误;
2020年天然气的消费量为0.1a,规划2030年天然气的消费量为a×2.5×0.2=0.5a,增长了0.4a=4·0.1a,增长了4倍,故B错误;
2020年石油的消费量为0.2a,规划2030年石油的消费量为a×2.5×0.2=0.5a>0.2a,故C错误;
2020年水、核、风能的消费量为0.1a,规划2030年水、核、风能的消费量为a×2.5×0.3=0.75a=7.5×0.1a,故D正确.
规律方法 利用频率分布直方图求众数、中位数与平均数.
在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即众数.
(2)中位数左边和右边的小长方形的面积和相等.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
跟踪演练1 (1)(2022·兰州模拟)2021年7月,中共中央办公厅、国务院办公厅印发《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》.各地积极推进“双减”工作,义务教育阶段学生负担得到有效减轻.下表是某校七年级10名学生“双减”前后课外自主活动时间的随机调查情况(单位:小时).
设“双减”前、后这两组数据的平均数分别是eq \x\t(x)1,eq \x\t(x)2,标准差分别是s1,s2,则下列关系正确的是( )
A.eq \x\t(x)2=eq \x\t(x)1+0.56,s1
C.eq \x\t(x)2=eq \x\t(x)1+0.65,s1
答案 A
解析 eq \x\t(x)1=eq \f(1,10)×(1.3+1.2+1.5+1.6+1.2+1.3+1.5+1.1+1.1+1)=1.28,
eq \x\t(x)2=eq \f(1,10)×(1.5+2.5+2+3+1.5+2+2.4+0.9+1.4+1.2)=1.84,
所以eq \x\t(x)2=eq \x\t(x)1+0.56;
由表格知,“双减”前的数据比较集中,“双减”后的数据比较分散,
故“双减”前的标准差小于“双减”后的标准差,即s1
关于这个时间段的折线图,有下列说法:
①所有月份的同比增长率都是正数;
②环比增长率为正数的月份比为负数的月份多;
③2021年9月到10月的同比增长率的增幅等于10月到11月的同比增长率的增幅;
④同比增长率的极差为0.9.
其中正确说法的个数为( )
A.1 B.2 C.3 D.4
答案 C
解析 ①显然正确;
②环比增长率为正数的月份有6个,为负数的月份有5个,故②正确;
③2021年9月到10月的同比增长率的增幅为1.5-0.7=0.8,10月到11月的同比增长率增幅为2.3-1.5=0.8,所以同比增长率的增幅相等,③的说法正确;
④同比增长率的极差为2.3-0.4=1.9,所以④的说法错误.
考点二 回归分析
核心提炼
求线性回归方程的步骤
(1)依据样本数据画出散点图,确定两个变量具有线性相关关系(有时可省略).
(2)计算出eq \x\t(x),eq \x\t(y),eq \(a,\s\up6(^)),eq \(b,\s\up6(^)).
(3)写出线性回归方程.
例2 (2022·长沙模拟)为了巩固拓展脱贫攻坚的成果,振兴乡村经济,某知名电商平台决定为脱贫乡村的特色水果开设直播带货专场.该特色水果的热卖黄金时段为7月10日至9月10日,为了解直播的效果和关注度,该电商平台统计了已直播的2022年7月10日至7月14日时段中的相关数据,这5天的第x天到该电商平台专营店购物的人数y(单位:万人)的数据如下表:
(1)依据表中的统计数据,请判断该电商平台的第x天与到该电商平台专营店购物的人数y(单位:万人)是否具有较高的线性相关程度?(参考:若0.3<|r|<0.75,则线性相关程度一般,若|r|>0.75,则线性相关程度较高,计算r时精确度为0.01)
(2)求购买人数y与直播的第x天的线性回归方程;用样本估计总体,请预测从2022年7月10日起的第38天到该专营店购物的人数(单位:万人).
参考数据:eq \i\su(i=1,5, )(yi-eq \x\t(y))2=434,eq \i\su(i=1,5, )(xi-eq \x\t(x))(yi-eq \x\t(y))=64,eq \r(4 340)≈65.879.
附:相关系数r=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,n, )xi-\x\t(x)2\i\su(i=1,n, )yi-\x\t(y)2)),
线性回归方程的斜率eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,n, )xi-\x\t(x)2),截距eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x).
解 (1)由表中数据可得eq \x\t(x)=3,eq \x\t(y)=90,所以eq \i\su(i=1,5, )(xi-eq \x\t(x))2=10,
又eq \i\su(i=1,5, )(yi-eq \x\t(y))2=434,eq \i\su(i=1,5, )(xi-eq \x\t(x))(yi-eq \x\t(y))=64,
所以r=eq \f(\i\su(i=1,5, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,5, )xi-\x\t(x)2\i\su(i=1,5, )yi-\x\t(y)2))=eq \f(64,\r(4 340))≈0.97>0.75,
所以该电商平台直播黄金时段的天数x与购买人数y具有较高的线性相关程度.
(2)由表中数据可得eq \(b,\s\up6(^))=eq \f(\i\su(i=1,5, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,5, )xi-\x\t(x)2)=eq \f(64,10)=6.4,
则eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x)=90-6.4×3=70.8,
所以eq \(y,\s\up6(^))=6.4x+70.8,
令x=38,可得eq \(y,\s\up6(^))=6.4×38+70.8=314(万人).
预测从2022年7月10日起的第38天到该专营店购物的人数为314万.
易错提醒 (1)样本点不一定在回归直线上,但点(eq \x\t(x),eq \x\t(y))一定在回归直线上.
(2)求eq \(b,\s\up6(^))时,灵活选择公式,注意公式的推导和记忆.
(3)利用相关系数判断相关性强弱,看|r|的大小,而不是r的大小.
(4)区分相关系数r与相关指数R2.
(5)通过线性回归方程求的都是估计值,而不是真实值.
跟踪演练2 (1)(2022·汕头模拟)如图所示,5个(x,y)数据,去掉D(3,10)后,下列说法正确的是( )
A.相关系数r变小
B.残差平方和变大
C.相关指数R2变小
D.解释变量x与预报变量y的相关性变强
答案 D
解析 由散点图知,去掉离群点D后,解释变量x与预报变量y的相关性变强,且为正相关,
所以相关系数r的值变大,相关指数R2的值变大,残差平方和变小.
(2)(2022·重庆市育才中学模拟)某种产品的价格x(单位:元/kg)与需求量y(单位:kg)之间的对应数据如表所示:
根据表中的数据可得线性回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+14.4,则以下正确的是________.(填序号)
①相关系数r>0;
②eq \(b,\s\up6(^))=-0.32;
③若该产品价格为35元/kg,则日需求量大约为3.2 kg;
④第四个样本点对应的残差为-0.4.
答案 ②③④
解析 由表中的数据,eq \x\t(x)=eq \f(10+15+20+25+30,5)=20,eq \x\t(y)=eq \f(11+10+8+6+5,5)=8,
将eq \x\t(x),eq \x\t(y)代入eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+14.4得eq \(b,\s\up6(^))=-0.32,所以①错误,②正确;
对③,由题意将x=35代入eq \(y,\s\up6(^))=-0.32x+14.4得eq \(y,\s\up6(^))=3.2,所以日需求量大约为3.2 kg,
所以③正确;
对④第四个样本点对应的残差为y4-eq \(y,\s\up6(^))4=6-(-0.32×25+14.4)=-0.4,所以④正确.
考点三 独立性检验
核心提炼
独立性检验的一般步骤
(1)根据样本数据列2×2列联表;
(2)根据公式K2=eq \f(nad-bc2,a+bc+da+cb+d),计算K2的值;
(3)查表比较K2与临界值的大小关系,作统计判断.K2越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.
例3 (2022·济宁模拟)为提高教育教学质量,越来越多的高中学校采用寄宿制的封闭管理模式.某校对高一新生是否适应寄宿生活做调查,从高一新生中随机抽取了100人,其中男生占总人数的40%,且只有20%的男生表示自己不适应寄宿生活,女生中不适应寄宿生活的人数占总人数的32%.学校为了考查学生对寄宿生活适应与否是否与性别有关,构建了2×2列联表.
(1)请将2×2列联表补充完整,并判断能否有99%的把握认为“适应寄宿生活与否”与性别有关;
(2)从男生中以“是否适应寄宿生活”为标准采用分层抽样的方法随机抽取10人,再从这10人中随机抽取2人,若所选2名学生中“不适应寄宿生活”的人数为X,求随机变量X的分布列及均值.
附:K2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.
解 (1)补充列联表如下:
根据列联表中的数据,K2=eq \f(100×8×28-32×322,40×60×40×60)≈11.111>6.635,
所以有99%的把握认为“适应寄宿生活与否”与性别有关.
(2)抽取的10人中,有2人不适应寄宿生活,有8人适应寄宿生活,
故随机变量X的取值可以是0,1,2,
P(X=0)=eq \f(C\\al(2,8),C\\al(2,10))=eq \f(28,45),P(X=1)=eq \f(C\\al(1,8)C\\al(1,2),C\\al(2,10))=eq \f(16,45),
P(X=2)=eq \f(C\\al(2,2),C\\al(2,10))=eq \f(1,45),
随机变量X的分布列如下:
因此,E(X)=0×eq \f(28,45)+1×eq \f(16,45)+2×eq \f(1,45)=eq \f(2,5).
易错提醒 (1)K2越大,两分类变量无关的可能性越小,推断犯错误的概率越小,通过表格查得无关的可能性.
(2)在犯错误的概率不超过0.01的前提下认为两个变量有关,并不是指两个变量无关的可能性为0.01.
跟踪演练3 (2022·内江模拟)国内某大学有男生6 000人,女生4 000人,该校想了解本校学生的运动状况,根据性别采取分层抽样的方法从全校学生中抽取100人,调查他们平均每天运动的时间(单位:小时),统计表明该校学生平均每天运动的时间范围是[0,3],若规定平均每天运动的时间不少于2小时的学生为“运动达人”,低于2小时的学生为“非运动达人”.根据调查的数据按性别与“是否为‘运动达人’”进行统计,得到如下2×2列联表:
(1)请根据题目信息,将2×2列联表中的数据补充完整,并通过计算判断能否在犯错误的概率不超过0.025的前提下认为性别与“是否为‘运动达人’”有关;
(2)将此样本的频率估计为总体的概率,随机调查该校的3名男生,设调查的3人中运动达人的人数为随机变量X,求X的分布列和均值E(X)及方差D(X).
附表及公式:
K2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.
解 (1)由题意,得该校根据性别采取分层抽样的方法抽取的100人中,有60人为男生,40人为女生,
据此2×2列联表中的数据补充如下.
∴K2=eq \f(100×36×26-24×142,50×50×60×40)=6,
又6>5.024,
∴在犯错误的概率不超过0.025的前提下,可以认为性别与“是否为‘运动达人’”有关.
(2)由题意可知,该校每个男生是运动达人的概率为eq \f(36,60)=eq \f(3,5),
故X~Beq \b\lc\(\rc\)(\a\vs4\al\c1(3,\f(3,5))),X可取的值为0,1,2,3,
∴P(X=0)=Ceq \\al(0,3)eq \b\lc\(\rc\)(\a\vs4\al\c1(\f(2,5)))3-0eq \b\lc\(\rc\)(\a\vs4\al\c1(\f(3,5)))0=eq \f(8,125),
P(X=1)=Ceq \\al(1,3)eq \b\lc\(\rc\)(\a\vs4\al\c1(\f(2,5)))3-1eq \b\lc\(\rc\)(\a\vs4\al\c1(\f(3,5)))1=eq \f(36,125),
P(X=2)=Ceq \\al(2,3)eq \b\lc\(\rc\)(\a\vs4\al\c1(\f(2,5)))3-2eq \b\lc\(\rc\)(\a\vs4\al\c1(\f(3,5)))2=eq \f(54,125),
P(X=3)=Ceq \\al(3,3)eq \b\lc\(\rc\)(\a\vs4\al\c1(\f(2,5)))3-3eq \b\lc\(\rc\)(\a\vs4\al\c1(\f(3,5)))3=eq \f(27,125).
X的分布列为
∴E(X)=3×eq \f(3,5)=eq \f(9,5),D(X)=3×eq \f(3,5)×eq \f(2,5)=eq \f(18,25).
专题强化练
一、选择题
1.某公司2022年1月至7月空调销售完成情况如图,如7月份销售量是190台,设月份为x,销售量为y,由统计数据(xi,yi)(i=1,2,…,7)得到散点图,下列四个回归方程模型中最适合作为销售量y和月份x的回归方程模型的是( )
A.eq \(y,\s\up6(^))=eq \(a,\s\up6(^))+eq \(b,\s\up6(^))x B.eq \(y,\s\up6(^))=eq \(a,\s\up6(^))+eq \(b,\s\up6(^))x2
C.eq \(y,\s\up6(^))=eq \(a,\s\up6(^))+eq \(b,\s\up6(^))ex D.eq \(y,\s\up6(^))=eq \(a,\s\up6(^))+eq \(b,\s\up6(^))ln x
答案 B
解析 由散点图分布可知,散点图分布在一个二次函数的图象附近,因此,最适合作为销售量y和月份x的回归方程模型的是eq \(y,\s\up6(^))=eq \(a,\s\up6(^))+eq \(b,\s\up6(^))x2.
2.(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如图,则( )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
答案 B
解析 对于A,讲座前问卷答题的正确率的中位数是eq \f(70%+75%,2)=72.5%,所以A错误;
对于B,讲座后问卷答题的正确率分别是80%,85%,85%,85%,85%,90%,90%,95%,100%,100%,其平均数显然大于85%,所以B正确;
对于C,由题图可知,讲座前问卷答题的正确率波动较大,讲座后问卷答题的正确率波动较小,所以讲座前问卷答题的正确率的标准差大于讲座后问卷答题的正确率的标准差,所以C错误;
对于D,讲座前问卷答题的正确率的极差是95%-60%=35%,讲座后问卷答题的正确率的极差是100%-80%=20%,所以讲座前问卷答题的正确率的极差大于讲座后问卷答题的正确率的极差,所以D错误.故选B.
3.(2022·济南模拟)某学校于3月12日组织师生举行植树活动,购买垂柳、银杏、侧柏、海桐四种树苗共计1 200棵,比例如图所示.高一、高二、高三报名参加植树活动的人数分别为600,400,200,若每种树苗均按各年级报名人数的比例进行分配,则高三年级应分得的侧柏的数量为( )
A.34 B.46 C.50 D.70
答案 C
解析 由扇形统计图知,购买的1 200棵树苗中,侧柏的数量为1 200×25%=300,
依题意,高一、高二、高三分到的侧柏的棵数比为600∶400∶200=3∶2∶1,
所以高三年级应分得的侧柏的数量为eq \f(1,3+2+1)×300=50.
4.(2022·大同模拟)中国运动员谷爱凌在2022北京冬奥会自由式滑雪女子大跳台决赛中以188.25分夺得金牌.自由式滑雪大跳台比赛一般有资格赛和决赛两个阶段,比赛规定:资格赛前12名进入决赛.在某次自由式滑雪大跳台比赛中,24位参加资格赛选手的成绩各不相同.如果选手甲知道了自己的成绩后,则他可根据其他23位同学成绩的哪个数据判断自己能否进入决赛( )
A.中位数 B.极差
C.平均数 D.方差
答案 A
解析 其他23位参赛同学,按成绩从高到低排列,这23个数的中位数恰好是第12位选手的成绩.
若选手甲的成绩大于该选手的成绩,则进入决赛,否则不能进入决赛,
因此选手甲可根据中位数判断自己是否能进入决赛.
5.(2022·西安模拟)某大学生暑假到工厂参加劳动,生产了100件产品,质检人员测量其长度(单位:厘米),将所得数据分成6组:[90,91),[91,92),[92,93),[93,94),[94,95),[95,96],得到如图所示的频率分布直方图,则对这100件产品,下列说法中不正确的是( )
A.b=0.25
B.长度落在区间[93,94)内的个数为35
C.长度的中位数一定落在区间[93,94)内
D.长度的众数一定落在区间[93,94)内
答案 D
解析 对于A,由频率和为1,得(0.1×2+b+0.35+0.15+0.05)×1=1,解得b=0.25,所以A正确;
对于B,长度落在区间[93,94)内的个数为100×0.35=35,所以B正确;
对于C,[90,93)内有45个数,[94,96]内有20个数,所以长度的中位数一定落在区间[93,94)内,所以C正确;
对于D,根据频率分布直方图不能判断长度的众数一定落在区间[93,94)内,所以D错误.
6.(2022·运城模拟)从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.世界性与区域性温度的异常、旱涝频繁发生给蝗灾发生创造了机会.已知蝗虫的产卵量y与温度x的关系可以用模型eq \(y,\s\up6(^))=eq \(c,\s\up6(^))1 (其中e为自然对数的底数)拟合,设z=ln y,其变换后得到一组数据:
由上表可得线性回归方程eq \(z,\s\up6(^))=0.2x+eq \(a,\s\up6(^)),则当x=60时,蝗虫的产卵量y的估计值为( )
A.e6 B.10 C.6 D.e10
答案 D
解析 由表格数据知eq \x\t(x)=eq \f(1,5)×(20+23+25+27+30)=25,eq \x\t(z)=eq \f(1,5)×(2+2.4+3+3+4.6)=3,因为数对(eq \x\t(x),eq \x\t(z))满足eq \(z,\s\up6(^))=0.2x+eq \(a,\s\up6(^)),得eq \(a,\s\up6(^))=3-0.2×25=-2,∴z=0.2x-2,即ln eq \(y,\s\up6(^))=0.2x-2,∴eq \(y,\s\up6(^))=e0.2x-2,∴当x=60时,eq \(y,\s\up6(^)) =e10,
故当x=60时,蝗虫的产卵量y的估计值为e10.
7.为了解高中生选科时是否选物理与数学成绩之间的关系,某教研机构随机抽取了50名高中生,通过问卷调查,得到以下数据:
由以上数据,计算得到K2=eq \f(50×13×20-10×72,23×27×20×30)≈4.844,根据临界值表,以下说法错误的是( )
参考数据:
A.有95%的把握认为是否选择物理与数学成绩有关
B.在犯错误的概率不超过0.05的前提下,认为是否选择物理与数学成绩有关
C.95%的数学成绩优异的同学选择物理
D.若表格中的所有数据都扩大为原来的10倍,在相同条件下,结论会发生变化
答案 C
解析 因为4.844>3.841,由临界值表知,P(K2≥3.841)≈0.05,
所以有95%的把握认为是否选择物理与数学成绩有关;
在犯错误的概率不超过0.05的前提下,认为是否选择物理与数学成绩有关;
若表中的数据都扩大为原来的10倍,K2=eq \f(500×130×200-100×702,230×270×200×300)≈48.44,
又48.44>10.828,故结论会发生变化.
8.(2022·朔州模拟)2022年北京冬奥会开幕式各个代表团所身着的运动鞋服品牌一度成为热议话题,运动鞋服是近年来新消费市场中规模相当庞大的品类,如图为2022年中国消费者运动鞋服购置品牌偏好调查,根据该图,下列说法错误的是( )
A.2022年中国运动鞋服消费者为父母长辈购买运动鞋服时选择国产品牌的占比超过70%
B.2022年中国运动鞋服消费者没有为孩子购买运动鞋服的占比低于20%
C.2022年中国运动鞋服消费者在为自己购买运动鞋服时选择国外品牌的占比不超过eq \f(1,4)
D.2022年中国运动鞋服消费者在为朋友购买运动鞋服时选择国产品牌的人数超过选择国外品牌人数的2倍
答案 C
解析 2022年中国运动鞋服消费者为父母长辈购买运动鞋服时选择国产品牌的占比为71.9%,超过70%,故A正确;
2022年中国运动鞋服消费者没有为孩子购买运动鞋服的占比为17.2%,低于20%,故B正确;
2022年中国运动鞋服消费者在为自己购买运动鞋服时选择国外品牌的占比为26.8%,超过了eq \f(1,4),故C错误;
2022年中国运动鞋服消费者在为朋友购买运动鞋服时选择国产品牌的人数占比为49.9%,选择国外品牌的人数占比为24.0%,故D正确.
9.某学校举行诗歌朗诵比赛,10位评委对甲、乙两位同学的表现打分,满分为10分,将两位同学的得分制成如下茎叶图,其中茎叶图茎部分是得分的个位数,叶部分是得分的小数,则下列说法错误的是( )
A.甲同学的平均分大于乙同学的平均分
B.甲、乙两位同学得分的极差分别为2.4和1
C.甲、乙两位同学得分的中位数相同
D.甲同学得分的方差更小
答案 D
解析 对于甲,eq \x\t(x)甲=eq \f(1,10)×(7.8+7.8+7.5+7.5+8.0+8.0+8.2+8.3+8.4+9.9)=8.14,
对于乙,eq \x\t(x)乙=eq \f(1,10)×(7.5+7.8+7.8+7.8+8.0+8.0+8.3+8.3+8.5+8.5)=8.05,故A正确;
甲的极差为9.9-7.5=2.4,乙的极差为8.5-7.5=1,故B正确;
甲得分的中位数为eq \f(8+8,2)=8,乙得分的中位数为eq \f(8+8,2)=8,故C正确;
对于甲,seq \\al(2,甲)=eq \f(1,10)×[(7.5-8.14)2+(7.5-8.14)2+(7.8-8.14)2+(7.8-8.14)2+(8-8.14)2+(8-8.14)2+(8.2-8.14)2+(8.3-8.14)2+(8.4-8.14)2+(9.9-8.14)2]=0.428 4,
对于乙,seq \\al(2,乙)=eq \f(1,10)×[(7.5-8.05)2+(7.8-8.05)2+(7.8-8.05)2+(7.8-8.05)2+(8-8.05)2+(8-8.05)2+(8.3-8.05)2+(8.3-8.05)2+(8.5-8.05)2+(8.5-8.05)2]=0.102 5,故D错误.
10.(2022·荆州模拟)酒后驾驶是严重危害交通安全的行为,某交通管理部门对辖区内四个地区(甲、乙、丙、丁)的酒驾治理情况进行检查督导,若“连续8天,每天查获的酒驾人数不超过10”,则认为“该地区酒驾治理达标”,根据连续8天检查所得数据的数字特征推断,酒驾治理一定达标的地区是( )
A.甲地:平均数为7,方差为2
B.乙地:众数为3,中位数为2
C.丙地:平均数为4,中位数为5
D.丁地:极差为3,中位数为8
答案 A
解析 不妨设8天中,每天查获的酒驾人数从小到大为x1,x2,…,x8,
且xi≥0其中i=1,2,3,…,8,
选项A,若不达标,则x8≥11,由平均数为7可知,其余七个数中至少有一个数不等于7,由方差定义可知,s2=eq \f(1,8)eq \i\su(i=1,7, )(xi-7)2+eq \f(1,8)(x8-7)2>2,这与方差为2矛盾,从而甲地一定达标,故A正确;
选项B,由众数和中位数的定义可知,当x1=x2=0,x3=x4=1,x5=x6=x7=3,x8=11时,乙地不达标,故B错误;
选项C,若不达标,则x8≥11,由平均数为7可知,因为中位数是5,所以x4+x5=10,
又因为平均数为4,故eq \i\su(i=1,8,x)i=32,从而x1+x2+x3+x6+x7≤32-11-10=11,
且x1≤x2≤x3≤5≤x6≤x7,则当x1=x2=0,x3=1,x4=x5=x6=x7=5,x8=11时满足题意,此时丙地不达标,故C错误;
选项D,由极差和中位数的定义可知,当x1=x2=x3=x4=x5=x6=x7=8,x8=11时,丁地不达标,故D错误.
二、填空题
11.某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集了4组对应数据(x,y),如表所示.(残差=观测值-预测值)
根据表中数据,得出y关于x的线性回归方程为eq \(y,\s\up6(^))=0.7x+eq \(a,\s\up6(^)).据此计算出在样本(4,3)处的残差为-0.15,则表中m的值为________.
答案 4.5
解析 因为样本(4,3)处的残差为-0.15,即y-eq \(y,\s\up6(^))=3-(0.7×4+eq \(a,\s\up6(^)))=-0.15,
所以eq \(a,\s\up6(^))=0.35,
所以线性回归方程为eq \(y,\s\up6(^))=0.7x+0.35,
因为eq \x\t(x)=eq \f(3+4+5+6,4)=4.5,eq \x\t(y)=eq \f(2.5+3+4+m,4)=eq \f(9.5+m,4),
因为样本点的中心(eq \x\t(x),eq \x\t(y))在回归直线上,所以eq \f(9.5+m,4)=0.7×4.5+0.35,
解得m=4.5.
12.(2022·连云港模拟)一组数据x1,x2,…,x10是公差为-1的等差数列,若去掉首末两项x1,x10,则下列说法正确的是________.(填序号)
①平均数变大;②中位数没变;③方差变小;④极差没变.
答案 ②③
解析 由题意可知,对于①,原数据的平均数为eq \x\t(x)=eq \f(1,10)(x1+x2+…+x10)=eq \f(1,10)×5(x5+x6)=eq \f(1,2)(x5+x6),去掉x1,x10后的平均数为eq \x\t(x)′=eq \f(1,8)(x2+x3+…+x9)=eq \f(1,8)×4(x5+x6)=eq \f(1,2)(x5+x6)=eq \x\t(x),即平均数不变,故①错误;
对于②,原数据的中位数为eq \f(1,2)(x5+x6),去掉x1,x10后的中位数仍为eq \f(1,2)(x5+x6),即中位数不变,故②正确;
对于③,设公差为d,则原数据的方差为
s2=eq \f(1,10)eq \b\lc\{\rc\ (\a\vs4\al\c1(\b\lc\[\rc\](\a\vs4\al\c1(x1-\f(1,2)x5+x6))2+\b\lc\[\rc\](\a\vs4\al\c1(x2-\f(1,2)x5+x6))2))
eq \b\lc\ \rc\}(\a\vs4\al\c1(+…+\b\lc\[\rc\](\a\vs4\al\c1(x10-\f(1,2)x5+x6))2))
=eq \f(1,10)eq \b\lc\[\rc\ (\a\vs4\al\c1(\b\lc\(\rc\)(\a\vs4\al\c1(-\f(9,2)d))2+\b\lc\(\rc\)(\a\vs4\al\c1(-\f(7,2)d))2+\b\lc\(\rc\)(\a\vs4\al\c1(-\f(5,2)d))2+\b\lc\(\rc\)(\a\vs4\al\c1(-\f(3,2)d))2))
eq \b\lc\ \rc\ (\a\vs4\al\c1(+\b\lc\(\rc\)(\a\vs4\al\c1(-\f(1,2)d))2+\b\lc\(\rc\)(\a\vs4\al\c1(\f(1,2)d))2+\b\lc\(\rc\)(\a\vs4\al\c1(\f(3,2)d))2+\b\lc\(\rc\)(\a\vs4\al\c1(\f(5,2)d))2+\b\lc\(\rc\)(\a\vs4\al\c1(\f(7,2)d))2))
eq \b\lc\ \rc\](\a\vs4\al\c1(+\b\lc\(\rc\)(\a\vs4\al\c1(\f(9,2)d))2))=eq \f(33,4),去掉x1,x10后的方差为s′2=
eq \f(1,8)eq \b\lc\{\rc\ (\a\vs4\al\c1(\b\lc\[\rc\](\a\vs4\al\c1(x2-\f(1,2)x5+x6))2+\b\lc\[\rc\](\a\vs4\al\c1(x3-\f(1,2)x5+x6))2+…+))
eq \b\lc\ \rc\}(\a\vs4\al\c1(\b\lc\[\rc\](\a\vs4\al\c1(x9-\f(1,2)x5+x6))2))=eq \f(1,8)eq \b\lc\[\rc\ (\a\vs4\al\c1(\b\lc\(\rc\)(\a\vs4\al\c1(-\f(7,2)d))2+\b\lc\(\rc\)(\a\vs4\al\c1(-\f(5,2)d))2))
eq \b\lc\ \rc\ (\a\vs4\al\c1(+\b\lc\(\rc\)(\a\vs4\al\c1(-\f(3,2)d))2+\b\lc\(\rc\)(\a\vs4\al\c1(-\f(1,2)d))2+\b\lc\(\rc\)(\a\vs4\al\c1(\f(1,2)d))2+\b\lc\(\rc\)(\a\vs4\al\c1(\f(3,2)d))2))
eq \b\lc\ \rc\](\a\vs4\al\c1(+\b\lc\(\rc\)(\a\vs4\al\c1(\f(5,2)d))2+\b\lc\(\rc\)(\a\vs4\al\c1(\f(7,2)d))2))=eq \f(21,4),
即方差变小,故③正确;
对于④,原数据的极差为x1-x10=-9d=9,去掉x1,x10后的极差为x2-x9=-7d=7,即极差变小,故④错误.
三、解答题
13.(2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备和新设备生产产品的该项指标的样本平均数分别记为eq \x\t(x)和eq \x\t(y),样本方差分别记为seq \\al(2,1)和seq \\al(2,2).
(1)求eq \x\t(x),eq \x\t(y),seq \\al(2,1),seq \\al(2,2);
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果eq \x\t(y)-eq \x\t(x)≥2eq \r(\f(s\\al(2,1)+s\\al(2,2),10)),则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
解 (1)由表格中的数据易得eq \x\t(x)=
eq \f(-0.2+0.3+0+0.2-0.1-0.2+0+0.1+0.2-0.3,10)+10.0=10.0,
eq \x\t(y)=eq \f(0.1+0.4+0.1+0+0.1+0.3+0.6+0.5+0.4+0.5,10)+10.0=10.3,
seq \\al(2,1)=eq \f(1,10)×[(9.7-10.0)2+2×(9.8-10.0)2+(9.9-10.0)2+2×(10.0-10.0)2+(10.1-10.0)2+2×(10.2-10.0)2+(10.3-10.0)2]=0.036,
seq \\al(2,2)=eq \f(1,10)×[(10.0-10.3)2+3×(10.1-10.3)2+(10.3-10.3)2+2×(10.4-10.3)2+2×(10.5-10.3)2+(10.6-10.3)2]=0.04.
(2)由(1)中数据可得eq \x\t(y)-eq \x\t(x)=10.3-10.0=0.3,
而2eq \r(\f(s\\al(2,1)+s\\al(2,2),10))=eq \r(\f(2,5)s\\al(2,1)+s\\al(2,2))=eq \r(0.030 4),
显然有eq \x\t(y)-eq \x\t(x)>2eq \r(\f(s\\al(2,1)+s\\al(2,2),10))成立,
所以认为新设备生产产品的该项指标的均值较旧设备有显著提高.
14.(2022·广州模拟)为了解某一地区纯电动汽车销售情况,某机构根据统计数据,用最小二乘法得到电动汽车销量y(单位:万台)关于x(年份)的线性回归方程为eq \(y,\s\up6(^))=4.7x-9 459.2,且销量y的方差为seq \\al(2,y)=eq \f(254,5),年份x的方差为seq \\al(2,x)=2.
(1)求y与x的相关系数r,并据此判断电动汽车销量y与年份x的相关性强弱;
(2)该机构还调查了该地区90位购车车主的性别与购车种类情况,得到的数据如下表:
能否在犯错误的概率不超过0.025的前提下认为购买电动汽车与性别有关?
(3)在购买电动汽车的车主中按照性别进行分层抽样抽取7人,再从这7人中随机抽取3人,记这3人中,男性的人数为X,求X的分布列和均值.
①参考数据:eq \r(5×127)=eq \r(635)≈25;
②参考公式:(ⅰ)线性回归方程:eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),其中eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,n, )xi-\x\t(x)2),eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x).
(ⅱ)相关系数:r=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,n, )xi-\x\t(x)2\i\su(i=1,n, )yi-\x\t(y)2)),若r>0.9,则可判断y与x线性相关较强.
(ⅲ)K2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.
附表:
解 (1)相关系数为r=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,n, )xi-\x\t(x)2\i\su(i=1,n, )yi-\x\t(y)2))
=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,n, )xi-\x\t(x)2)·eq \f(\r(\i\su(i=1,n, )xi-\x\t(x)2),\r(\i\su(i=1,n, )yi-\x\t(y)2))=eq \(b,\s\up6(^))·eq \f(\r(ns\\al(2,x)),\r(ns\\al(2,y)))=eq \(b,\s\up6(^))·eq \f(\r(s\\al(2,x)),\r(s\\al(2,y)))
=4.7×eq \r(\f(10,254))=eq \f(47,\r(10)×\r(254))=eq \f(47,2\r(635))≈eq \f(47,50)=0.94>0.9,
故y与x线性相关较强.
(2)∵K2=eq \f(nad-bc2,a+bc+da+cb+d)=eq \f(90×39×15-30×62,45×45×69×21)≈5.031>5.024.
∴可以在犯错误的概率不超过0.025的前提下认为购买新能源车与车主性别有关.
(3)抽样比=eq \f(7,21)=eq \f(1,3),男性车主选取2人,女性车主选取5人,则X的可能取值为0,1,2,
故P(X=0)=eq \f(C\\al(3,5),C\\al(3,7))=eq \f(2,7),P(X=1)=eq \f(C\\al(1,2)C\\al(2,5),C\\al(3,7))=eq \f(4,7),
P(X=2)=eq \f(C\\al(2,2)C\\al(1,5),C\\al(3,7))=eq \f(1,7).
故X的分布列为
∴E(X)=0×eq \f(2,7)+1×eq \f(4,7)+2×eq \f(1,7)=eq \f(6,7).
学生编号
1
2
3
4
5
6
7
8
9
10
“双减”前
1.3
1.2
1.5
1.6
1.2
1.3
1.5
1.1
1.1
1
“双减”后
1.5
2.5
2
3
1.5
2
2.4
0.9
1.4
1.2
日期
7月10日
7月11日
7月12日
7月13日
7月14日
第x天
1
2
3
4
5
人数y (单位:万人)
75
84
93
98
100
x
10
15
20
25
30
y
11
10
8
6
5
不适应寄宿生活
适应寄宿生活
总计
男生
女生
总计
P(K2≥k0)
0.025
0.01
0.001
k0
5.024
6.635
10.828
不适应寄宿生活
适应寄宿生活
总计
男生
8
32
40
女生
32
28
60
总计
40
60
100
X
0
1
2
P
eq \f(28,45)
eq \f(16,45)
eq \f(1,45)
运动时间
性别
运动达人
非运动达人
总计
男生
36
女生
26
总计
100
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
k0
2.072
2.706
3.841
5.024
6.635
运动时间
性别
运动达人
非运动达人
总计
男生
36
24
60
女生
14
26
40
总计
50
50
100
X
0
1
2
3
P
eq \f(8,125)
eq \f(36,125)
eq \f(54,125)
eq \f(27,125)
x
20
23
25
27
30
z
2
2.4
3
3
4.6
选物理
不选物理
总计
数学成绩优异
20
7
27
数学成绩一般
10
13
23
总计
30
20
50
P(K2≥k0)
0.1
0.05
0.01
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
x
3
4
5
6
y
2.5
3
4
m
旧设备
9.8
10.3
10.0
10.2
9.9
9.8
10.0
10.1
10.2
9.7
新设备
10.1
10.4
10.1
10.0
10.1
10.3
10.6
10.5
10.4
10.5
购买非电动车
购买电动车
总计
男性
39
6
45
女性
30
15
45
总计
69
21
90
P(K2≥k0)
0.10
0.05
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
X
0
1
2
P
eq \f(2,7)
eq \f(4,7)
eq \f(1,7)
新高考数学二轮复习考点突破讲义 第1部分 专题突破 专题5 第3讲 统计与成对数据的分析(含解析): 这是一份新高考数学二轮复习考点突破讲义 第1部分 专题突破 专题5 第3讲 统计与成对数据的分析(含解析),共20页。
高考数学二轮复习核心专题讲练:统计与概率第1讲 统计和统计案例(含解析): 这是一份高考数学二轮复习核心专题讲练:统计与概率第1讲 统计和统计案例(含解析),共67页。试卷主要包含了总体平均数与样本平均数,分层随机抽样的步骤,总体集中趋势的估计,总体离散程度的估计,相关关系的强弱等内容,欢迎下载使用。
高考数学二轮复习专题检测15 统计、统计案例 含解析: 这是一份高考数学二轮复习专题检测15 统计、统计案例 含解析,共11页。试卷主要包含了选择题,填空题,解答题等内容,欢迎下载使用。