2021高考数学二轮复习专题七第2讲:统计与统计案例
展开三种抽样方法的区别与联系
[对点训练]
1.(2018·安徽宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的概率都是eq \f(2,7),则男运动员应抽取( )
A.18人 B.16人 C.14人 D.12人
[解析] ∵田径队共有运动员98人,其中女运动员有42人,∴男运动员有56人,
∵每名运动员被抽到的概率都是eq \f(2,7),
∴男运动员应抽取56×eq \f(2,7)=16(人),故选B.
[答案] B
2.(2018·安徽皖南八校联考)某校为了解1000名高一新生的健康状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )
A.16 B.17 C.18 D.19
[解析] 第一组用简单随机抽样抽取的号码为443-(18-1)×eq \f(1000,40)=18,故选C.
[答案] C
3.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
[解析] 设建设前经济收入为a,则建设后经济收入为2a,由题图可知:
根据上表可知B、C、D结论均正确,结论A不正确,故选A.
[答案] A
4.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.
若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.
[解析] 由题意可知,这35名运动员的分组情况为,第一组(130,130,133,134,135),第二组(136,136,138,138,138),第三组(139,141,141,141,142),第四组(142,142,143,143,144),第五组(144,145,145,145,146),第六组(146,147,148,150,151),第七组(152,152,153,153,153),故成绩在区间[139,151]上的运动员恰有4组,故运动员人数为4.
[答案] 4
[快速审题] (1)看到系统抽样,想到分段间隔.
(2)看到分层抽样,想到抽样比.
系统抽样与分层抽样的关注点
(1)系统抽样的最基本特征是“等距性”,每组内所抽取的号码需要依据第一组抽取的号码和组距唯一确定.每组抽取样本的号码依次构成一个以第一组抽取的号码m为首项,组距d为公差的等差数列{an},第k组抽取样本的号码ak=m+(k-1)d.
(2)分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,抽样比等于样本容量与总体容量的比,各层所抽取的样本容量等于该层个体总数与抽样比的乘积.
考点二 用样本估计总体
1.频率分布直方图
(1)频率分布直方图中横坐标表示组距,纵坐标表示eq \f(频率,组距),频率=组距×eq \f(频率,组距).
(2)频率分布直方图中各小长方形的面积之和为1.
2.方差公式
s2=eq \f(1,n)[(x1-eq \(x,\s\up6(-)))2+(x2-eq \(x,\s\up6(-)))2+…+(xn-eq \(x,\s\up6(-)))2]
[对点训练]
1.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60 C.120 D.140
[解析] 由频率分布直方图可知,这200名学生每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140,故选D.
[答案] D
2.(2018·广东韶关调研)在某次测量中得到的A样本数据如下:41,44,45,51,43,49,若B样本数据恰好是A样本数据每个都减5后所得数据,则A,B两样本的下列数据特征对应相同的是( )
A.众数 B.中位数 C.平均数 D.标准差
[解析] 由众数、平均数、中位数、标准差的定义知,A样本中各数据都减5后,只有标准差不改变,故选D.
[答案] D
3.(2018·山东临沂一模)传承传统文化再掀热潮,在刚刚过去的新春假期中,央视科教频道以诗词知识竞赛为主的《中国诗词大会》火爆荧屏,如图的茎叶图是两位选手在个人追逐赛中的比赛得分,则下列说法正确的是( )
A.甲的平均数大于乙的平均数
B.甲的中位数大于乙的中位数
C.甲的方差大于乙的方差
D.甲的平均数等于乙的中位数
[解析] 由茎叶图,知:eq \(x,\s\up6(-))甲=eq \f(1,9)(59+45+32+38+24+26+11+12+14)=29,
eq \(x,\s\up6(-))乙=eq \f(1,9)(51+43+30+34+20+25+27+28+12)=30,
seq \\al(2,甲)=eq \f(1,9)[302+162+32+92+(-5)2+(-3)2+(-18)2+(-17)2+(-15)2]≈235.3,
seq \\al(2,乙)=eq \f(1,9)[212+132+02+42+(-10)2+(-5)2+(-3)2+(-2)2+(-18)2]≈120.9,
甲的中位数为:26,乙的中位数为:28,
∴甲的方差大于乙的方差,故选C.
[答案] C
4.(2018·正定中学抽测)从某中学高一年级中随机抽取100名同学,将他们的成绩(单位:分)数据绘制成频率分布直方图(如图),则这100名学生成绩的平均数为________,中位数为________.
[解析] 由图可知,平均数eq \x\t(x)=105×0.1+115×0.3+125×0.25+135×0.2+145×0.15=125.
中位数在120~130之间,设为x,则0.01×10+0.03×10+0.025×(x-120)=0.5,解得x=124.
[答案] 125 124
[快速审题] (1)看到频率分布直方图,想到频数与频率的区别以及计算方法和频率分布直方图中横轴与竖轴中的数据的意义.
(2)看到方差,想到方差的含义及方差的计算公式.
用样本估计总体问题应关注两点
(1)在频率分布直方图中,众数为最高矩形的底边中点的横坐标,中位数为垂直横轴且平分直方图面积的直线与横轴交点的横坐标,平均数为每个小矩形的面积乘以相应小矩形底边中点的横坐标之积的和.
(2)计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.
考点三 统计案例
1.线性回归方程
方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))称为线性回归方程,其中eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n,x)iyi-n\x\t(x) \x\t(y),\i\su(i=1,n,x)\\al(2,i)-n\x\t(x)2),eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x);(eq \x\t(x),eq \x\t(y))称为样本中心点.
2.独立性检验
K2=eq \f(nad-bc2,a+bc+da+cb+d)(其中n=a+b+c+d为样本容量).
角度1:线性回归分析
【例1】 (2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
[解] (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为eq \(y,\s\up6(^))=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为eq \(y,\s\up6(^))=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下 :
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型eq \(y,\s\up6(^))=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(答出其中任意一种或其他合理理由均可)
角度2:独立性检验
【例2】 (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
[解] (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,答出其中任意一种或其他合理理由均可).
(2)由茎叶图知m=eq \f(79+81,2)=80.
列联表如下:
(3)由于K2=eq \f(40×15×15-5×52,20×20×20×20)=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
(1)求回归直线方程的关键
①正确理解计算eq \(b,\s\up6(^)),eq \(a,\s\up6(^))的公式和准确的计算,其中线性回归方程必过样本中心点(eq \x\t(x),eq \x\t(y)).
②在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
(2)独立性检验的关键
根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.K2的观测值k越大,对应假设事件H0成立的概率越小,H0不成立的概率越大.
[对点训练]
1.[角度1]某地随着经济的发展,居民收入逐年增长,该地一建设银行连续五年的储蓄存款(年底余额)如下表:
为了研究计算的方便,工作人员将上表的数据进行了处理,令t=x-2010,z=y-5得到下表:
(1)求z关于t的线性回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程;
(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?
(附:对于线性回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),其中eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n,x)iyi-n\(x,\s\up6(-))·\(y,\s\up6(-)),\i\su(i=1,n,x)\\al(2,i)-n\(x,\s\up6(-))2),eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-)))
[解] (1)令z关于t的线性回归方程为eq \(z,\s\up6(^))=eq \(b,\s\up6(^))t+eq \(a,\s\up6(^)),
∵eq \(t,\s\up6(-))=3,eq \(z,\s\up6(-))=2.2,eq \i\su(i=1,5,t)izi=45,eq \i\su(i=1,5,t)eq \\al(2,i)=55,
eq \(b,\s\up6(^))=eq \f(45-5×3×2.2,55-5×9)=1.2,eq \(a,\s\up6(^))=eq \(z,\s\up6(-))-eq \(b,\s\up6(^))eq \(t,\s\up6(-))=2.2-3×1.2=-1.4,
∴eq \(z,\s\up6(^))=1.2t-1.4.(2)将t=x-2010,z=y-5,代入eq \(z,\s\up6(^))=1.2t-1.4,
得eq \(y,\s\up6(^))-5=1.2(x-2010)-1.4,即eq \(y,\s\up6(^))=1.2x-2408.4.
(3)∵eq \(y,\s\up6(^))=1.2×2020-2408.4=15.6(千亿元),
∴预测到2020年年底,该地储蓄存款额可达15.6千亿元.
2.[角度2]某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人成绩为优秀的概率为eq \f(3,11).
(1)请完成上面的列联表;
(2)根据列联表中的数据,若按99.9%的可靠性要求,能否认为“成绩是否优秀与班级有关系”.
参考公式与临界值表:K2=eq \f(nad-bc2,a+bc+da+cb+d).
[解] (1)
(2)根据列联表中的数据,得到
K2=eq \f(110×10×30-20×502,60×50×30×80)≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩是否优秀与班级有关系”.
1.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图:
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
[解析] 折线图呈现出的是一个逐渐上升的趋势,但是并不是每个月都在增加,故A说法错误;折线图中按照年份进行划分,可以看出每年的游客量都在逐年增加,故B说法正确;折线图中每年的高峰出现在每年的7,8月,故C说法正确;每年的1月至6月相对于7月至12月的波动性更小,变化的幅度较小,说明变化比较平稳,故D说法正确.
[答案] A
2.(2017·山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),已知eq \i\su(i=1,10,x)i=225,eq \i\su(i=1,10,y)i=1600,eq \(b,\s\up6(^))=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163 C.166 D.170
[解析] 由题意可得eq \(x,\s\up6(-))=22.5,eq \(y,\s\up6(-))=160,∴eq \(a,\s\up6(^))=160-4×22.5=70,即eq \(y,\s\up6(^))=4x+70.当x=24时,eq \(y,\s\up6(^))=4×24+70=166,故选C.
[答案] C
3.(2018·江苏卷)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为________.
[解析] 5位裁判打出的分数分别为89,89,90,91,91,则这5位裁判打出的分数的平均数为eq \f(1,5)×(89+89+90+91+91)=90.
[答案] 90
4.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:
K2=eq \f(nad-bc2,a+bc+da+cb+d).
[解] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.4092.
(2)根据箱产量的频率分布直方图得列联表
K2=eq \f(200×62×66-34×382,100×100×96×104)≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+eq \f(0.5-0.34,0.068)≈52.35(kg).
1.统计与统计案例在选择或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在3~4题的位置.
2.统计的解答题多在第18或19题的位置,多以交汇性的形式考查,交汇点主要有两种:频率分布直方图、茎叶图择一与随机变量的分布列、数学期望、方差、正态分布相交汇考查;频率分布直方图、茎叶图择一与线性回归或独立性检验相交汇来考查,难度中等.
热点课题18 概率与统计的交汇问题
[感悟体验]
(2018·四川成都一模)某医疗科研项目组对5只实验小白鼠体内的A,B两项指标数据进行收集和分析,得到的数据如下表:
(1)若通过数据分析,得知A项指标数据与B项指标数据具有线性相关关系.试根据上表,求B项指标数据y关于A项指标数据x的线性回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^));
(2)现要从这5只小白鼠中随机抽取3只,求其中至少有一只小白鼠的B项指标数据高于3的概率.
(参考公式:eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n, )xi-\(x,\s\up6(-))yi-\(y,\s\up6(-)),\i\su(i=1,n, )xi-\(x,\s\up6(-))2)=eq \f(\i\su(i=1,n,x)iyi-n\(x,\s\up6(-))\(y,\s\up6(-)),\i\su(i=1,n,x)\\al(2,i)-n\(x,\s\up6(-))2),eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-)))
[解] (1)由题意,可得eq \(x,\s\up6(-))=7,eq \(y,\s\up6(-))=3,
eq \i\su(i=1,5,x)iyi=110,eq \i\su(i=1,5,x)eq \\al(2,i)=255,eq \(b,\s\up6(^))=eq \f(\i\su(i=1,5,x)iyi-5\(x,\s\up6(-))\(y,\s\up6(-)),\i\su(i=1,5,x)\\al(2,i)-5\(x,\s\up6(-))2)=eq \f(1,2).
∵eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-)),∴eq \(a,\s\up6(^))=-eq \f(1,2).
∴所求线性回归方程为eq \(y,\s\up6(^))=eq \f(1,2)x-eq \f(1,2).
(2)设1号至5号小白鼠依次为a1,a2,a3,a4,a5,则在这5只小白鼠中随机抽取3只的抽取情况有a1a2a3,a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共10种.
随机抽取的3只小白鼠至少有一只的B项指标数据高于3的情况有a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共9种,
∴从这5只小白鼠中随机抽取3只,其中至少有一只的B项指标数据高于3的概率为eq \f(9,10).
专题跟踪训练(二十九)
1.(2018·长春市第一次质量监测)已知某班级部分同学一次测验的成绩统计如图所示,则其中位数和众数分别为( )
A.95,94 B.92,86
C.99,86 D.95,91
[解析] 由题中茎叶图可知,此组数据由小到大排列依次为76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共17个,故中位数为92,出现次数最多的为众数,故众数为86,故选B.
[答案] B
2.(2018·黔东南州第一次联考)近年呼吁高校招生改革的呼声越来越高,在赞成高校招生改革的市民中按年龄分组,得到样本频率分布直方图如图所示,其中年龄在区间[30,40)内的有2500人,在区间[20,30)内的有1200人,则m的值为( )
A.0.013 B.0.13 C.0.012 D.0.12
[解析] 由题意,得年龄在区间[30,40)内的频率为0.025×10=0.25,则赞成高校招生改革的市民有eq \f(2500,0.25)=10000(人),因为年龄在区间[20,30)内的有1200人,所以m=eq \f(\f(1200,10000),10)=0.012,故选C.
[答案] C
3.已知变量x与y正相关,且由观测数据算得样本平均数eq \(x,\s\up6(-))=3,eq \(y,\s\up6(-))=3.5,则由该观测数据算得的线性回归方程可能是( )
A.eq \(y,\s\up6(^))=0.4x+2.3 B.eq \(y,\s\up6(^))=2x-2.4
C.eq \(y,\s\up6(^))=-2x+9.5 D.eq \(y,\s\up6(^))=-0.3x+4.4
[解析] 变量x与y正相关,且样本中心点为(3,3.5),应用排除法可知选项A符合要求,故选A.
[答案] A
4.(2018·吉林省长春市高三监测)如图是民航部门统计的2017年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )
A.深圳的变化幅度最小,北京的平均价格最高
B.深圳和厦门的春运期间往返机票价格同去年相比有所下降
C.平均价格从高到低居于前三位的城市为北京、深圳、广州
D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门
[解析] 由题图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A正确;由题图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B正确;由题图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C正确;由题图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D错误,故选D.
[答案] D
5.(2018·广东省百校联盟第二次联考)下表是我国某城市在2017年1月份至10月份期间各月最低温度与最高温度(单位:℃)的数据一览表.
已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是( )
A.最低温度与最高温度为正相关
B.每月最高温度与最低温度的平均值在前8个月逐月增加
C.月温差(最高温度减最低温度)的最大值出现在1月
D.1月至4月的月温差(最高温度减最低温度)相对于7月至10月,波动性更大
[解析] 将最高温度、最低温度、温差列表如下,
由表格可知,最低温度大致随最高温度的增大而增大,A正确;每月最高温度与最低温度的平均值在前8个月不是逐月增加,B错;月温差的最大值出现在1月,C正确;1月至4月的月温差相对于7月至10月,波动性更大,D正确,故选B.
[答案] B
6.(2018·赣州一模)以下四个命题中是真命题的为( )
①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在回归直线方程eq \(y,\s\up6(^))=0.2x+12中,当解释变量x每增加一个单位时,预报变量y平均增加0.2个单位;④对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.
A.①④ B.②④ C.①③ D.②③
[解析] ①为系统抽样,故①不正确;②两个随机变量相关性越强,则相关系数的绝对值越接近于1,故②正确;③由0.2(x+1)+12-0.2x-12=0.2知③正确;④对分类变量X与Y,它们的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大,故④不正确,故选D.
[答案] D
二、填空题
7.(2018·怀化二模)某校高三(1)班共有48人,学号依次为1,2,3,…,48,现用系统抽样的方法抽取一个容量为6的样本,已知学号为3,11,19,35,43的同学在样本中,则还有一个同学的学号应为________.
[解析] 根据系统抽样的规则——“等距离”抽取,则抽取的号码差相等,易知相邻两个学号之间的差为11-3=8,所以在19与35之间还有27.
[答案] 27
8.(2018·安徽淮北模拟)某单位员工按年龄分为A,B,C三组,其人数之比为5∶4∶1,现用分层抽样的方法从总体中抽取一个容量为20的样本,则抽取的C组人数为________.
[解析] ∵员工按年龄分为A,B,C三组,其人数之比为5∶4∶1,∴从中抽取一个容量为20的样本,则抽取的C组人数为eq \f(1,1+4+5)×20=eq \f(1,10)×20=2.
[答案] 2
9.某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m与年销售额t(单位:百万元)进行了初步统计,得到下列表格中的数据:
经测算,年广告支出m与年销售额t满足线性回归方程eq \(t,\s\up6(^))=6.5m+17.5,则p=________.
[解析] 由于回归直线过样本点的中心,eq \(m,\s\up6(-))=5,eq \(t,\s\up6(-))=eq \f(190+p,5),代入eq \(t,\s\up6(^))=6.5m+17.5,解得p=60.
[答案] 60
三、解答题
10.(2018·河南新乡一模)为了了解甲、乙两个工厂生产的轮胎的宽度是否达标,从两厂各随机选取了10个轮胎,将每个轮胎的宽度(单位:mm)记录下来并绘制出如下的折线图:
(1)分别计算甲、乙两厂提供的10个轮胎宽度的平均值;
(2)若轮胎的宽度在[194,196]内,则称这个轮胎是标准轮胎.试比较甲、乙两厂分别提供的10个轮胎中所有标准轮胎宽度的方差的大小,根据两厂的标准轮胎宽度的平均水平及其波动情况,判断这两个工厂哪个的轮胎相对更好.
[解] (1)甲厂10个轮胎宽度的平均值:
eq \(x,\s\up6(-))甲=eq \f(1,10)×(195+194+196+193+194+197+196+195+193+197)=195(mm),
工厂10个轮胎宽度的平均值:eq \(x,\s\up6(-))乙=eq \f(1,10)×(195+196+193+192+195+194+195+192+195+193)=194(mm).
(2)甲厂10个轮胎中宽度在[194,196]内的数据为195,194,196,194,196,195,
平均数:eq \(x,\s\up6(-))1=eq \f(1,6)×(195+194+196+194+196+195)=195,
方差;seq \\al(2,1)=eq \f(1,6)×[(195-195)2+(194-195)2+(196-195)2+(194-195)2+(196-195)2+(195-195)2]=eq \f(2,3),
乙厂10个轮胎中宽度在[194,196]内的数据为195,196,195,194,195,195,
平均数:eq \(x,\s\up6(-))2=eq \f(1,6)×(195+196+195+194+195+195)=195,
方差:seq \\al(2,2)=eq \f(1,6)×[(195-195)2+(196-195)2+(195-195)2+(194-195)2+(195-195)2+(195-195)2]=eq \f(1,3),
∵两厂标准轮胎宽度的平均数相等,但乙厂的方差更小,
∴乙厂的轮胎相对更好.
11.(2018·湖南五校联考)某兴趣小组欲研究昼夜温差大小与患感冒人数之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:
该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是相邻两个月的概率;
(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y关于x的线性回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^));
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?
(参考公式:eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n,x)iyi-n\(x,\s\up6(-))\(y,\s\up6(-)),\i\su(i=1,n,x)\\al(2,i)-n\(x,\s\up6(-))2)=eq \f(\i\su(i=1,n, )xi-\(x,\s\up6(-))yi-\(y,\s\up6(-)),\i\su(i=1,n, )xi-\(x,\s\up6(-))2),eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-)),
参考数据:11×25+13×29+12×26+8×16=1092,112+132+122+82=498)
[解] (1)设“抽到相邻两个月的数据”为事件A.因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中抽到相邻两个月的数据的情况有5种,所以选取的2组数据恰好是相邻两个月的概率为P(A)=eq \f(5,15)=eq \f(1,3).
(2)由数据得eq \(x,\s\up6(-))=11,eq \(y,\s\up6(-))=24,由公式得eq \(b,\s\up6(^))=eq \f(18,7).
则eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-))=-eq \f(30,7),
所以y关于x的线性回归方程为eq \(y,\s\up6(^))=eq \f(18,7)x-eq \f(30,7).
(3)当x=10时,eq \(y,\s\up6(^))=eq \f(150,7),eq \b\lc\|\rc\|(\a\vs4\al\c1(\f(150,7)-22))<2;
同样,当x=6时,eq \(y,\s\up6(^))=eq \f(78,7),eq \b\lc\|\rc\|(\a\vs4\al\c1(\f(78,7)-12))<2.
所以,该小组所得线性回归方程是理想的.
12.(2018·吉林三调)“共享单车”的出现,为我们提供了一种新型的交通方式.某机构为了调查人们对此种交通方式的满意度,在交通拥堵不严重的A城市和交通拥堵严重的B城市分别随机调查了20个用户,得到了一个用户满意度评分的样本,并绘制出茎叶图如图:
(1)根据茎叶图,比较两城市满意度评分的平均值的大小及方差的大小(不要求计算出具体值,给出结论即可);
(2)若得分不低于80分,则认为该用户对此种交通方式“认可”,否则认为该用户对此种交通方式“不认可”,请根据此样本完成此2×2列联表,并据此样本分析是否有95%的把握认为城市拥堵与认可共享单车有关;
(3)在A,B城市对此种交通方式“认可”的用户中按照分层抽样的方法抽取6人,若在此6人中推荐2人参加“单车维护”志愿活动,求A城市中至少有1人的概率.
参考数据如下:
(参考公式K2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d)
[解] (1)由茎叶图可得,A城市评分的平均值小于B城市评分的平均值;A城市评分的方差大于B城市评分的方差.
(2)由题意可得2×2列联表如下:
故K2=eq \f(40×5×10-10×152,20×20×15×25)=eq \f(8,3)<3.841,
所以没有95%的把握认为城市拥堵与认可共享单车有关.
(3)由题意得在A城市抽取eq \f(5,5+10)×6=2人,设为x,y;
在B城市抽取eq \f(10,5+10)×6=4人,设为a,b,c,d.则从6人中推荐2人的所有基本事件有(x,y),(x,a),(x,b),(x,c),(x,d),(y,a),(y,b),(y,c),(y,d),(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),共15个.设“A城市中至少有1人”为事件M,则事件M包含的基本事件有(x,y),(x,a),(x,b),(x,c),(x,d),(y,a),(y,b),(y,c),(y,d),共9个.
由古典概型概率计算公式可得P(M)=eq \f(9,15)=eq \f(3,5),
故A城市中至少有1人的概率为eq \f(3,5).
年份x
2011
2012
2013
2014
2015
储蓄存款y/千亿元
5
6
7
8
10
时间代号t
1
2
3
4
5
z
0
1
2
3
5
优秀
非优秀
合计
甲班
10
乙班
30
合计
110
P(K2≥k)
0.100
0.050
0.025
0.010
0.001
k
2.706
3.841
5.024
6.635
10.828
优秀
非优秀
合计
甲班
10
50
60
乙班
20
30
50
合计
30
80
110
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
指标
1号小白鼠
2号小白鼠
3号小白鼠
4号小白鼠
5号小白鼠
A
5
7
6
9
8
B
2
2
3
4
4
月份
1
2
3
4
5
6
7
8
9
10
最高温
度/℃
5
9
9
11
17
24
27
30
31
21
最低温
度/℃
-12
-3
1
-2
7
17
19
23
25
10
月份
1
2
3
4
5
6
7
8
9
10
最高温
度/℃
5
9
9
11
17
24
27
30
31
21
最低温
度/℃
-12
-3
1
-2
7
17
19
23
25
10
温差
度/℃
17
12
8
13
10
7
8
7
6
11
年广告支出m
2
4
5
6
8
年销售额t
30
40
p
50
70
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
A城市
B城市
合计
认可
5
10
15
不认可
15
10
25
合计
20
20
40
高考数学二轮复习核心专题讲练:统计与概率第1讲 统计和统计案例(含解析): 这是一份高考数学二轮复习核心专题讲练:统计与概率第1讲 统计和统计案例(含解析),共67页。试卷主要包含了总体平均数与样本平均数,分层随机抽样的步骤,总体集中趋势的估计,总体离散程度的估计,相关关系的强弱等内容,欢迎下载使用。
高中数学高考复习 第18讲统计与统计案例 练习: 这是一份高中数学高考复习 第18讲统计与统计案例 练习,共18页。试卷主要包含了下列说法正确的是等内容,欢迎下载使用。
新高考数学二轮复习 第1部分 专题5 第1讲 统计与统计案例(含解析): 这是一份新高考数学二轮复习 第1部分 专题5 第1讲 统计与统计案例(含解析),共17页。