所属成套资源:2023年高考数学单元复习讲义与检测
【高考大一轮单元复习】高考数学单元复习讲义与检测-专题12《统计与统计案例》讲义(新高考专用)
展开这是一份【高考大一轮单元复习】高考数学单元复习讲义与检测-专题12《统计与统计案例》讲义(新高考专用),文件包含高考大一轮单元复习高考数学单元复习讲义与检测-专题12《统计与统计案例》讲义新高考专用解析版docx、高考大一轮单元复习高考数学单元复习讲义与检测-专题12《统计与统计案例》讲义新高考专用原卷版docx等2份试卷配套教学资源,其中试卷共113页, 欢迎下载使用。
专题12 统计与统计案例
知识回顾
数据的收集与直观表示
1.总体、个体、样本与样本容量
考察问题涉及的对象全体是总体,总体中每个对象是个体,抽取的部分对象组成总体的一个样本,一个样本中包含的个体数目是样本容量.
2.普查与抽样调查
(1)普查:一般地,对总体中每个个体都进行考察的方法称为普查(也称为全面调查).
(2)抽样调查:只抽取样本进行考察的方法称为抽样调查.
3.简单随机抽样
(1)定义:一般地,简单随机抽样(也称为纯随机抽样)就是从总体中不加任何分组、划类、排队等,完全随机地抽取个体.
(2)两种常用方法:抽签法,随机数表法.
4.分层抽样
一般地,如果相对于要考察的问题来说,总体可以分成有明显差别的、互不重叠的几部分时,每一部分可称为层,在各层中按层在总体中所占比例进行随机抽样的方法称为分层随机抽样(简称为分层抽样).
两种抽样方法的区别与联系:
类别
简单的随机抽样
共同点
抽样的过程中每个个体被抽到的相会均等,不放加抽样.
各自特点
从总体中逐个抽取
将总体分n层,分层进行抽取
适用范围
总体中个体数较少
总体由差异明显的几部分组成
5.数据的直观表示
(1)常见的统计图表有柱形图、折线图、扇形图、茎叶图、频数分布直方图、频率分布直方图等.
(2)频率分布直方图
①作频率分布直方图的步骤
(ⅰ)找出最值,计算极差:即一组数据中最大值与最小值的差;
(ⅱ)合理分组,确定区间:根据数据的多少,一般分5~9组;
(ⅲ)整理数据:
逐个检查原始数据,统计每个区间内数的个数(称为区间对应的频数),并求出频数与数据个数的比值(称为区间对应的频率),各组均为左闭右开区间,最后一组是闭区间;
(ⅳ)作出有关图示:
根据上述整理后的数据,可以作出频率分布直方图,如图所示.频率分布直图的纵坐标是,每一组数对应的矩形高度与频率成正比,而且每个矩形的面积等于这一组数对应的频率,从而可知频率分布直方图中,所有矩形的面积之和为1.
②频率分布折线图
作图的方法都是:把每个矩形上面一边的中点用线段连接起来.为了方便看图,折线图都画成与横轴相交,所以折线图与横轴的左右两个交点是没有实际意义的.
不难看出,虽然作频率分布直方图过程中,原有数据被“压缩”了,从这两种图中也得不到所有原始数据.但是,由这两种图可以清楚地看出数据分布的总体态势,而且也可以得出有关数字特征的大致情况.比如,估计出平均数、中位数、百分位数、方差.当然,利用直方图估计出的这些数字特征与利用原始数据求出的数字特征一般会有差异.
【温馨提示】频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
数据的数字特征、用样本估计总体
1.数据的数字特征
(1)最值
一组数据的最值指的是其中的最大值与最小值,最值反映的是这组数最极端的情况.
(2)平均数
①定义:如果给定的一组数是x1,x2,…,xn,则这组数的平均数为
=(x1+x2+…+xn).
这一公式在数学中常简记为=xi,
②性质:一般地,利用平均数的计算公式可知,如果x1,x2,…,xn的平均数为x,且a,b为常数,则ax1+b,ax2+b,…,axn+b的平均数为a+b.
(3)中位数
有奇数个数,且按照从小到大排列后为x1,x2,…,x2n+1,则称xn+1为这组数的中位数;如果一组数有偶数个数,且按照从小到大排列后为x1,x2,…,x2n,则称为这组数的中位数.
(4)百分位数
①定义:一组数的p%(p∈(0,100))分位数指的是满足下列条件的一个数值:至少有p%的数据不大于该值,且至少有(100-p)%的数据不小于该值.
②确定方法:设一组数按照从小到大排列后为x1,x2,…,xn,计算i=np%的值,如果i不是整数,设i0为大于i的最小整数,取xi0为p%分位数;如果i是整数,取为p%分位数.
(5)众数
一组数据中,出现次数最多的数据称为这组数据的众数.
(6)极差、方差与标准差
①极差:一组数的极差指的是这组数的最大值减去最小值所得的差,描述了这组数的离散程度.
②方差
定义:如果x1,x2,…,xn的平均数为x,则方差可用求和符号表示为
s2=(xi-)2=x-2.
性质:如果a,b为常数,则ax1+b,ax2+b,…,axn+b的方差为a2s2.
③标准差
定义:方差的算术平方根称为标准差.一般用s表示,即样本数据x1,x2,…,xn的标准差为s=.
性质:如果a,b为常数,则ax1+b,ax2+b,…,axn+b的标准差为|a|s.
2.用样本的数字特征估计总体的数字特征
一般情况下,如果样本容量恰当,抽样方法合理,在估计总体的数字特征时,只需直接算出样本对应的数字特征即可.
统计模型
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关:如果变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.
2.相关系数
(1)r=
=.
(2)当r>0时,成对样本数据正相关;当r<0时,成对样本数据负相关.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)我们将=x+称为y关于x的回归直线方程,其中
(2)残差:观测值减去预测值,称为残差.
4.2×2列联表和χ2
如果随机事件A与B的样本数据的2×2列联表如下.
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
记n=a+b+c+d,则
χ2=.
5.独立性检验
统计学中,常用的显著性水平α以及对应的分位数k如下表所示.
α=P(χ2≥k)
0.1
0.05
0.01
0.005
0.001
K
2.706
3.841
6.635
7.879
10.828
要推断“A与B有关系”可按下面的步骤
(1)作2×2列联表.
(2)根据2×2列联表计算χ2的值.
(3)查对分位数k,作出判断.如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2
常考题型
1.抽样方法、获取数据的途径:
【例题1-1】从某年级500名学生中抽取60名学生进行体重的统计分析,就这个问题来说,下列说法正确的是
A.500名学生是总体
B.每个被抽取的学生是个体
C.抽取的60名学生的体重是一个样本
D.抽取的60名学生的体重是样本容量
【答案】
【分析】利用总体、个体、样本、样本容量的定义直接求解.
【解答】解:从某年级500名学生中抽取60名学生进行体重的统计分析,
在中,500名学生的体重是总体,故错误;
在中,每个被抽查的学生的体重是个体,故错误;
在中,抽查的60名学生的体重是一个样本,故正确;
在中,60是样本容量,故错误.
故选:.
【点睛】本题考查命题真假的判断,考查总体、个体、样本、样本容量的定义等基础知识.
【自我提升】采用抽签法从含有3个个体的总体中抽取一个容量为2的样本,则所有可能的样本为______.
【答案】,,
【解析】根据中随机抽取两个可能的情况,即可得出所有可能的样本.
【详解】从总体中任取两个个体即可组成样本,即所有可能的样本为,,.
故答案为:,,
【点睛】本题主要考查了抽签法的应用,属于基础题.
【例题1-2】(多选)下列抽取样本的方式不属于简单随机抽样为( )
A.从无限多个个体中抽取100个个体作为样本
B.盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里
C.从20件玩具中逐个抽取3件进行质量检验
D.某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛
【答案】ABD
【解析】
【分析】根据简单随机抽样的特点,逐一对每个选项分析即可.
【详解】
对于选项A,不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;对于选项B,不是简单随机抽样.因为它是有放回抽样;
对于选项C,是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取;
对于选项D,不是简单随机抽样.因为不是等可能抽样.
故选:ABD.
【自我提升】下列抽样的方法属于简单随机抽样的有 .
①从无限多个个体中抽取50个个体作为样本;
②从1000个个体中一次性抽取50个个体作为样本;
③将1000个个体编号,把号签放在一个足够大的不透明的容器内搅拌均匀,从中逐个抽取50个个体作为样本;
④箱子里共有100个零件,从中选出10个零件进行质量检验,在抽样过程中,从中任意取出一个零件进行质量检验后,再把它放回箱子.
【答案】③
【分析】利用简单随机抽样的特点:(1)有限性;(2)逐个性;(3)不放回;(4)等概率,对选项逐一分析判断即可.
【解答】①中,简单随机抽样是从有限多个个体中抽取,所以①不属于简单随机抽样;
②中,简单随机抽样是逐个抽取,不能是一次性抽取,所以②不属于简单随机抽样;
③中,符合简单随机抽样的特点,所以③属于简单随机抽样;
④中抽样是放回抽样,而简单随机抽样是不放回抽样,所以④不属于简单随机抽样.
故答案为:③.
【点睛】本题考查了简单随机抽样的理解和应用,解题的关键是掌握简单随机抽样的特点:(1)有限性;(2)逐个性;(3)不放回;(4)等概率.属于基础题.
【例题1-3】用抽签法进行抽样有以下几个步骤:
①将总体中的个体编号;
②把号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条制作);
③将这些号签放在一个容器内并搅拌均匀;
④从这容器中逐个不放回地抽取号签,将取出号签所对应的个体作为样本.
这些步骤的先后顺序应为
A.①②③④ B.②③④① C.①③④② D.①④②③
【答案】A
【分析】根据抽签法的步骤:编号,做号签,放入容器,进行抽取的进行判断即可.
【解答】解:利用抽签法第一步要进行编号,然后做做号签,放入容器,最后按照逐个不放回地抽取号签.故这些步骤的先后顺序应①②③④.
故选:.
【点睛】本题主要考查对抽签法的理解,比较基础.
【自我提升】在对101个人进行一次抽样时,先采用抽签法从中剔除一个人,再在剩余的100中随机抽取10人,那么下列说法正确的是( )
A.这种抽样方法对于被剔除的个体是不公平的,因为他们失去了被抽到的机会
B.每个人在整个抽样过程中被抽到的机会均等,因为每个人被剔除的可能性相等,那么,不被剔除的机会也是均等的
C.由于采用了两步进行抽样,所以无法判断每个人被抽到的可能性是多少
D.每个人被抽到的可能性不相等
【答案】B
【分析】根据随机抽样的特征,即可判断出结果.
【解析】由于第一次剔除时采用抽签法,对每个人来说可能性相等,然后随机抽取10人对每个人的机会也是均等的,所以总的来说每个人的机会都是均等的,被抽到的可能性都是相等的.故选:B.
【例题1-4】利用计算机产生[0,1]之间的随机数a1=Rand,要得到[-2,3]之间的随机数,经过的变换为( )
A.a=a1·5-2 B.a=a1·2-3
C.a=a1·3-2 D.a=a1·2-5
【答案】A
【解析】
【分析】根据已知区间,利用一次函数的值域的求法求值域,判断是否为变换所得区间即可.
【详解】
A:,则,正确;
B:,则,错误;
C:,则,错误;
D:,则,错误;
故选:A
【自我提升】把[0,1]内的随机数实施变换可得到区间( )的均匀随机数.
A.[6,8] B.[-2,6]
C.[0,2] D.[6,10]
【答案】B
【解析】
【分析】利用变换函数,得到在上的值域,即为所求区间.
【详解】由题意知:,则有.故选:B
【例题1-5】将一个总体分为A,B,C三层,其个体数之比为5∶3∶2.A,B,C三层的样本的平均数分别为15,30,20,则样本的平均数为_____.
【答案】20.5
【解析】
【分析】结合分层抽样的概念即可.
【详解】由题意可知样本的平均数为
=×15+×30+×20=20.5,故答案为:20.5
【自我提升】为践行“绿水青山就是金山银山”的发展理念,某城区对辖区内A,B,C三类行业共200个单位的生态环境治理成效进行了考核评估,考评分数达到80分及其以上的单位被称为“星级”环保单位,未达到80分的单位被称为“非星级”环保单位,现通过分层抽样的方法抽取了这三类行业的20个单位,其考评分数如下:
A类行业:85,82,77,78,83,87;
B类行业:76,67,80,85,79,81;
C类行业:87,89,76,86,75,84,90,82.
则该城区这三类行业中每类行业的单位个数分别为______.
【答案】60,60,80
【解析】
【分析】利用分层抽样的性质计算该城区这三类行业中每类行业的单位个数.
【详解】由题意,得抽取的,,三类行业单位个数之比为.
由分层抽样的定义,有
类行业的单位个数为,
类行业的单位个数为,
类行业的单位个数为,
故该城区,,三类行业中每类行业的单位个数分别为60,60,80.
【例题1-6】已知某地区中小学生人数如图所示,用分层抽样的方法抽取200名学生进行调查,则抽取的高中生人数为______.
【答案】50
【分析】利用分层抽样的性质直接求解.
【解析】用分层抽样的方法抽取200名学生进行调查,
抽取的高中生人数为.故答案为:50.
【点睛】本题考查抽取的高中生人数的求法,考查分层抽样的性质等基础知识,考查运算求解能力,是基础题.
【例题1-7】为了了解某市年高考各高中学校本科上线人数,收集数据进行统计,其中获取数据的途径采用什么样的方法比较合适( )
A.通过调查获取数据
B.通过试验获取数据
C.通过观察获取数据
D.通过查询获取数据
【答案】D
【解析】
【分析】
根据某市年高考各高中学校本科上线人数的相关数据有存储,可选择合适的获取数据的方式.
【详解】因为某市年高考各高中学校本科上线人数的相关数据有存储,
所以,获取数据的途径通过查询的方式较为合适.故选:D.
【自我提升1】下列哪些数据一般是通过试验获取的( )
A.1988年济南市的降雨量
B.2019年新生儿人口数量
C.某学校高一年级同学的数学测试成绩
D.某种特效中成药的配方
【答案】D
【解析】
【分析】根据数据特点求解.
【详解】A.B.C. 直接统计即可. D. 某种特效中成药的配方的数据只能通过试验获得.
故选:D
【点睛】本题主要考查抽样获取方法,还考查了理解辨析的能力,属于基础题.
【自我提升2】为了了解某年级同学每天参加体育锻炼的时间,比较恰当地收集数据的方法是( )
A.查阅资料 B.问卷调查 C.做试验 D.以上均不对
【答案】B
【解析】
首先明确收集数据的几种方法:查资料、做实验和做调查;接下来根据人数的多少以及调查的目的进行选择即可.
【详解】问卷调查能达到目的,比较适合.故选:B
【点睛】本题考查了收集数据、获取数据的方法,关键是熟记收集数据的几种方法,属于基础题.
【自我提升3】(多选)下列收集数据的方法比较恰当的有( )
A.为了了解某年级学生每天参加体育锻炼的时间,采用问卷调查的方法获取数据
B.银行对公司10万元存款的现钞的真假检验,采用普查的方法获取数据
C.检验一批汽车的防碰撞性能,采用抽样调查的方法获取数据
D.某医药公司欲研制一种新型病毒的特效药,通过试验获取数据
【答案】ABCD
【解析】
【分析】根据收集数据的几种方法即可得出答案.
【详解】收集数据主要有普查和抽样调查,
除此还有问卷调查﹑持续观察﹑做调查、查阅资料、做试验等;
接下来根据人数的多少以及调查的目的进行选择.
故选:ABCD
2. 总体百分数、集中趋势、离散程度的估计:
【例题2-1】下列关于分位数的说法正确的是 ( )
A.分位数不是中位数
B.总体数据中的任意一个数小于它的可能性一定是
C.它是四分位数
D.它只适用于总体是离散型的数据
【答案】C
【分析】由百分位数的意义判断每个选项.
【解析】由百分位数的意义可知,将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数;分位数是中位数,分位数表示至少有的数据项小于或等于这个值,且至少有的数据项大于或等于这个值,第50百分位数又称第二个四分位数,所以选项A,B,D错误.故选:C
【自我提升】下列判断正确的是______
(1)若一组样本数据各不相等,则其75%分位数大于25%分位数.
(2)若一组样本数据的10%分位数是23,则在这组数据中有10%的数据大于23.
(3)若一组样本数据的24%分位数是24,则在这组数据中至少有76%的数据大于或等于24.
【答案】(1)(3)
【分析】结合百分位数概念直接判断即可.
【解析】
对于(1),因为一组样本数据各不相等,假设该组数据有10个数,25%分位数为第三个数,75%分位数为第八个数,故其75%分位数大于25%分位数,(1)正确;
对于(2)若一组样本数据的10%分位数是23,则在这组数据中至少有10%的数据小于等于23,(2)错误;
对于(3)若一组样本数据的24%分位数是24,则在这组数据中至少有76%的数据大于或等于24,(3)正确;故答案为:(1)(3)
【例题2-2】已知数据:①18,32,,14,8,12;②21,4,7,14,,11;③5,4,6,5,4,3,1,4;④,3,1,0,0,.其中平均数与中位数相等的是数据( )
A.① B.② C.③ D.①②③④
【答案】D
【分析】
把所给的四组数据都求出中位数和平均数,求中位数时,要把数据按照从小到大排列,最中间两个数字的平均数就是中位数,把两个数字进行比较得到结论.
【解析】①18,32,,14,8,12;
中位数是,平均数是13,两个数字相等;
②21,4,7,14,,11;
计算可得中位数是9,平均数是9,两个数字相等;
③5,4,6,5,4,3,1,4;
中位数是4,平均数是4,两个数字相等;
④,3,1,0,0,.
中位数是0,平均数是0,两个数字相等;
综上可知,①②③④都满足条件.故选:D
【自我提升】已知一组数据,,3,5的中位数为7,平均数为8,则______.
【答案】135
【解析】
【分析】先由平均数为8,求出,然后分和讨论,当时,不妨设,再分,和三种情况讨论即可
【详解】因为一组数据,,3,5的平均数为8,所以,解得,
若,则,此时四个数为,显然中位数不是7,
不妨设,若,则,此时4个数排列为,中位数为4,不合题意,
若时,则,此时4个数排列为,显然中位数不是7,
若,则4个数排列为,则中位数为,解得,则,
所以,故答案为:135
【例题2-3】某商店销售了30双皮鞋,其中各种尺码的销售量如下表所示:
鞋的尺码(cm)
22
22.5
23
23.5
24
24.5
25
销售量(双)
1
2
4
14
5
3
1
(1)计算30双皮鞋尺码的平均数、中位数、众数;
(2)从实际出发,问题(1)中的三种统计特征量对商店有无指导意义?
【答案】(1)平均数为23.55 cm,中位数为23.5 cm,众数为23.5 cm
(2)众数对商店进货有实际指导意义
【分析】
(1)直接结合平均数,中位数,众数概念计算即可;
(2)结合生活实际考虑,众数对进货量有指导意义.
【解析】(1)30双皮鞋尺码的平均数为:
cm;
由于小于23.5 cm的皮鞋的销售量为(双),大于23.5 cm的皮鞋的销售量为(双),
故将数据从小到大排序后,处于正中间位置的两个数均为23.5 cm,
从而中位数为23.5 cm;又23.5 cm共出现14次,所以众数也为23.5 cm;
(2)众数对商店进货有实际指导意义,因为尺码为23.5 cm的皮鞋销量最多,所以商店应多进货,而尺码为22 cm,25 cm的皮鞋销量较少,故应少进货.
【例题2-4】为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取个零件,并测量其尺寸(单位:),结果如下:
(1)计算该零件抽样尺寸的极差;
(2)计算该零件抽样尺寸的样本均值,样本方差和样本标准差;
(3)将样本均值作为总体均值的估计值,样本标准差作为总体标准差的估计值,根据生产经验,在一天的抽检零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.试利用估计值判断是否需对当天的生产过程进行检查.
【答案】(1);(2);,;(3)需要
【分析】(1)利用极差公式直接计算即可;
(2)利用平均数公式及方差与标准差公式直接计算即可;
(3)由(1)可得,进而判断.
【解析】
(1)由已知可得极差为;
(2)
;
(3)由(2)可得,,所以,
又,所以需要检查.
【自我提升】某赛季甲乙两名篮球运动员在若干场比赛中的得分情况如下:
甲:21、22、23、25、28、29、30、30;
乙:14、16、23、26、28、30、33、38.
则下列描述合理的是( )
A.甲队员每场比赛得分的平均值大 B.乙队员每场比赛得分的平均值大
C.甲队员比赛成绩比较稳定 D.乙队员比赛成绩比较稳定
【答案】C
【解析】
【分析】计算均值,再根据数据的集中度判断.
【详解】甲的均值为,
乙的均值为,
两者均值相同,甲的方差为
乙的方差为
,
甲的方差小于乙的方差,甲稳定.故选:C.
【例题2-5】中医药是包括汉族和少数民族医药在内的我国各民族医药的统称,反映了中华民族对生命、健康和疾病的认识,具有悠久历史传统和独特理论及技术方法.某科研机构研究发现,某品种中医药的药物成分甲的含量x与药物功效y之间满足.检测这种药品一个批次的6个样本,得到成分甲的含量的平均值为5,标准差为,则估计这批中医药的药物功效的平均值为( )
A.18 B.15 C.20 D.10
【答案】B
【解析】
【分析】
设这6个样本中成分甲的含量分别为,.,,,,,平均值为,根据方差公式计算可得,则,计算即可得出结果.
【详解】
设这6个样本中成分甲的含量分别为,.,,,,,平均值为,则 ,所以,所以,则.
故选:B.
【自我提升】某中学要从高一年级甲乙两个班级中选择一个班参加电视台组织的“环保知识竞赛”,该校对甲乙两班的参赛选手(每班7人)进行了一次环保知识测试,他们取得的成绩(满分100分)的茎叶图如图所示,其中甲班学生的平均分是85,乙班学生成绩的中位数是85.
(1)求,的值;
(2)根据茎叶图,求甲乙两班同学方差的大小,并从统计学角度分析,该校应选择甲班还是乙班参赛.
【答案】(1),;(2)乙班成绩比较稳定,故应选乙班参加.
【分析】
(1)利用茎叶图,根据甲班7名学生成绩的平均分是85,乙班7名学生成绩的中位数是85.先求出,,
(2)求出乙班平均分,再求出甲班7名学生成绩方差和乙班名学生成绩的方差,由此能求出结果.
【解析】(1)甲班的平均分为:;解得,
乙班7名学生成绩的中位数是85,,
(2)乙班平均分为:;
甲班7名学生成绩方差,
乙班名学生成绩的方差,
两个班平均分相同,,
乙班成绩比较稳定,故应选乙班参加.
【点睛】本题考查茎叶图的应用,解题时要认真审题,属于基础题.
【自我提升】气象意义上从春季进入夏季的标志为连续5天的日平均温度均不低于22℃.现有甲、乙、丙三地连续5天的日平均温度的记录数据:(记录数据都是正整数)
①甲地5个数据的中位数为24,众数为22;
②乙地5个数据的中位数为27,总体均值为24;
③丙地5个数据中有一个数据是32,总体均值为26,总体方差为10.8.
则肯定进入夏季的地区有_____.
【答案】①③
【分析】根据数据的特点进行估计甲、乙、丙三地连续天的日平均气温的记录数据,分析数据的可能性进行解答即可得出答案.
【解析】①甲地:个数据的中位数为,众数为,根据数据得出:甲地连续天的日平均温度的记录数据可能为:、、、、,其连续天的日平均气温均不低于;
②乙地:个数据的中位数为,总体均值为,当个数据为、、、、,可知其连续天的日平均温度有低于,故不确定;
③丙地:个数据中有一个数据是,总体均值为,若有低于,假设取,此时方差就超出了,可知其连续天的日平均温度均不低于,如、、、、,这组数据的平均值为,方差为,但是进一步扩大方差就会超过,故③对.
则肯定进入夏季的地区有甲、丙两地,故答案为①③.
【点睛】本题考查中位数、众数、平均数、方差的数据特征,简单的合情推理,解答此题应结合题意,根据平均数的计算方法进行解答、取特殊值即可.
3.总体取值规律的估计:
【例题3-1】某地农村2004年到2019年间人均居住面积的统计图如图所示,则增长最多的为( )
A.2004年~2009年 B.2009年~2014年
C.2014年~2019年 D.无法从图中看出
【答案】C
【解析】
【分析】
根据统计图中的数据,分别求出2004年~2009年、2009年~2014年、2014年~2019年的增长量,从而得出结论.
【详解】由统计图可知,2004年~2009年的增长量为:,
2009年~2014年的增长量为:,
2014年~2019年的增长量为:.
所以增长最多的为2014年~2019年.
故选:C.
【例题3-2】如图所示是某市2020年3月1日至3月16日的空气质量指数折线图,空气质量指数()小于100表示空气质量优良,空气质量指数大于200表示空气重度污染,则关于该市这16日的空气质量下列说法正确的是( )
A.出现过连续4天空气重度污染 B.空气重度污染的频率为0.5
C.相邻两天空气质量指数之差的最大值为195 D.空气质量指数的平均值小于200
【答案】C
【解析】
【分析】根据折线图中体现的数据,结合频率的计算、极差的计算以及平均值的估计,对每个选项逐一分析,即可判断和选择.
【详解】
A:根据折线图,月至3月日连续天空气重度污染,故正确;
:根据折线图,空气重度污染的天数有天,故其频率为,故正确;
C:月日和月日相邻两天空气质量指数之差取得最大值为,故错误;
:个数据中大于和小于的各有个,大于的个数据接近,
而小于的个数据与的相差较大,故平均值小于,故正确.
故选:.
【例题3-3】某企业2016年年度营业费用情况如图所示,则下面说法中正确的是( ).
A.基本工资占比最高 B.奖金高于基本工资
C.加班费与包装费相同 D.以上都不对
【答案】C
【解析】
【分析】由图逐一判断四个选项的正误即可得正确选项.
【详解】对于A:由图知,广告费占比是最高,故选项A不正确;
对于B:由图知,奖金占比是低于基本工资占比,故选项B不正确;
对于C:由图知,加班费占比是,包装费占比是,所以加班费与包装费相同,故选项C正确;
对于D:因为选项C正确,所以选项D不正确;故选:C.
【例题3-4】某家庭2018年收入的各种用途占比统计如图1所示,2019年收入的各种用途占比统计如图2所示.已知2019年的“旅行”费用比2018年增加了3 500元,则该家庭2019年的“衣食住”费用比2018年增加了( )
A.2 000元 B.2 500元 C.3 000元 D.3 500元
【答案】B
【解析】
【分析】设2018年的收入为x元,2019年的收入为y元,根据统计图表,化简得到,进而求得该家庭2019年的“衣食住”费用比2018年增加量.
【详解】
设该家庭2018年的收入为x元,2019年的收入为y元,
由题意可得,即,
所以2019年的“衣食住”费用比2018年增加了元.
故选:B.
【例题3-5】某学校随机抽查了本校20个同学,调查他们平均每天在课外进行体育锻炼的时间(单位:分钟),根据所得数据的茎叶图,以5为组距将数据分为8组,分别是,做出频率分布直方图如图所示,则原始的茎叶图可能是( )
A. B.
C. D.
【答案】B
【解析】
【分析】
利用直方图计算出各不同锻炼时间的学生人数分布,结合各选项确定符合人数分布的茎叶图即可.
【详解】由直方图知:人;人;
人;人;
人;人;
人;人.
∴结合各选项的茎叶图知:只有B符合.故选:B.
【例题3-6】中兴、华为事件暴露了我国计算机行业中芯片、软件两大短板,为防止“卡脖子”事件的再发生,科技专业人才就成了决胜的关键.为了解我国在芯片、软件方面的潜力,某调查机构对我国若干大型科技公司进行调查统计,得到了这两个行业从业者的年龄分布的饼形图和“90后”从事这两个行业的岗位分布雷达图,则下列说法中不一定正确的是( )
A.芯片、软件行业从业者中,“90后”占总人数的比例超过50%
B.芯片、软件行业中从事技术设计岗位的“90后”人数超过总人数的25%
C.芯片、软件行业从事技术岗位的人中,“90后”比“80后”多
D.芯片、软件行业中,“90后”从事市场岗位的人数比“80前“的总人数多
【答案】C
【解析】
【分析】根据图表信息,整合数据,逐项判断即可得解.
【详解】对于选项A,芯片、软件行业从业者中“90后”占总人数的55%,故选项A正确;
对于选项B,芯片、软件行业中从事技术、设计岗位的“90后”占总人数的(37%+13%)×55%=27.5%,故选项B正确;
对于选项C,芯片、软件行业中从事技术岗位的“90后”占总人数的37%×55%=20.35%,“80后”占总人数的40%,但从事技术的“80后”占总人数的百分比不知道,无法确定二者人数多少,故选项C错误;
对于选项D,芯片、软件行业中从事市场岗位的“90后”占总人数的14%×55%=7.7%、“80前”占总人数的5%,故选项D正确.
故选:C.
【点睛】本题考查了统计图的应用,考查了数据整合的能力,属于基础题.
【例题3-7】已知样本数据:10,8,6,10,13,8,10,12,11,7,8,9,11,9,12,9,10,11,12,11.那么频率为0.2的是( )
A. B. C. D.
【答案】D
【解析】
根据所给数据,结合选项中的分组,即可求得各组的频率.
【详解】
样本共有20个.根据选项,可分为4组,各组的频数和频率如下表所示:
分组
频数
频率
2
0.1
6
0.3
8
0.4
4
0.2
合计
20
1.0
从表中可以看出频率为0.2的是,故选:D.
【点睛】本题考查了频率分布表的做法,各组频率求法,属于基础题.
【例题3-8】学校为了解学生每月在购买学习用品方面的支出情况,抽取了名学生进行调查,结果显示这些学生的支出(单位:元)都在内,其频率分布直方图如图所示.其中支出在内的学生有66人,则支出在内的学生人数是( )
A.30 B.40 C.60 D.120
【答案】C
【解析】根据频率分布直方图可知, 支出在内的频率, 支出在内的频率,再利用频率=频数/样本容量,即可求出样本容量和支出在内的学生人数.
【详解】
由频率分布直方图知,支出在内的频率为,
因为支出在内的学生有66人,所以样本容量,
由频率分布直方图知,支出在内的频率为,
所以支出在内的学生人数是.故选:C
【点睛】本题主要考查利用频率分布直方图求频率;其中正确求出每个区间上所对的频率是求解本题的关键;属于基础题,常考题型.
【例题3-9】为了检测某种产品的质量,抽取了一个样本量为100的样本,数据的分组如下:
[10.75,10.85),3;[10.85,10.95),9;[10.95,11.05),13;[11.05,11.15),16;[11.15,11.25),26;[11.25,11.35),20;[11.35,11.45),7;[11.45,11.55),4;[11.55,11.65],2.
(1)列出频率;(2)画出频率分布
【答案】(1)分布表见解析;(2)直方图见解析.
【分析】(1)根据所给数据列出频率分布表;(2)根据频率分布表作出频率分布直方图.
【解析】(1)频率分布表如下:
分组
频数
频率
[10.75,10.85)
3
0.03
[10.85,10.95)
9
0.09
[10.95,11.05)
13
0.13
[11.05,11.15)
16
0.16
[11.15,11.25)
26
0.26
[11.25,11.35)
20
0.20
[11.35,11.45)
7
0.07
[11.45,11.55)
4
0.04
[11.55,11.65]
2
0.02
合计
100
1.00
(2)频率分布直方图如图
【例题3-10】为考查某校高二男生的体重,随机抽取44名高二男生,实测体重数据(单位:kg)如下:
57,61,57,57,58,57,61,54,68,51,49,64,50,48,65,52,56,46,54,49,51,47,55,55,54,42,51,56,55,51,54,51,60,62,43,55,56,61,52,69,64,46,54,48
将数据进行适当的分组,并画出相应的频率分布直方图和频率分布折线图.
【答案】见解析
【解析】
【分析】分析数据的极差,选择合适的组局,让组数在5-8组左右为宜,作出频率分布表,根据频率分布表作出频率分布直方图﹒
【详解】数据的极差为:69-42=27,所以可以4为组距,将数据分为8组,列表如下:
分组
频率累计
频数
频率
[41.5,45.5)
2
0.045 5
[45.5,49.5)
7
0.159 1
[49.5,53.5)
8
0.181 8
[53.5,57.5)
16
0.363 6
[57.5,61.5)
5
0.113 6
[61.5,65.5)
4
0.090 9
[65.5,69.5)
2
0.045 5
以此作出频率分布直方图和频率分布折线图,
如图所示:
【例题3-11】为了了解高一年级学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组的频数为12.
(1)第二小组的频率是多少?样本量是多少?
(2)若次数在110以上(含110次)为达标,则该校全体高一年级学生的达标率是多少?
(3)样本中不达标的学生人数是多少?
(4)第三组的频数是多少?
【答案】(1)0.08,150;(2)88%;(3)18;(4)51.
【分析】频率分布直方图以面积的形式反映数据落在各小组内的频率大小,所以计算面积之比即为所求小组的频率.可用此方法计算(1),(2),由公式直接计算可得(1)中样本容量;根据(2)问中的达标率,可计算不达标率,从而求出不达标人数,可得(3);单独计算第三组的频率,由公式计算频数,可求出(4).
【解析】
(1)频率分布直方图以面积的形式反映数据落在各小组内的频率大小,因此第二小组的频率为=0.08.
所以样本容量==150.
(2)由直方图可估计该校高一年级学生的达标率为×100%=88%.
(3)由(1)(2)知达标率为88%,样本量为150,不达标的学生频率为1-0.88=0.12.
所以样本中不达标的学生人数为150×0.12=18(人).
(4)第三小组的频率为=0.34.
又因为样本量为150,
所以第三组的频数为150×0.34=51.
【例题3-12】从某校500名12岁男孩中用简单随机抽样的方法抽取一个容量为120的身高(单位:cm)样本,具体数据如下表所示:
分组
[122,126)
[126,130)
[130,134)
[134,138)
[138,142)
人数
5
8
10
22
33
分组
[142,146)
[146,150)
[150,154)
人数
20
11
6
5
(1)列出频率分布表;
(2)画出频率直方图;
(3)画出频率折线图;
(4)估计身高小于134cm的人数占总人数的百分比.
【答案】(1)频率分布表见解析;(2)频率直方图见解析;(3)频率折线图见解析;(4)19%
【分析】(1)根据所给数据列出频率分布表;
(2)由频率分布表画出频率分布直方图;
(3)由频率分布直方图画出频率分布折线图
(4)由频率分布表可得身高小于134 cm的学生的频率;
【解析】
(1)频率分布表如下表所示:
分组
频数
频率
[122,126)
5
0.04
0.01
[126,130)
8
0.07
0.0175
[130,134)
10
0.08
0.02
[134,138)
22
0.18
0.045
[138,142)
33
0.28
0.07
[142,146)
20
0.17
0.0425
[146,150)
11
0.09
0.0225
[150,154)
6
0.05
0.0125
[154,158)
5
0.04
0.01
合计
120
1
0.25
(2)
(3)
(4)由频率分布表可知身高小于134cm的男孩出现的频率为0.04+0.07+0.08=0.19,所以身高小于134cm的人数约占总人数的19%.
【自我提升1】2020年5月我国抗击新冠肺炎疫情工作取得阶段性胜利,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是( )
A.这11天复工指数和复产指数均逐日增加
B.这11天期间,复产指数的极差大于复工指数的极差
C.第3天至第11天复工复产指数均超过80%
D.第9天至第11天复工指数的增量大于复产指数的增量
【答案】C
【解析】
【分析】
根据折线图对选项一一分析即可.
【详解】
对于A,这11天复工指数和复产指数均有升有降,故A错误;
对于B,这11天期间,复产指数的极差为11月与1月的差值,复工指数的极差为10月与2月的差值,易知复产指数的极差小于复工指数的极差,故B错误;
对于C,第3天至第11天复工复产指数均超过80%,故C正确;
对于D,第9天至第11天复工指数的增量小于复产指数的增量,故D错误;
故选:C
【自我提升2】电路制造在半导体芯片表面上的集成电路称为薄膜(thin-film)集成电路,集成电路对于离散晶体管有成本和性能两个主要优势.从存放有编号分别为1,2,3,…,8的芯片的盒子中,有放回地取1000次,每次取一张芯片并记下编号.统计结果如下:
芯片编号
1
2
3
4
5
6
7
8
取到的次数
127
141
110
118
150
123
109
则取到号码为奇数的频率为( )A.0.5 B.0.49 C.0.51 D.0.48
【答案】B
【解析】
计算出编号为奇数对应的次数的总和,再用除以即可求解出对应的频率,从而结果可求.
【详解】设编号为奇数对应的次数的总和为,
所以,
所以取到号码为奇数的频率为:,故选:B.
【自我提升3】现在的青少年由于沉迷电视、手机、网络游戏等,视力日渐减退,某市为了了解学生的视力变化情况,从全市九年级随机抽取了1500名学生,统计了每个人连续三年视力检查的结果,根据视力在4.9以下的人数变化制成折线统计图,并对视力下降的主要因素进行调查,制成扇形统计图,如图.
解答下列问题:
(1)图中D所在扇形的圆心角度数为______;
(2)若2019年全市共有30000名九年级学生,请你估计视力在4.9以下的学生有______名.
【答案】 54°或54度 16000
【解析】
【分析】
(1)根据扇形图算出D所占的比例,进而算出圆心角度数;
(2)根据折线统计图算出学生视力在4.9以下的频率,进而估算出30000名学生视力在4.9以下的人数.
【详解】
(1)根据题意得.
(2)因为,所以估计视力在4.9以下的学生有16000名.
故答案为:54°;16000.
【自我提升4】某地政府调查了工薪阶层1000人的月工资收入(单位:百元),并把调查结果画成如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层随机抽样的方法从调查的1000人中抽出100人做电话询访,则月工资收入在内的应抽出______人。
【答案】
【分析】根据小矩形的面积之和等于求出区间的小矩形的面积即为该组的频率,再由该频率乘以即可求解.
【解析】由频率分布直方图可知月工资收入在内的频率为:
,
所以用分层抽样抽出的100人做电话询访,月工资收入在内的频率为,
则月工资收入在内的应抽出人,故答案为:.
【自我提升5】在样本的频率分布直方图中共有个小矩形,若中间一个小矩形的面积等于其余个小矩形面积的,且样本容量为3200,则中间一组的频数为__________.
【答案】400.
【分析】根据中间一个小矩形的面积等于其余(n﹣1)个小矩形面积之和的,设出中间一个小矩形的面积是x,则其余(n﹣1)个小矩形面积之和为7x,得到中间一个的频率的值,用概率乘以样本容量得到结果.
【解析】∵在样本的频率分布直方图中共有n个小矩形,
中间一个小矩形的面积等于其余(n﹣1)个小矩形面积之和的,
设中间一个小矩形的面积是x,则其余(n﹣1)个小矩形面积之和为7x,
∵x+7x=1,∴x
∵样本容量为3200,∴中间一组的频数是3200400,故答案为:400.
【点睛】本题考查频率分布表,考查频率分步直方图小正方形的面积等于这组数据的频率,注意小正方形的面积之间的关系不要弄混.
【自我提升6】为加强中学生实践创新能力和团队精神的培养,促进教育教学改革,某市教育局将举办全市中学生创新知识竞赛.某校举行选拔赛,共有200名学生参加,为了解成绩情况,从中抽取50名学生的成绩(得分均为整数,满分为100分)进行统计,请你根据尚未完成的频率分布表解答下列问题:
分组
频数
频率
[60.5,70.5)
a
0.26
[70.5,80.5)
15
c
[80.5,90.5)
18
0.36
[90.5,100.5]
b
d
合计
50
e
(1)求a,b,c,d,e的值;(2)作出频率分布直方图.
【答案】(1)a=13,b=4,c=0.30,d=0.08,e=1;(2)作图见解析.
【解析】
【分析】(1)根据频率分布表中的数据,利用频率公式结合频数为50,频率和为1求解;
(2)根据频率分布表中的数据,以组距为x轴,以频率比组距为y轴,画出频率分布直方图;
【详解】(1)根据题意,得分在[60.5,70.5)内的频数a=50×0.26=13,
在[90.5,100.5]内的频数b=50-13-15-18=4,
在[70.5,80.5)内的频率c=,
在[90.5,100.5]内的频率d=,频率和e=1.
(2)根据频率分布表作出频率分布直方图,如图所示.
【自我提升7】学校为了调查学生在课外读物方面的支出情况,抽取了一个容量为的样本,其频率分布直方图如图所示,其中支出在的同学有人,则的值为( )
A. B. C. D.
【答案】A
【解析】
【分析】
结合样本容量的计算公式即可.
【详解】
由频率分布直方图可知,
支出在的同学的频率为:
,故选:
【自我提升8】人口普查是世界各国所广泛采用的搜集人口资料的一种科学方法,是提供全国基本人口数据的主要来源.根据人口普查的基本情况,可以科学的研究制定社会、经济、科教等各项发展政策,是国家科学决策的重要基础工作,人口普查资料是制定人口政策的依据和前提.截止2020年10月10日,我国共进行了六次人口普查,下图是这六次人口普查的人数和增幅情况,下列说法正确的是( )
A.人口数逐次增加,第二次增幅最大 B.第六次普查人数最多,第四次增幅最小
C.第六次普查人数最多,第三次增幅最大 D.人口数逐次增加,从第二次开始增幅减小
【答案】C
【解析】
【分析】
人口数由柱状图判断,增幅由折线图判断.
【详解】
A.人口数逐次增加,第三次增幅最大,故错误;
B.第六次普查人数最多,第六次增幅最小,故错误;
C.第六次普查人数最多,第三次增幅最大,故正确;
D.人口数逐次增加,从第三次开始增幅减小,故错误;
故选:C
【自我提升9】根据中国银行的外汇牌价,第一季度的个工作日中,欧元的现汇买入价(欧元的外汇可兑换人民币)的分组和各组的频数如下:
,;,;,;,;,;,;,.
(1)列出欧元的现汇买入价的频率分布表;
(2)估计欧元的现汇买入价在内的频率;
(3)若欧元的现汇买入价不超过的频率的为,求.
【答案】(1)频率分布表见解析;(2);(3)
【分析】
(1)根据题中信息可列出频率分布表;
(2)根据频率分布表可计算出欧元的现汇买入价在内的频率;
(3)分析得出,根据题意列出关于的等式,即可解得的值.
【解析】(1)欧元的现汇买入价的频率分布表如下:
分 组
频数
频率
合 计
(2)估计欧元的现汇买入价在内的频率约为.
(3)因为,,
所以,,且有,解得.
4. 变量间的相关关系:
【例题4-1】有五组变量:
①汽车的重量和汽车每消耗一升汽油所行驶的距离;
②平均日学习时间和平均学习成绩;
③某人每天的吸烟量和身体健康状况;
④圆的半径与面积;
⑤汽车的重量和每千米的耗油量.
其中两个变量成正相关的是( )
A.②④⑤ B.②④ C.②⑤ D.④⑤
【答案】C
【解析】
【分析】根据相关系及正相关、负相关的定义,逐项判定,即可求解.
【详解】
①中,汽车的重量和汽车每消耗1升汽油所行驶的平均路程是负相关的关系;
②中,平均日学习时间和平均学习成绩的关系是一个正相关;
③中,某人每日吸烟量和其身体健康情况是负相关的关系;
④中,圆的半径与面积是函数关系;
⑤中,汽车的重量和百公里耗油量关系是一个正相关;,
所以②⑤中的两个变量属于线性正相关.
故选:C.
【例题4-2】在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
【答案】 B
【解析】 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.
【例题4-3】已知变量与相对应的一组数据为;变量与相对应的一组数据为.设表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,判断与的符号.
【答案】
【解析】
【分析】
根据正相关以及负相关的含义判断与的符号.
【详解】
在回归与相关分析中,因变量值随自变量值的增大(减小)而增大(减小),在这种情况下,因变量和自变量的相关系数为正值,即正相关. 变量与相对应的一组数据值随值的增大而增大,因此与之间正相关.符号为正.
在回归与相关分析中,因变量值随自变量值的增大(减小)而减小(增大),在这种情况下,因变量和自变量的相关系数为负值,即负相关. 变量与相对应的一组数据值随值的增大而减小,因此与之间负相关.的符号为负.
【点睛】
本题考查正相关以及负相关的含义,考查基本分析判断能力,属基本题.
【例题4-4】表给出了一些地区的鸟的种类数与该地区的海拔高度的数据,鸟的种类数与海拔高度是否存在相关关系?如果是,那么这种相关关系有什么特点?
地区
A
B
C
D
E
F
G
H
I
J
K
海拔/m
1250
1158
1067
457
701
731
610
670
1493
762
549
鸟的种类/种
36
30
37
11
11
13
17
13
29
4
15
【答案】存在正相关,相关性较强.
【解析】
【分析】
由表中数据计算相关系数即可得出结果.
【详解】
设鸟的种类数为,海拔高度为,
,
,
,
当时,且时,两变量正相关,相关性较强.
所以由数据可知,鸟类的种数随海拔高度增加而增加,两者呈正相关,相关性较强.
【自我提升1】如下四个散点图中,正相关的是( )
A. B.
C. D.
【答案】A
【解析】对于A,散点图中的点从左向右是上升的,且在一条直线附近,是正相关;
对于B,散点图中的点从左向右是下降的,且在一条直线附近,是负相关;
对于C、D,散点图中的点不成带状分布,没有明显的相关关系;故选:A.
【自我提升2】对于相关系数,下列说法中正确的是( )
A.越大,线性相关程度越强
B.越小,线性相关程度越强
C.越大,线性相关程度越弱,越小,线性相关程度越强
D.,且越接近,线性相关程度越强,越接近,线性相关程度越弱
【答案】D
【解析】
【分析】
由相关系数与线性相关程度的关系逐一判断即可.
【详解】
解:对于选项A,越大,线性相关程度越强,即A错误;
对于选项B,越小,线性相关程度越弱,即B错误;
对于选项C,越大,线性相关程度越强,越小,线性相关程度越弱, 即C错误;
对于选项D,,且越接近,线性相关程度越强,越接近,线性相关程度越弱,即D正确,
故选:D.
【点睛】本题考查了相关系数与线性相关程度的关系,属基础题.
【自我提升3】在一次试验中,测得的四组值分别为,则与的相关系数为( )
A. B. C.0 D.
【答案】B
【解析】
【分析】
经计算可知四个点都在一条单调递减的直线上,即可得相关系数.
【详解】
因为过点的直线的斜率为,
所以过点的直线的方程为:即,
经检验点,都在直线,
所以与是函数关系,
又因为单调递减,所以与的相关系数为,
故选:B.
5. 线性回归方程:
【例题5-1】根据最小二乘法,由一组样本点()求得的经验回归方程是,则下列说法正确的是( )
A.至少有一个样本点落在回归直线上
B.回归直线是由样本点()中的两点确定的
C.对所有的变量(),的值一定与有误差
D.若经验回归方程中的,则变量y与x正相关
【答案】D
【解析】
【分析】根据回归直线方程知识点即可求解.
【详解】对于A,样本点可能全部不在回归直线上,故A错误;
对于B,回归直线不是由两点确定的,故B错误;
对于C,若所有的样本点都在回归直线上,则的值与相等,故C错误;对于D,由经验回归方程的性质知y与x正相关的充要条件是,故D正确.
故选:D.
【例题5-2】已知某种商品的销售额y(单位:万元)与广告费支出x(单位:万元)之间具有线性相关关系,利用下表中的数据求得经验回归方程为,根据该经验回归方程,预测当时,,则( )
x
2
3
4
5
6
y
25
37
50
56
64
A.9.3 B.9.5 C.9.7 D.9.9
【答案】C
【解析】
【分析】样本中心点位于线性回归方程,进而得到方程组,求出.
【详解】由题表数据可得:,,则,解得:.故选:C.
【例题5-3】已知x,y的取值如下表所示,由散点图分析可知y与x线性相关,且回归直线方程为,那么表格中的数据m的值为______.
x
0
1
3
4
y
2.2
4.3
4.8
m
【答案】6.7
【解析】
【分析】根据回归直线必过样本中心点求解即可.
【详解】,,
把的坐标代入回归直线方程得,解得.故答案为:6.7
【例题5-4】已知x,y的取值如下表所示,由散点图分析可知y与x线性相关,且回归直线方程为,那么表格中的数据m的值为______.
x
0
1
3
4
y
2.2
4.3
4.8
m
【答案】6.7
【解析】
【分析】根据回归直线必过样本中心点求解即可.
【详解】,,
把的坐标代入回归直线方程得,解得.故答案为:6.7
【例题5-5】下列选项分别为一组观测值的四个一元线性回归模型对应的残差图,则对应的一元线性回归模型的拟合效果最好的残差图是( )
A. B.
C. D.
【答案】A
【解析】
【分析】残差点比较均匀地落在水平的带状区域中时比较合适,即可得出答案.
【详解】对于A,残差图中的点分布在以原点为中心的水平带状区域上,并且沿水平方向散点的分布规律相同,说明残差是随机的,所选择的冋归模型是合理的;
对于B,残差图中的点分布在一条倾斜的带状区域上,并且沿带状区域方向散点的分布规律相同,说明残差与横坐标有线性关系,此时所选用的回归模型的效果不是最好的,有改进的余地;
对于C,残差图中的点分布在一条拋物线形状的弯曲带状区域上,说明残差与坐标轴变量有二次关系,此时所选用的回归模型的效果不是最好的,有改进的余地;
对于D,残差图中的点分布范围随着横坐标的增加而扩大,说明残差与横坐标变量有关,所选用的冋归模型的效果不是最好的,有改进的余地.
故选:A.
【例题5-6】如图,5个数据,去掉后,下列说法错误的是( )
A.相关系数r变大 B.残差平方和变大
C.R2变大 D.解释变量x与预报变量y的相关性变强
【答案】B
【解析】
【分析】根据图中的点,计算去掉前后的相关系数、残差平方和、,即可判断各选项的正误.
【详解】由图,,,则,,,∴相关系数.
令回归方程,则,
∴,即回归方程为,可得为,,,,,
∴残差平方和,故,
去掉后,
,,则,,,
∴相关系数.∴,A、D正确;令回归方程,则,
∴,即回归方程为,可得为,,,,∴残差平方和,故,∴,B错误,C正确;故选:B
【例题5-7】已知某产品连续4个月的广告费(千元)与销售额(万元)(,2,3,4),经过对这些数据的处理,得到如下数据信息:①,;②广告费x和销售额y之间具有较强的线性相关关系;③回归系数.则广告费平均值为______千元,当广告费为6千元时,则可预测销售额为______万元.
【答案】 4.5或 4.7或
【分析】由平均数的定义求广告费平均值,由回归方程的性质求回归方程,再求广告费为6千元时销售额的预测值.
【解析】由题意得,,,由得,,∴.当时,.故答案为:4.5;4.7.
【例题5-8】中国是茶的故乡,也是茶文化的发源地.为了弘扬中国茶文化,某酒店推出特色茶食品“排骨茶”,为了解每壶“排骨茶”中所放茶叶克数与食客的满意率的关系,调查研究发现,可选择函数模型来拟合与的关系,根据以下统计数据:
茶叶克数
1
2
3
4
5
4.34
4.36
4.44
4.45
4.51
可求得关于的非线性经验回归方程为( )
A. B.
C. D.
【答案】A
【解析】
【分析】令,由线性回归方程经过样本中心点,利用表中数据求得,代入选项即得.
【详解】由题表中数据可知,
令,则,
对于A,化简变形可得,等号两边同取对数,可得,将代入可得,所以A正确;
对于B,,
∴,将代入可得,
,故B错误;
对于C,∵,将代入可得,
∴,故C错误;
对于D,∵,将代入可得,
∴,故D错误.
故选:A.
【例题5-9】某工厂对某产品的产量与成本的资料分析后有如下数据:
产量(千件)
2
3
5
6
成本(万元)
7
8
9
12
(1)画出散点图;
(2)求成本与产量之间的线性回归方程.(结果保留两位小数)
【答案】(1)答案见解析;(2).
【解析】
(1)根据已知数据作散点图;
(2)先计算,然后计算出系数可得回归直线方程.
【详解】(1)散点图如图所示.
(2)设成本与产量之间的线性回归方程为,
由题意得,
所以,
.所以线性回归方程为.
【自我提升1】如果在一次实验中,测得(x,y)的四组数值分别是(1,2.2),(2,3.3),(4,5.8),(5,6.7),则y对x的线性回归方程是( )
A. B.
C. D.
【答案】D
【分析】根据题中数据,求得,再代入公式,可求得,即可求得方程.
【解析】根据四组数据,可得,
所以,,
所以,
所以,所以回归直线方程为:.故选:D
【自我提升2】如图所示,已知两个线性相关变量x,y的统计数据如下:
x
6
8
10
12
y
6
5
3
2
其线性回归方程为,则( ).
A. B.0.7 C. D.
【答案】A
【解析】
【分析】根据给定条件求出样本的中心点,再代入回归直线方程计算作答.
【详解】依题意,,,将带入得:,解得,
所以.故选:A
【自我提升3】2020年初,新型冠状病毒引起的肺炎疫情暴发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效.某地开始使用中西医结合的方法后,每周治愈的患者人数如下表所示:
第周
1
2
3
4
5
治愈人数
2
17
36
93
142
由上表数据可得关于的非线性经验回归方程为,则此回归模型中第4周的残差为( )
A.5 B.4 C.1 D.0
【答案】A
【解析】
【分析】设,求出,代入可求出,再将代入即可求出.
【详解】设,则,,
,所以.
令,得第4周的残差为.
故选:A.
【自我提升4】两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25
【答案】A
【解析】R2的值越大,说明残差平方和越小,模型的拟合效果越好.
【自我提升5】某研究机构对高三学生的记忆力x和判断力y进行统计分析,得表数据.
X
6
8
10
12
Y
2
3
5
6
请上表提供的数据,求出y关于x的线性回归方程_______________,据此可预测判断力为4的同学的记忆力为_______________.
【答案】 ; .
【解析】
【分析】设回归方程,利用表中数据,根据最小二乘原理求得系数,即得方程;再用方程代入数据预测记忆力即可.
【详解】设y关于x的线性回归方程为,直线过样本中心点
由表格数据得,,,,
故根据最小二乘原理知, ,即线性回归方程为;
将代入方程,得,即可预测判断力为4的同学的记忆力为.故答案为:;.
【点睛】本题考查了线性回归直线的求法及其应用,属于基础题.
【自我提升6】下列数据符合函数模型( )
x
1
2
3
4
5
6
7
8
9
10
y
2
2.69
3
3.38
3.6
3.8
4
4.08
4.2
4.3
A. B. C. D.
【答案】D
【解析】
【分析】
将表格中的值代入选项中函数的解析式,即可求解.
【详解】
根据表格中的数据,可得随着的增大而增大,所以C选项不符合题意;
分别将的值代入给定的函数的解析式,求得相应的的值,可判断函数最符合题意.
故选:D.
6. 独立性检验:
【例题6-1】为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是( )
A.是否倾向选择生育二胎与户籍无关
B.是否倾向选择生育二胎与性别无关
C.倾向选择生育二胎的人员中,男性人数与女性人数相同
D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数
【答案】C
【解析】
【分析】
通过阅读理解、识图,将数据进行比对,通过计算可得出C选项错误.
【详解】
由不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图知:
在A中,城镇户籍倾向选择生育二胎的比例为,农村户籍倾向选择生育二胎的比例为,是否倾向选择生育二胎与户籍有关,故A正确;
在B中,男性倾向选择生育二胎的比例为,女性倾向选择生育二胎的比例为,
是否倾向选择生育二胎与性别无关,故B正确;
在C中,男性倾向选择生育二胎的比例为,人数为人,
女性倾向选择生育二胎的比例为,人数为人,
倾向选择生育二胎的人员中,男性人数比女性人数多,故C错误;
在D中,倾向选择不生育二胎的人员中,农村户籍人数为人,城镇户籍人数为人,
倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数,故D正确.
故选:C.
【例题6-2】如表是一个2×2列联表:则表中a,b的值分别为( )
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
A.94,72 B.52,50 C.52,74 D.74,52
【答案】C
【分析】
根据表中数据简单计算即可.
【详解】a=73-21=52,b=a+22=52+22=74.故选:C.
【例题6-3】假设2个分类变量X和Y的2×2列联表如下:
Y
X
y1
y2
总计
x1
a
10
a+10
x2
c
30
c+30
总计
a+c
40
100
对于同一样本,以下数据能说明和有关系的可能性最大的一组是( )
A.a=40,c=20 B.a=45,c=15 C.a=35,c=25 D.a=30,c=30
【答案】B
【分析】
根据题意, 一定时,,相差越大,与相差就越大,的观测值就越大,由此能说明和有关系的可能性越大.
【详解】
的观测值,
根据2×2列联表和独立性检验的相关知识,当, 一定时,,相差越大,与相差就越大,就越大,即和有关系的可能性越大,选项B中与其它选项相比相差最大.
故选:B
【例题6-4】针对某新型病毒,某科研机构已研发出甲、乙两种疫苗,为比较两种疫苗的效果,选取100名志愿者,将他们随机分成两组,每组50人.第一组志愿者注射甲种疫苗,第二组志愿者注射乙种疫苗,经过一段时间后,对这100名志愿者进行该新型病毒抗体检测,发现有的志愿者未产生该新型病毒抗体,在未产生该新型病毒抗体的志愿者中,注射甲种疫苗的志愿者占.根据题中数据,完成列联表
产生抗体
未产生抗体
合计
甲
乙
合计
【答案】列联表见解析.
【解析】
【分析】根据题中数据及比例计算表格中的对应人数,完成列联表即可
【详解】根据题中数据可得未产生该新型病毒抗体的志愿者的人数为,
则注射甲种疫苗的志愿者中未产生抗体的人数为,产生抗体的人数为;
注射乙种疫苗的志愿者中未产生抗体的人数为,产生抗体的人数为.
产生抗体
未产生抗体
合计
甲
48
2
50
乙
42
8
50
合计
90
10
100
【例题6-5】某校对学生进行心理障碍测试,得到的数据如下表:
焦虑
说谎
懒惰
总计
女生
5
10
15
30
男生
20
10
50
80
总计
25
20
65
110
根据以上数据可判断在这三种心理障碍中,与性别关系最大的是( )
A.焦虑 B.说谎 C.懒惰 D.以上都不对
【答案】B
【分析】
分别求出三种关系的观测值,比较后可得结论.
【详解】
解:对于焦虑,说谎,懒惰三种心理障碍,设它们观测值分别为,
由表中数据可得:
,
,
,
因为的值最大,所以说谎与性别关系最大.
故选:B.
【例题6-6】新生儿为应对某疾病要接种三次疫苗,假设每次接种之间互不影响,每人每次接种成功的概率相等,为了解新生儿该疾病疫苗接种剂量与接种成功之间的关系,现进行了两种接种方案的临床试验:/次剂量组与/次剂量组,试验结果如表.
接种成功
接种不成功
合计(人)
/次剂量组
900
100
1000
/次剂量组
973
27
1000
合计(人)
1873
127
2000
(1)根据数据说明哪种方案接种效果好.能否认为该疾病疫苗接种成功与两种接种方案有关?
(2)以频率代替概率,若选用接种效果好的方案,参与该试验的1000人的成功人数比此剂量只接种一次的成功人数平均提高多少?
参考公式:,其中.
参考附表:
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)能认为该疾病疫苗接种成功与两种接种方案有关;(2)273.
【分析】(1)先根据两种接种方案的人数直观感知第二种方案好,再利用列联表计算,再利用临界值表进行判定;
(2)设出接种一次成功的概率为p,利用独立事件同时发生的概率求出,再利用二项分布求出期望值即可作出判断.
【解析】(1)由于两种接种方案都是1000人接受临床试验,接种成功人数:
/次剂量组900人,/次剂量组973人,且,
所以方案/次剂量组接种效果好.
因为,
所以能认为该疾病疫苗接种成功与两种接种方案有关.
(2)假设/次剂量组临床试验接种一次成功的概率为p,
由数据知,三次接种后成功的概率为,不成功的概率为,
由于三次接种之间互不影响,每人每次接种成功的概率相等,
所以,解得.
设参与试验的1000人此剂量只接种一次成功的人数为X,
显然,,
参与试验的1000人此剂量只接种一次成功的人数平均为700,.
故试验选用/次剂量组方案,参与该试验的1000人的成功人数比此剂量只接种一次的成功人数平均提高273.
【自我提升1】为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出如下等高条形图:
根据图中的信息,下列结论中不正确的是( )
A.样本中的男生数量多于女生数量 B.样本中喜欢手机支付的数量多于现金支付的数量
C.样本中多数男生喜欢手机支付 D.样本中多数女生喜欢现金支付
【答案】D
【详解】
由右边条形图知,男生女生喜欢手机支付的比例都高于现金支付的比例,所以男生女生都喜欢手机支付,故C对,D错,由左边条形图知,男生女生手机支付都比现金支付比例相同,B对,结合两个条形图可知,样本中的男生数量多于女生数量,A对,故选D.
【自我提升2】有人发现,多看手机容易使人变近视,下表是一个调查机构对此现象的调查结果:
近视
不近视
合计
少看手机
20
38
58
多看手机
68
42
110
合计
88
80
168
则在犯错误的概率不超过______的前提下,可以认为多看手机与人变近视有关系.
附:
0.005
0.001
7.879
10.828
【答案】0.001
【分析】根据公式求出,再对照临界值表即可得出结论
【解析】由题意题中数据可得,,
由临界值表可得,所以在犯错误的概率不超过的前提下,可以认为多看手机与人变近视有关系.故答案为:0.001.
【自我提升3】有关独立性检验的四个命题,其中不正确的是( )
A.两个变量的2×2列联表中,对角线上数据的乘积相差越大,说明两个变量有关系成的可能性就越大
B.对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”的可信程度越小
C.从独立性检验可知:有95%把握认为秃顶与患心脏病有关,我们说某人秃顶,那么他有95%可能患有心脏病
D.从独立性检验可知:有99%把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%前提下认为吸烟与患肺癌有关
【答案】C
【解析】
【分析】
根据独立性检验的原理与知识,对选项中的命题判断正误即可.
【详解】
对于A,两个变量的2×2列联表中,对角线上数据的乘积相差越大,说明两个变量有关系成立的可能性就越大,所以A正确;
对于B,对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”的可信程度越小,所以B正确;
对于C,从独立性检验可知:有95%的把握认为秃顶与患心脏病有关,不是说某人秃顶,那么他有95%的可能患有心脏病,C错误;
对于D,从独立性检验可知:有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下认为吸烟与患肺癌有关,所以D正确.
故选:C.
【点睛】本题考查独立性检验相关知识,考查基本分析判断能力
【自我提升4】某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
成绩性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
阅读量性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩 B.视力 C.智商 D.阅读量
【答案】D
【分析】根据公式分别计算得观察值,比较大小即可得结果.
【解析】根据公式分别计算得:A.;
;
;
选项D的值最大,所以与性别有关联的可能性最大,故选D.
【点睛】本题主要考查独立性检验的应用,意在考查灵活应用所学知识解决实际问题的能力,属于中档题.
1. 下列调查方式中合适的是( )
A.某单位将新购买的准备开业庆典的箱礼炮全部进行质检
B.某班有名同学,指定家庭最富有的人参加“学代会”
C.某服装厂的一批件出口服装,随机抽件进行抽样调查
D.为了调查最近上映影片的一周内的票房情况,特选周六、周日两天进行调查
【答案】C
【解析】
【分析】
分析题意,要选择合适的调查方法,需要对全面调查的局限性和抽样调查的必要性结合起来.结合抽样调查和普查的特点逐项判断即可得出合适的选项.
【详解】
对于A选项,对礼炮的质检带有破坏性,虽然总量不大,但不宜采用普查的方式;
对于B选项,“家庭最富有”不具备代表性,样本选择错误;
对于C选项,件服装容量较大,随机抽件进行抽样调查较为合适;
对于D选项,因调查一周的票房,时间不长,周六、周日是双休日,这两天的票房较高,所以,周六、周日这两天的选取也不具备代表性.
故选:C.
2. 某校共有学生2000名,各年级男、女生人数如下表.
一年级
二年级
三年级
女生
373
x
y
男生
377
370
z
已知在全校学生中随机抽取1名,抽到二年级女生的可能性是0.19.现用分层随机抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为( )A.24 B.18
C.16 D.12
【答案】C
【解析】
【分析】
由已知条件可求,可得一、二年级的学生总数,再确定三年级的学生人数,根据分层抽样的原则即可求三年级抽取的学生人数.
【详解】由题意知,x=2000×0.19=380,
∴一、二年级男、女生共有1500人,
∴三年级共有学生500人,
∴应在三年级抽取的学生人数为.故选:C.
3. 以将个数据按照从小到大的顺序进行排列,第四个数据被墨水污染,,,,,,,,,,,已知第百分位数是,则第四个数据是( )
A. B. C. D.
【答案】D
【解析】
【分析】
设第四个数据为,根据百分位数的定义,求出,故选取第4个和第5个数据的平均数作为第百分位数,从而得到方程,求出第4个数据
【详解】设第四个数据为,因为一共有10个数据,为整数,
根据百分位数的定义可得:,解得:故选:D
4. 某工厂对一批新产品的长度(单位:mm)进行检测,检测结果的频率分布直方图如图所示,据此估计这批产品的中位数为( )
A.20 B.25
C.22.5 D.22.75
【答案】C
【解析】根据频率分布直方图,计算出频率为0.5时落在的组,0.5减去前几组的频率的差,再根据小长方形的面积可得出答案.
【详解】
由频率分布直方图得,第一组、第二组的频率为,
第三组的频率为,所以中位数落在第三组并设为,
则有,解得.
故选:C.
5. 2021年7月,某文学网站对该网站的数字媒体内容能否满足读者需要进行了调查,调查部门随机抽取了名读者,所得情况统计如下表所示:
满意程度
学生族
上班族
退休族
满意
一般
不满意
记满分为分,一般为分,不满意为分.设命题:按分层抽样方式从不满意的读者中抽取人,则退休族应抽取人;命题:样本中上班族对数字媒体内容满意程度的方差为.
则下列命题中为真命题的是( )A. B. C. D.
【答案】A
【分析】由抽样比再乘以可得退休族应抽取人数可判断命题,求出上班族对数字媒体内容满意程度的平均分,由方差公式计算方差可判断,再由复合命题的真假判断四个选项,即可得正确选项.
【详解】因为退休族应抽取人,所以命题正确;
样本中上班族对数字媒体内容满意程度的平均分为,
方差为,命题正确,
所以为真,、、为假命题,
故选:.
6. 某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例.得到如下扇形统计图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入略有增加
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入不变
D.新农村建设后,种植收入在经济收入中所占比重大幅下降
【答案】C
【解析】
【分析】根据扇形统计图,逐项判断,即可得出结果.
【详解】
因为该地区经过一年的新农村建设,农村的经济收入增加了一倍,不妨设建设前的经济收入为,则建设后的经济收入为,
A选项,从扇形统计图中可以看到,新农村建设后,种植收入比建设前增加,故A正确;
B选项,新农村建设后,其他收入比建设前增加,即增加了一倍以上,故B正确;
C选项,养殖收入的比重在新农村建设前与建设后相同,但建设后总收入为之前的2倍,所以建设后的养殖收入也是建设前的2倍,故C错误;
D选项,新农村建设后,种植收入在经济收入中所占比重由建设前的降为,故D正确;故选:C.
7. 某校为了解高二年级学生某次数学考试成绩的分布情况,从该年级的1120名学生中随机抽取了100 名学生的数学成绩,发现都在内现将这100名学生的成绩按照,,,,,,分组后,得到的频率分布直方图如图所示,则下列说法正确的是( )
A.频率分布直方图中a的值为
B.样本数据低于130分的频率为
C.总体的中位数(保留1位小数)估计为分
D.总体分布在的频数一定与总体分布在的频数相等
【答案】C
【解析】
【分析】对于A:由频率分布直方图中所有小矩形面积之和为1,列出等式可求得a的值,进而作出判断;
对于B:先计算高于130分的频率,然后再用1减去于高于130分的频率即可得到低于130分的频率,进而作出判断;
对于C:先计算的频率和的频率,再求出总体的中位数,进而作出判断;
对于D:根据样本分布在的频数一定与样本分布在的频数相等,总体分布在的频数不一定与总体分布在的频数相等作出判断即可.
【详解】由频率分布直方图得:
,
解得,故A错误;
样本数据低于130分的频率为:,故B错误;
的频率为:,
的频率为:,
总体的中位数保留1位小数估计为:分,故C正确;
样本分布在的频数一定与样本分布在的频数相等,
总体分布在的频数不一定与总体分布在的频数相等,故D错误.
故选:C.
【点睛】本题考查频率分布直方图的应用,考查逻辑思维能力和计算能力
8. 某统计部门对四组数据进行统计分析后,获得如图所示的散点图,关于相关系数的比较,其中正确的是( )
A. B.
C. D.
【答案】C
【分析】根据相关系数的特点,可知(1)(3)为正相关,(2)(4)为负相关,再由相关性的强弱可比较出大小关系.
【详解】根据散点图的特征,数据大致呈增长趋势的是正相关,数据呈递减趋势的是负相关;数据越集中在一条线附近,说明相关性越强,
由题中数据可知:(1)(3)为正相关,(2)(4)为负相关;
故,;,;
又(1)与(2)中散点图更接近于一条直线,故,,
因此,.
故选C.
9. 某医疗研究所为了检验新开发的流感疫苗对流感的预防作用,根据1000名注射了疫苗的人与另外1000名未注射疫苗的人半年的感冒记录作出如下的的列联表,并提出假设“这种疫苗不能起到预防流感的作用”’则下列说法正确是( )
患流感
未患流感
合计
注射疫苗
200
800
1000
未注射疫苗
260
740
1000
合计
460
1540
2000
附:.
0.100
0.050
0.025
0.010
2.706
3.841
5.024
6.635
A.这种疫苗能起到预防流感的有效率为99%;
B.若某人未使用该疫苗,则他在半年中有超过99%的可能性得流感;
C.有1%的把握认为“这种疫苗能起到预防流感的作用”;
D.有99%的把握认为“这种疫苗能起到预防流感的作用”.
【答案】D
【解析】
【分析】
根据计算出的临界值,同临界值表进行比较,得到假设不合理的程度约为99%,即这种疫苗不能起到预防甲型Hln1流感的作用不合理的程度约为99%,得到正确答案.
【详解】
,
由临界值表可知,有99%的把握认为“这种疫苗能起到预防流感的作用”,
故选:D
10.对下列3个问题:
(1)对某班学生视力做一个调查.
(2)某啤酒瓶生产厂,要对所生产的啤酒瓶的抗压情况进行检验.
(3)联合国教科文组织要对全世界适龄儿童的入学情况做一个调查.
所应选用的调查方法分别为________、________、________.
【答案】 普查 抽查 抽查
【解析】
【分析】
根据被调查对象的特征和普查抽查的特征作出判定,得到答案.
【详解】
①对某班的学生视力,由于人数不多,可以做普查;
②对啤酒厂生产的啤酒的抗压情况进行检验,属破坏性检验,不可能也不允许普查,适合抽查;
③全世界的适龄儿童总体太大,只适合做抽查.
故答案为:①普查;②抽查;③抽查.
【点睛】
本题考查普查与抽查的选择,属基础题.
11.某校高一年级开设了丰富多彩的校本课程,现从甲、乙两个班随机抽取了5名学生校本课程的学分,统计如下表.
甲
8
11
14
15
22
乙
6
7
10
23
24
用分别表示甲、乙两班抽取的5名学生学分的方差,计算两个班学分的方差.得______,并由此可判断成绩更稳定的班级是______班.
【答案】 62 甲
【解析】
【分析】
根据表中数据,计算甲、乙两班的平均数、方差,即可得出结论.
【详解】
根据表中数据,计算甲班的平均数为(8+11+14+15+22)=14,
乙班的平均数为(6+7+10+23+24)=14;
甲班的方差为
[(8﹣14)2+(11﹣14)2+(14﹣14)2+(15﹣14)2+(22﹣14)2],
乙班的方差为
[(6﹣14)2+(7﹣14)2+(10﹣14)2+(23﹣14)2+(24﹣14)2],
∴,
由此可判断成绩更稳定的班级是甲班;故答案为,甲.
【点睛】本题考查了平均数、方差的公式及应用问题,考查了计算能力
12.某工厂对一批产品进行了抽样检测.下图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是,样本数据分组为,,,,,已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是___________.
【答案】90
【解析】
【分析】利用,中的样本个数求得样本容量,从而可求得样本中净重大于或等于98克并且小于104克的产品的个数.
【详解】∵样本中产品净重小于100克的频率为
(0.050+0.100)×2=0.3,频数为36,∴样本容量为=120.
∵样本中净重大于或等于98克并且小于104克的产品的频率为(0.100+0.150+0.125)×2=0.75,
∴样本中净重大于或等于98克并且小于104克的产品的个数为120×0.75=90.
故答案为:90
13.某中学有初中学生1800人,高中学生1200人.为了解学生本学期课外阅读情况,现采用分层随机抽样的方法,从中抽取了100名学生,先统计了他们的课外阅读时间,然后按初中学生和高中学生分为两组,再将每组学生的阅读时间(单位:h)分为5组:, ,,, ,并分别加以统计,得到如图所示的频率分布直方图,试估计该校所有学生中,阅读时间不小于30h的学生人数为 _______
【答案】870
【解析】
由分层抽样求出初中高中各被抽取的人数,再由频率分布直方图计算出频率,然后计算阅读时间不小于30h的人数,相加可得.
【详解】
由分层随机抽样,知抽取的初中生有60名,高中生有40名.因为初中学生中阅读时间不小于30h的频率为,所以该校所有的初中学生中,阅读时间不小于30h的学生人数约为,同理,高中学生中阅读时间不小于30h的频率为,故该校所有的高中学生中,阅读时间不小于30h的学生人数约为.所以该校所有学生中,阅读时间不小于30h的学生人数约为.
故答案为:870.
【点睛】
本题考查分层抽样,考查频率分布直方图.
14.已知变量x和变量y的3对随机观测数据(2,2),(3,-1),(5,-7),则成对样本数据的样本相关系数是________.
【答案】
【解析】
【分析】
求出相关系数公式中的相关量,再代入公式即可得解.
【详解】
数据对(2,2),(3,-1),(5,-7)依次记为,
,
,
,,
由相关系数公式得,
所以成对样本数据的样本相关系数是.故答案为:
15.一个学生在一次知识竞赛中要回答的8道题是这样产生的:从15道历史题中随机抽出3道,从20道地理题中随机抽出3道,从12道生物题中随机抽出2道.试用抽签法确定这个学生所要回答的8道题的序号(历史题编号分别为1,2,…,15,地理题编号分别为16,17,…,35,生物题编号分别为36,37,…,47).
【答案】答案见解析
【解析】
【分析】
将物理、化学、生物的号签分别放在三个不透明的容器中,搅拌均匀,再按随机抽样进行抽取即可.
【详解】
第一步:将物理、化学、生物的编号,分别写到大小、形状都相同的号签上;
第二步:将物理、化学、生物的号签分别放在三个不透明的容器中,搅拌均匀;
第三步:分别从装有物理、化学、生物的容器中逐一抽取3个、2个、2个号签.
并记录所得号签的编号,这便得到所要回答的8道题的序号.
16.某班有名学生,要从中随机地抽出人参加一项活动,请分别写出利用抽签法和随机数法抽取该样本的过程.
【答案】过程见解析
【解析】
【分析】
结合抽签法和随机数法的步骤即可得到结果.
【详解】
(1)利用抽签法步骤如下:
第一步:将这50名学生编号,编号为01,02,03,…,50.
第二步:将50个号码分别写在纸条上,并揉成团,制成号签.
第三步:将得到的号签放在一个不透明的容器中,搅拌均匀.
第四步:从容器中逐一抽取6个号签,并记录上面的号码.
对应上面6个号码的学生就是参加该项活动的学生.
(2)利用随机数法步骤如下:
第一步:将这50名学生编号,编号为1,2,3,…,50.
第二步:用随机数工具产生1~50范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的学生进入样本.
第三步:重复第二步的过程,直到抽足样本所需人数.
对应上面6个号码的学生就是参加该项活动的学生.
17.中学高一年级的500名同学中有218名女生,在调查全年级同学的平均身高时,预备抽样调查50名同学.
(1)设计一个合理的分层抽样方案.
(2)你的设计中,第一层和第二层分别是什么?
(3)分层抽样是否在得到全年级同学平均身高的估计时,还分别得到了男生和女生的平均身高的估计?
【答案】(1)答案见解析.
(2)答案见解析.
(3)答案见解析.
【分析】
(1)按照分层抽样的定义设计抽样方案;
(2)根据分层抽样的方案直接写出结论;
(3)根据平均数的计算公式可以判断.
【解析】
(1)因为男生、女生身高有差异性,故按男生、女生在总人数中所占比例采取分层抽样.
因为500名同学中有218名女生,故女生抽取人数为人;
500名同学中有282名男生故男生抽取人数为人.
然后测量这50人的身高数据,从而得到50人的身高数据样本.
(2)第一层为总体500名学生中的所有女生的身高数据,第二层为总体500名学生中的所有男生的身高数据.
(3)是的,可以用男、女生身高数据之和除以各自样本中的人数,得到男、女生平均身高的估计值.
18.如图所示是根据某市月日至月日的最低气温(单位:)的情况绘制的折线统计图,试根据折线统计图反映的信息,绘制该市月日到日最低气温(单位:)的扇形统计图和条形统计图.
【答案】答案见解析
【解析】
【分析】
列出该城市月日至月日的最低气温表(单位:),可作出扇形统计图与条形统计图.
【详解】
该城市月日至月日的最低气温(单位:)情况如下表所示:
日期
最低气温
其中最低气温为的有天,占;最低气温为的有天,占;
最低气温为的有天,占;最低气温为的有天,占;
最低气温为的有天,占;最低气温为的有天,占.
扇形统计图如下图所示:
条形统计图如下图所示:
19.某市电视台为了宣传举办问答活动,随机在该市15~65岁的人群中抽取了n人回答问题,统计结果如图表所示.
组号
分组
回答正确的人数
回答正确的人数占本组的比例
第1组
5
0.5
第2组
a
0.9
第3组
27
x
第4组
b
0.36
第5组
3
y
分别求出a,b,x,y的值.
【答案】,,,.
【解析】
【分析】
根据频率分布表和频率分布直方图先求出总人数,即可得出答案.
【详解】
解:第1组人数为,所以;
第2组人数为,所以;
第3组人数为,所以;
第4组人数为,所以;
第5组人数为,所以.
所以,,,.
20.某生物小组为了研究温度对某种酶的活性的影响进行了一组实验,实验数据经整理得到如下的折线图:
由图可以看出,这种酶的活性指标值与温度具有较强的线性相关关系,请用相关系数加以说明.
附:,,,样本相关系数.
【答案】酶的活性指标值与温度具有较强的线性相关关系;理由见解析.
【解析】
【分析】
根据实验数据可求得相关系数,由此可得结论.
【详解】
由题意得:,
,
,
由此可得酶的活性指标值与温度具有较强的线性相关关系.
21.根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若,则线性相关程度很高,可用线性回归模型拟合);
(2)求y关于x的回归方程,并预测当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少?
附:相关系数公式.
参考数据:,.
回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)0.95;答案见解析;(2);610千克.
【解析】(1)根据散点图中的数据分别求得可得,,,,,进而求得相关系数,再与0.75比较下结论.
(2)结合(1)中的数据,分别求得,,写出回归方程,然后将代入求解.
【详解】(1)由已知数据可得,,
所以,
,
,
所以相关系数.
因为,所以可用线性回归模型拟合y与x的关系.
(2),,所以回归方程为.
当时,,
即当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为610千克.
22.某校在高一部分学生中调查男女同学对某项体育运动的喜好情况,其二维条形图如图(黑色代表喜欢,白色代表不喜欢,单位:人).
(1)写出列联表;
(2)依据的独立性检验,分析喜欢这项体育运动是否与性别有关;
(3)在这次调查中,从喜欢这项体育运动的一名男生和两名女生中任选两人进行专业培训,求恰是一男一女的概率.
附表及公式:
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
,其中.
【答案】(1)列联表见解析;;(2)认为喜欢这项体育运动与性别无关;(3).
【分析】
(1)由题图数据列表
(2)由公式计算卡方后判断
(3)由古典概型求解
【解析】
(1)观察题中二维条形图,可得
被调查的男生总共45人,其中喜欢这项运动的有15人,不喜欢的有30人;
被调查的女生总共45人,其中喜欢这项运动的有5人,不喜欢的有40人.
由此写出列联表如下:
单位:人
喜欢
不喜欢
合计
男
15
30
45
女
5
40
45
合计
20
70
90
(2)零假设为:喜欢这项体育运动与性别无关.计算可得
,
所以依据的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为喜欢这项体育运动与性别无关.
(3)设喜欢这项体育运动的一名男生和两名女生分别为,,.
任选两人的情况有,,,选一名男生和一名女生的情况有,,所以恰是一男一女的概率.
23.随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了个人,其中男性占调查人数的.已知男性中有一半的人的休闲方式是运动,而女性中只有的人的休闲方式是运动.
(1)完成下列2×2列联表:
运动
非运动
总计
男性
女性
总计
(2)如果在犯错误的概率不超过0.05的前提下,可认为性别与休闲方式有关,那么本次被调查的至少:有多少人?
【答案】(1)
运动
非运动
总计
男性
女性
总计
(2)
【分析】
(1)根据题意补充表格即可;
(2)根据题意得,代入公式计算即可.
【解析】
(1)因为某机构随机调查了个人,其中男性占调查人数的,所以男性总人数为,女生总人数为,又男性中有一半的人的休闲方式是运动,所以男性中运动的有,非运动有;因为女性中只有的人的休闲方式是运动,所以女性中运动的有,非运动有,所以表格如下:
运动
非运动
总计
男性
女性
总计
(2)若在犯错误的概率不超过0.05的前提下,可认为性别与休闲方式有关,
则,
由于的观测值,故,即,
又因为,故,故若在犯错误的概率不超过0.05的前提下,可认为性别与休闲方式有关,那么本次被调查的至少有140人.
相关试卷
这是一份【高考大一轮单元复习】高考数学单元复习讲义与检测-专题13《计数原理与概率》讲义(新高考专用),文件包含高考大一轮单元复习高考数学单元复习讲义与检测-专题13《计数原理与概率》讲义新高考专用解析版docx、高考大一轮单元复习高考数学单元复习讲义与检测-专题13《计数原理与概率》讲义新高考专用原卷版docx等2份试卷配套教学资源,其中试卷共124页, 欢迎下载使用。
这是一份【高考大一轮单元复习】高考数学单元复习讲义与检测-专题12《统计与统计案例》测试(新高考专用),文件包含高考大一轮单元复习高考数学单元复习讲义与检测-专题12《统计与统计案例》检测练新高考专用解析版docx、高考大一轮单元复习高考数学单元复习讲义与检测-专题12《统计与统计案例》检测练新高考专用原卷版docx等2份试卷配套教学资源,其中试卷共78页, 欢迎下载使用。
这是一份【高考大一轮单元复习】高考数学单元复习讲义与检测-专题11《圆锥曲线》讲义(新高考专用),文件包含高考大一轮单元复习高考数学单元复习讲义与检测-专题11《圆锥曲线》讲义新高考专用解析版docx、高考大一轮单元复习高考数学单元复习讲义与检测-专题11《圆锥曲线》讲义新高考专用原卷版docx等2份试卷配套教学资源,其中试卷共99页, 欢迎下载使用。