终身会员
搜索
    上传资料 赚现金

    2019届二轮复习第1讲 统计与统计案例学案(全国通用)

    立即下载
    加入资料篮
    2019届二轮复习第1讲 统计与统计案例学案(全国通用)第1页
    2019届二轮复习第1讲 统计与统计案例学案(全国通用)第2页
    2019届二轮复习第1讲 统计与统计案例学案(全国通用)第3页
    还剩18页未读, 继续阅读
    下载需要10学贝 1学贝=0.1元
    使用下载券免费下载
    加入资料篮
    立即下载

    2019届二轮复习第1讲 统计与统计案例学案(全国通用)

    展开

    第1讲 统计与统计案例
    高考定位 1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小;2.注重知识的交汇渗透,统计与概率,回归分析与概率是近年命题的热点,2016年,2017年和2018年在解答题中均有考查.

    真 题 感 悟
    1.(2018·全国Ⅰ卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:

    则下面结论中不正确的是(  )
    A.新农村建设后,种植收入减少
    B.新农村建设后,其他收入增加了一倍以上
    C.新农村建设后,养殖收入增加了一倍
    D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
    解析 设新农村建设前经济收入为a,则新农村建设后经济收入为2a,则由饼图可得新农村建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.新农村建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.
    答案 A
    2.(2018·全国Ⅲ卷)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
    解析 因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价.
    答案 分层抽样
    3.(2018·全国Ⅱ卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.

    为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
    (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
    (2)你认为用哪个模型得到的预测值更可靠?并说明理由.
    解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
    利用模型②,该地区2018年的环境基础设施投资额的预测值为
    =99+17.5×9=256.5(亿元).
    (2)利用模型②得到的预测值更可靠.
    理由如下:
    从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=
    -30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
    考 点 整 合
    1.抽样方法
    抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围.
    2.统计中的四个数据特征
    (1)众数:在样本数据中,出现次数最多的那个数据.
    (2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
    (3)平均数:样本数据的算术平均数,即=(x1+x2+…+xn).
    (4)方差与标准差.
    s2=[(x1-)2+(x2-)2+…+(xn-)2],
    s=.
    3.直方图的两个结论
    (1)小长方形的面积=组距×=频率.
    (2)各小长方形的面积之和等于1.
    4.回归分析与独立性检验
    (1)回归直线=x+经过样本点的中心点(,),若x取某一个值代入回归直线方程=x+中,可求出y的估计值.
    (2)独立性检验
    对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是:

    y1
    y2
    总计
    x1
    a
    b
    a+b
    x2
    c
    d
    c+d
    总计
    a+c
    b+d
    n
    则K2=(其中n=a+b+c+d为样本容量).

    热点一 抽样方法
    【例1】 (1)(2018·合肥模拟)某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n=(  )
    A.860 B.720
    C.1 020 D.1 040
    (2)(2018·长沙雅礼中学质检)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:

    若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.
    解析 (1)依题意,分层抽样比为=.
    ∴81=(1 000+1 200+n),解得n=1 040.
    (2)依题意,可将编号为1~35号的35个数据分成7组,每组有5个数据.
    在区间[139,151]上共有20个数据,分在4个小组内,每组抽取1人,共抽取4人.
    答案 (1)D (2)4
    探究提高 1.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值.
    2.在系统抽样的过程中,要注意分段间隔,需要抽取n个个体,样本就需要分成n个组,则分段间隔即为(n为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.
    【训练1】 (1)(2018·郑州模拟)为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是(  )
    A.13 B.19 C.20 D.51
    (2)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
    解析 (1)由系统抽样的原理知,抽样的间隔为52÷4=13,故抽取的样本的编号分别为7,7+13,7+13×2,7+13×3,即7号,20号,33号,46号.
    ∴样本中还有一位同学的编号为20号.
    (2)因为样本容量n=60,总体容量N=200+400+300+100=1 000,所以抽取比例为==.
    因此应从丙种型号的产品中抽取300×=18(件).
    答案 (1)C (2)18
    热点二 用样本估计总体
    考法1 数字特征与茎叶图的应用
    【例2-1】 (2018·北京东城区质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:

    假设每名同学最近一周平均每天的锻炼时间是互相独立的.
    ①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;
    ②从平均值分析,男生每天锻炼的时间比女生多;
    ③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;
    ④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.
    其中符合茎叶图所给数据的结论是(  )
    A.①②③ B.②③④ C.①②④ D.①③④
    解析 由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.
    男生平均每天锻炼时间超过65分钟的概率P1==,女生平均每天锻炼时间超过65分钟的概率P2==,P1>P2,因此④正确.
    设男生、女生两组数据的平均数分别为甲,乙,标准差分别为s甲,s乙.
    易求甲=65.2,乙=61.8,知甲>乙,②正确.
    又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,
    ∴s甲0.5.
    又前4组的频率之和为0.04+0.08+0.15+0.21=0.482,所以第一种生产方式完成任务的平均时间大于第二种,
    ∴第二种生产方式的效率更高.
    (2)由茎叶图数据得到m=80.
    由此填写列联表如下:

    超过m
    不超过m
    总计
    第一种生产方式
    15
    5
    20
    第二种生产方式
    5
    15
    20
    总计
    20
    20
    40
    (3)根据(2)中的列联表计算.
    K2===10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
    探究提高 1.独立性检验的一般步骤
    (1)根据样本数据制成2×2列联表;
    (2)根据公式K2=计算K2的值;
    (3)查表比较K2与临界值的大小关系,作统计判断.
    2.K2的观测值k越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.
    【训练4】 微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.

    (1)根据女性频率分布直方图估计女性使用微信的平均时间;
    (2)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“微信控”与“性别有关”?
    解 (1)女性平均使用微信的时间为:
    0.16×1+0.24×3+0.28×5+0.2×7+0.12×9=4.76(小时).
    (2)由已知得:2(0.04+a+0.14+2×0.12)=1,解得a=0.08.
    由题设条件得列联表

    微信控
    非微信控
    总计
    男性
    38
    12
    50
    女性
    30
    20
    50
    总计
    68
    32
    100
    ∴K2=
    =≈2.941>2.706.
    所以有90%的把握认为“微信控”与“性别”有关.

    1.用样本估计总体是统计的基本思想.
    用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用.
    2.(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量,与每个样本数据有关,这是中位数、众数所不具有的性质.
    (2)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度就越大.
    3.茎叶图、频率分布表和频率分布直方图都可直观描述样本数据的分布规律.
    在频率分布直方图中,可分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性大小反映方差(标准差)的大小.
    注意:频率分布直方图的纵轴刻度是,而不是频率,每个小直方图的面积才是相应区间的频率.
    4.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.

    一、选择题
    1.(2017·全国Ⅰ卷)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是(  )
    A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差
    C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数
    解析 刻画评估这种农作物亩产量稳定程度的指标是标准差.
    答案 B
    2.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为(  )
    A.7 B.9 C.10 D.15
    解析 抽取号码的间隔为=30,从而区间[451,750]包含的段数为-=10,则编号落入区间[451,750]的人数为10人,即做问卷B的人数为10.
    答案 C
    3.(2017·全国Ⅲ卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.

    根据该折线图,下列结论错误的是(  )
    A.月接待游客量逐月增加
    B.年接待游客量逐年增加
    C.各年的月接待游客量高峰期大致在7,8月
    D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
    解析 由题图可知,2014年8月到9月的月接待游客量在减少,则A选项错误.
    答案 A
    4.(2018·北京燕博园质检)某超市从2017年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,并按(0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下:

    记甲种酸奶与乙种酸奶的日销售量(单位:箱)的方差分别为s,s,则频率分布直方图(甲)中的a的值及s与s的大小关系分别是(  )
    A.a=0.015,ss
    C.a=0.015,s>s D.a=0.15,ss.
    答案 C
    5.某省二线城市地铁正式开工建设,地铁时代的到来能否缓解该市的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:

    男性市民
    女性市民
    认为能缓解交通拥堵
    48
    30
    认为不能缓解交通拥堵
    12
    20
    则下列结论正确的是(  )
    附:K2=
    P(K2≥k0)
    0.05
    0.010
    0.005
    0.001
    k0
    3.841
    6.635
    7.879
    10.828
    A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”
    B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”
    C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”
    D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”
    解析 由2×2列联表,可求K2的观测值,
    k=≈5.288>3.841.
    由统计表P(K2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”.
    答案 A
    二、填空题
    6.(2018·泉州模拟)某厂在生产甲产品的过程中,产量x(吨)与生产能耗y(吨)的对应数据如表:
    x
    30
    40
    50
    60
    y
    25
    35
    40
    45
    根据最小二乘法求得回归方程为=0.65x+,当产量为80吨时,预计需要生产能耗为________吨.
    解析 由题意,=45,=36.25,代入=0.65x+,可得=7,∴当产量为80吨时,预计需要生产能耗为0.65×80+7=59.
    答案 59
    7.(2018·邯郸模拟)空气质量指数(Air Quality Index,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI记录数据中,随机抽取10个,用茎叶图记录如图.根据该统计数据,估计此地该年AQI大于100的天数约为________(该年为365天).
    解析 该样本中AQI大于100的频数是4,频率为,
    由此估计该地全年AQI大于100的频率为,
    估计此地该年AQI大于100的天数约为365×=146.
    答案 146
    8.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是________.

    解析 设所求的人数为n,由频率分布直方图,自习时间不少于22.5小时的频率为(0.04+0.08+0.16)×2.5=0.7,∴n=0.7×200=140.
    答案 140
    三、解答题
    9.(2018·全国Ⅰ卷)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
    未使用节水龙头50天的日用水量频数分布表
    日用水量
    [0,0.1)
    [0.1,0.2)
    [0.2,0.3)
    [0.3,0.4)
    [0.4,0.5)
    [0.5,0.6)
    [0.6,0.7)
    频数
    1
    3
    2
    4
    9
    26
    5
    使用了节水龙头50天的日用水量频数分布表
    日用水量
    [0,0.1)
    [0.1,0.2)
    [0.2,0.3)
    [0.3,0.4)
    [0.4,0.5)
    [0.5,0.6)
    频数
    1
    5
    13
    10
    16
    5
    (1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图:

    (2)估计该家庭使用节水龙头后,日用水量小于0.35(m3)的概率;
    (3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表).
    解 (1)所求的频率分布直方图如下:

    (2)由题可知用水量在[0.3,0.4]的频数为10,所以可估计在[0.3,0.35)的频数为5,故用水量小于0.35(m3)的频数为1+5+13+5=24,其概率为P==0.48.
    (3)该家庭未使用节水龙头50天的日用水量的平均数为
    1=(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
    该家庭使用了节水龙头后50天的日用水量的平均数为
    2=(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
    估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
    10.某市春节期间7家超市的广告费支出xi(万元)和销售额yi(万元)数据如下:
    超市
    A
    B
    C
    D
    E
    F
    G
    广告费支出xi
    1
    2
    4
    6
    11
    13
    19
    销售额yi
    19
    32
    40
    44
    52
    53
    54
    (1)若用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;
    (2)用对数回归模型拟合y与x的关系,可得回归方程=12ln x+22,经计算得出线性回归模型和对数模型的R2分别约为0.75和0.97,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为8万元时的销售额.
    参数数据及公式:=8,=42,xiyi=2 794,x=708,=,=-,ln 2≈0.7.
    解 (1)∵=8,=42,xiyi=2 794,x=708.
    ∴===1.7,
    因此=-=42-1.7×8=28.4.
    所以,y关于x的线性回归方程是=1.7x+28.4.
    (2)∵0.75

    欢迎来到教习网
    • 900万优选资源,让备课更轻松
    • 600万优选试题,支持自由组卷
    • 高质量可编辑,日均更新2000+
    • 百万教师选择,专业更值得信赖
    微信扫码注册
    qrcode
    二维码已过期
    刷新

    微信扫码,快速注册

    手机号注册
    手机号码

    手机号格式错误

    手机验证码 获取验证码

    手机验证码已经成功发送,5分钟内有效

    设置密码

    6-20个字符,数字、字母或符号

    注册即视为同意教习网「注册协议」「隐私条款」
    QQ注册
    手机号注册
    微信注册

    注册成功

    返回
    顶部
    Baidu
    map