










苏教版高中数学选择性必修第二册第9章章末综合提升课件+学案
展开类型1 回归分析
进行线性回归分析的前提是两个变量具有线性相关关系,否则求出的线性回归方程就没有实际意义,所以必须先判断两个变量是否线性相关.分析判断两个变量是否线性相关的常用方法是利用散点图进行判断,若各数据点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系.此方法直观、形象,但缺乏精确性.
【例1】 在一段时间内,分5次测得某种商品的价格x(万元)和需求量y(t)之间的一组数据如表.
| 1 | 2 | 3 | 4 | 5 |
价格x | 1.4 | 1.6 | 1.8 | 2 | 2.2 |
需求量y | 12 | 10 | 7 | 5 | 3 |
已知iyi=62,=16.6.
(1)画出散点图;
(2)求出y对x的线性回归方程;
(3)如果价格定为1.9万元,预测需求量大约是多少?(精确到0.01t).
[解] (1)散点图如下图所示.
(2)因为=×9=1.8,=×37=7.4,
iyi=62,=16.6,
所以===-11.5,
=-=7.4+11.5×1.8=28.1,
故y对x的线性回归方程为=28.1-11.5x.
(3)=28.1-11.5×1.9=6.25(t).
故价格定为1.9万元,预测需求量大约为6.25t.
1.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了4次试验,得到数据如下:
零件的个数x(个) | 2 | 3 | 4 | 5 |
加工的时间y(小时) | 2.5 | 3 | 4 | 4.5 |
(1)在给定的坐标系中画出表中数据的散点图;
(2)求y关于x的线性回归方程=x+;
(3)试预测加工10个零件需要的时间.
[解] (1)散点图如图所示.
(2)==3.5,==3.5,
iyi=2×2.5+3×3+4×4+5×4.5=52.5,
=4+9+16+25=54,
∴==0.7,
=3.5-0.7×3.5=1.05,
∴所求线性回归方程为=0.7x+1.05.
(3)当x=10时,=0.7×10+1.05=8.05,
∴预测加工10个零件需要8.05小时.
类型2 独立性检验
独立性检验的基本思想是统计中的假设检验思想,类似于数学中的反证法,要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设“两个分类变量没有关系”成立,在该假设下我们构造的统计量χ2应该很小,如果由观测数据计算得到的χ2的观测值很大,则在一定程度上说明假设不合理.
【例2】 户外运动已经成为一种时尚运动,某单位为了了解员工喜欢户外运动是否与性别有关,决定从本单位全体650人中采用分层抽样的办法抽取50人进行问卷调查,得到了如下列联表:
| 喜欢户外运动 | 不喜欢户外运动 | 总计 |
男性 |
| 5 |
|
女性 | 10 |
|
|
总计 |
|
| 50 |
已知在这50人中随机抽取1人抽到喜欢户外运动的员工的概率是.
(1)请将上面的列联表补充完整;
(2)求该公司男、女员工各多少人;
(3)依据小概率值α=0.005的独立性检验,分析喜欢户外运动是否与性别有关?
下面的临界值表仅供参考:
α | 0.15 | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 |
xα | 2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
(参考公式:χ2=,其中n=a+b+c+d)
[解] (1)因为在全部50人中随机抽取1人抽到喜欢户外运动的员工的概率是,
所以喜欢户外运动的男女员工共30人,其中女员工10人,列联表补充如下:
性别 | 户外运动 | 合计 | |
喜欢户外运动 | 不喜欢户外运动 | ||
男性 | 20 | 5 | 25 |
女性 | 10 | 15 | 25 |
合计 | 30 | 20 | 50 |
(2)该公司男员工人数为25÷50×650=325(人),则女员工有325人.
(3)提出假设H0:喜欢户外运动与性别之间无关联.
根据列联表中的数据,经计算得到
χ2=≈8.333,
因为H0成立时,χ2≥7.897的概率约为0.005,所以有99.5%的把握认为,喜欢运动与性别有关.
2.某企业为了更好地了解设备改造与生产合格品的关系,随机抽取了180件产品进行分析.其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件,根据上面的数据,你能得出什么结论?
[解] 根据已知条件列出2×2列联表:
| 合格品 | 不合格品 | 合计 |
设备改造后 | 65 | 30 | 95 |
设备改造前 | 36 | 49 | 85 |
合计 | 101 | 79 | 180 |
提出假设H0:设备改造与生产合格品无关.
由公式得χ2=≈12.379.
∵12.379>10.828,∴有99.9%的把握认为设备改造与生产合格品有关系.
类型3 独立性检验与统计的综合应用
1.独立性检验在实际中有着广泛的应用,是对实际生活中数据进行分析的一种方法,通过这种分析得出的结论对实际生活或者生产都有一定的指导作用.
2.近几年高考中较少单独考查独立性检验,经常与统计、概率等知识综合,频率分布表、频率分布直方图与独立性检验融合在一起是常见的考查形式,一般需要根据条件列出2×2列联表,计算χ2的值,从而解决问题.
【例3】 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.
(1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;
(2)表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单位:mm2)
表1:注射药物A后皮肤疱疹面积的频数分布表
疱疹面积 | [60,65) | [65,70) | [70,75) | [75,80] |
频数 | 30 | 40 | 20 | 10 |
表2:注射药物B后皮肤疱疹面积的频数分布表
疱疹面积 | [60,65) | [65,70) | [70,75) | [75,80) | [80,85] |
频数 | 10 | 25 | 20 | 30 | 15 |
完成下面2×2列联表,并分析注射药物A后的疱疹面积与注射药物B后的疱疹面积是否有差异.
注射药物 | 疱疹面积 | 合计 | |
疱疹面积小于70 mm2 | 疱疹面积不小于70 mm2 | ||
注射药物A | a= | b= |
|
注射药物B | c= | d= |
|
合计 |
|
| n= |
[解] (1)甲、乙两只家兔分在不同组的概率为p==.
(2)2×2列联表如下.
注射药物 | 疱疹面积 | 合计 | |
疱疹面积小于70 mm2 | 疱疹面积不小于70 mm2 | ||
注射药物A | a=70 | b=30 | 100 |
注射药物B | c=35 | d=65 | 100 |
合计 | 105 | 95 | n=200 |
提出假设H0:
注射药物A后的疱疹面积与注射药物B后的疱疹面积无差异,
根据列联表中的数据,经计算得到χ2=≈24.56,
因为当H0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为注射药物A后的疱疹面积与注射药物B后的疱疹面积是有差异的.
3.某学生对其亲属30人的饮食进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).
(1)根据以上数据完成下列2×2列联表:
年龄 | 饮食习惯 | 合计 | |
主食蔬菜 | 主食肉类 | ||
50岁以下 |
|
|
|
50岁以上 |
|
|
|
合计 |
|
|
|
(2)分析年龄与饮食习惯是否有关?
[解] (1)2×2列联表如下:
年龄 | 饮食习惯 | 合计 | |
主食蔬菜 | 主食肉类 | ||
50岁以下 | 4 | 8 | 12 |
50岁以上 | 16 | 2 | 18 |
总计 | 20 | 10 | 30 |
(2)提出假设H0:年龄与饮食习惯无关联.
根据列联表中的数据,经计算得到
χ2==10,
因为当H0成立时,χ2≥6.635的概率约为0.01,所以我们有99%的把握认为年龄与饮食习惯有关.
1.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
D [根据散点图,用光滑的曲线把图中各点依次连起来(图略),由图并结合选项可排除A,B,C,故选D.]
2.(2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
| 一级品 | 二级品 | 合计 |
甲机床 | 150 | 50 | 200 |
乙机床 | 120 | 80 | 200 |
合计 | 270 | 130 | 400 |
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:K2=,
P(K2≥k) | 0.050 | 0.010 | 0.001 |
k | 3.841 | 6.635 | 10.828 |
[解] (1)根据题表中数据知,甲机床生产的产品中一级品的频率是=0.75,乙机床生产的产品中一级品的频率是=0.6.
(2)根据题表中的数据可得
K2==≈10.256.
因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.
3.(2020·全国卷Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加,为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1 200, (xi-)2=80, (yi-)2=9 000, (xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
[解] (1)由已知得样本平均数=i=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r===≈0.94.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
4.(2020·全国卷Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次 空气质量等级 | [0,200] | (200,400] | (400,600] |
1(优) | 2 | 16 | 25 |
2(良) | 5 | 10 | 12 |
3(轻度污染) | 6 | 7 | 8 |
4(中度污染) | 7 | 2 | 0 |
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
| 人次≤400 | 人次>400 |
空气质量好 |
|
|
空气质量不好 |
|
|
附:K2=,
[解] (1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如表:
空气质量等级 | 1 | 2 | 3 | 4 |
概率的估计值 | 0.43 | 0.27 | 0.21 | 0.09 |
(2)一天中到该公园锻炼的平均人次的估计值为
(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
| 人次≤400 | 人次>400 |
空气质量好 | 33 | 37 |
空气质量不好 | 22 | 8 |
根据列联表得
K2=≈5.820.
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.