所属成套资源:【粤教版】高中信息技术必修第一册 同步教学课件
粤教版高中信息技术必修第一册 5.3 数据的分析 课件
展开
这是一份粤教版高中信息技术必修第一册 5.3 数据的分析 课件,共52页。
5.3 数据的分析15.3 数据的分析题问采集到的数据,没有分析处理,能直接使用?25.3 数据的分析数 据 分 析45.3 数据的分析流交①分组:4—6位同学组成一个学习小组;②通过查找资料、学习和交流,填写下表。①在一大批杂乱无章的数据中,运用数字化的工具和技术,探索数据内在的结构和规律,构建数据模型,并进行可视化表达;②通过验证将模型转化为知识,为诊断过去,预测未来发挥作用。数的据分析用作①特征探索 ②关联分析 ③聚类分析④数据分类 ⑤建立模型和模型评价。数据分析的 常 用 方 法....i..z.t.tzijijz5.3 数据的分析1特征探索2关联分析CONTENT3目录 >>聚类分析4数据分类65.3 数据的分析请各学习小组选择下面一个参考主题,或者自拟一个感兴趣的数据分析方法,开展项目学习。①特征探索②关联分析③聚类分析④数据分类请各学习小组根据项目选题,利用老师下发的《5.3 数据分析》导学案 和《5.3 项目学习活动记录表》,制定相应的项目活动方案。....i..z.t.tzijijz5.3 数据的分析各学习小组根据项目选题及拟定的项目方案,结合探究的知识,完成相应的数据分析。1.采用适当的方法完成相应项目选题的数据分析工作。2.探究数据分析的方法和步骤,填写《5.3 项目活动记录表》 。师生共同回顾项目活动的整个过程,总结和归纳本节课的知识,学习小组完善《5.3 项目活动记录表》。....i..z.t.tzijijz5.3 数据的分析1特 征 探 索95.3.1 特征探索究探1. 观看微课视频“特征探索程序介绍”;2. 打开运行配套学习资源包”第五章\课本素材\程序5-3数据预处理”,观察、分析数据预处理结果;3. 总结、归纳特征探索的主要任务。填写《5.3 项目学习活动记录表》“活动2”的内容。....i..z.t.tzijijz5.3.1 特征探索验体(1)数据清洗,发现缺失值。如果销量为0的,修改为64。x=0data["price"][(data["price"]==0)]=NoneFor i in data.columns:ꢀ for j in range(len(data)):ꢀꢀ if(data[i].isnull())[j]: # 如果为空即插入值ꢀꢀꢀ data[i][j]="64“x+=1# 空值插入64print(x)....i..z.t.tzijijz验5.3.1 特征探索体(2)异常值处理中,利用画散点图发现异常值部分,找到异常值。data2=data.Tprice=data2.values[2]comt=data2.values[3]plt.xlabel('price') # 显示X坐标标签plt.ylabel('paynum') # 显示Y坐标标签pyl.plot(price,comt,"o")pyl.show( )....i..z.t.tzijijz5.3.1 特征探索验体(3)求最大值和最小值。pricemax=da2[2].max(ꢀ)pricemin=da2[2].min(ꢀ)commentmax=da2[3].max(ꢀ)commentmin=da2[3].min(ꢀ)....i..z.t.tzijijz验5.3.1 特征探索体(4)求极差pricerg=pricemax—pricemincommentrg=commentmax—commentmin(5)求组距pricedst=pricerg/13commentdst=commentrg/13....i..z.t.tzijijz验5.3.1 特征探索体(6)绘制价格直方图。pricesty=npy.arange(pricemin,pricemax,pricedst)pyl.hist(da2[2],pricesty)pyl.show(ꢀ)分析结果:价格在10-30块之间的商品种类最多,此价位的商品竞争最激烈。....i..z.t.tzijijz验5.3.1 特征探索体(7)绘制销量数直方图。paynumsty=npy.arange(paynummin,paynummax+1,paynumdst)plt.xlabel('paynum')plt.ylabel('number')# 显示X坐标标签# 显示Y坐标标签pyl.hist(da2[3],paynumsty)pyl.show()分析结果:销量在10以下的商品种类最多,大部分商品销量一般。....i..z.t.tzijijz结5.3.1 特征探索总特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差、组距等描述性统计量。主....i..z.t.tzijijz5.3 数据的分析2关 联 分 析18例5.3.2 关联分析实商品关联 —— 顾客购买习惯 —— 商家制定销售策略....i..z.t.tzijijz5.3.2 关联分析究探1. 观看微课视频“关联分析程序介绍”;2. 查找资料、讨论和交流计算机如何对数据进行关联分析;3. 总结、归纳关联分析的方法和基本算法。填写《5.3 项目学习活动记录表》“活动3”的内容。....i..z.t.tzijijz究5.3.2 关联分析探计算机如何对数据进行关联分析?序 号1商 品可乐,大米,牙膏234可乐,猪肉,啤酒可乐,猪肉,啤酒,牙膏猪肉,啤酒....i..z.t.tzijijz究5.3.2 关联分析探关联分析步骤一:扫描数据,建立项集。C1项集序号商品[可乐][大米][牙膏][猪肉][啤酒]1可乐,大米,牙膏可乐,猪肉,啤酒234可乐,猪肉,啤酒,牙膏猪肉,啤酒....i..z.t.tzijijz究5.3.2 关联分析探关联分析步骤二:计算每项数据的支持度,即数据出现频率次数/总数C1项集[可乐][大米]支持度序号商品3/4=0.751/4=0.251可乐,大米,牙膏234可乐,猪肉,啤酒可乐,猪肉,啤酒,牙膏猪肉,啤酒[牙膏]2/4=0.50[猪肉][啤酒]3/4=0.753/4=0.75....i..z.t.tzijijz5.3.2 关联分析究探关联分析步骤三:对项集的支持度进行筛选,设置最小支持度=0.4C1项集[可乐][大米]支持度L1项集[可乐][牙膏]3/4=0.751/4=0.25[牙膏]2/4=0.50[猪肉][啤酒][猪肉][啤酒]3/4=0.753/4=0.75....i..z.t.tzijijz究5.3.2 关联分析探步骤四:将L1中的数据两两拼接,得C2。C2项集支持度C1项集 支持度[可乐,牙膏] 2/4=0.50[可乐,猪肉] 2/4=0.50[可乐,啤酒] 2/4=0.50[牙膏,猪肉] 1/4=0.25[牙膏,啤酒] 1/4=0.25[猪肉,啤酒] 3/4=0.75[可乐] 3/4=0.75[大米] 1/4=0.25[牙膏] 2/4=0.50[猪肉] 3/4=0.75[啤酒] 3/4=0.75频 繁 项 集 L1频 繁 项 集 L2[可 乐][ 牙膏 ][猪肉][啤酒][可乐,牙膏][可乐,猪肉][可乐,啤酒][猪肉,啤酒]....i..z.t.tzijijz究5.3.2 关联分析探步骤五:将L2中的数据两两拼接,得C3。C2项集支持度C1项集 支持度[可乐,牙膏] 2/4=0.50[可乐,猪肉] 2/4=0.50[可乐,啤酒] 2/4=0.50[牙膏,猪肉] 1/4=0.25[牙膏,啤酒] 1/4=0.25[猪肉,啤酒] 3/4=0.75[可乐] 3/4=0.75[大米] 1/4=0.25[牙膏] 2/4=0.50[猪肉] 3/4=0.75[啤酒] 3/4=0.75C3项集支持度[可乐,牙膏,猪肉] 1/4=0.25[可乐,牙膏,啤酒] 1/4=0.25[可乐,猪肉,啤酒] 2/4=0.50频 繁 项 集 L1频 繁 项 集 L2频 繁 项 集 L3[可 乐][ 牙膏 ][猪肉][ 可乐,牙膏][可乐,猪肉][可乐,啤酒][猪肉,啤酒][可乐,猪肉,啤酒]…… Lk[啤酒]....i..z.t.tzijijz结5.3.2 关联分析总关联分析 就是分析并发现存在于大量数据之间的关联性或相关性,从而描 述一个事物中某些属性同时出现的规律和模式。....i..z.t.tzijijz5.3.2 关联分析结总关联分析的基本算法是:1. 扫描历史数据,并对每项数据进行频率次数统计。2. 构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。3. 对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度,从而形成频繁项集L1。4. 对频繁项集L2进行连接生成候选项集C2,重复以上步骤,最终形成频繁K项集或者最大频繁项集。....i..z.t.tzijijz5.3 数据的分析3聚 类 分 析29究5.3.3 聚类分析探1. 观看微课视频“聚类分析程序介绍”;2. 查找资料,研讨 K-平均算法;3. 运行“程序5-6-1 聚类分析(教材范例).py”代码,对采集到的商品销售数据”data_sample.csv”进行聚类分析,观察数据分析结果;4. 归纳、总结聚类分析的方法和基本算法。填写《5.3 学习项目活动记录表》“活动4”的内容。....i..z.t.tzijijz流5.3.3 聚类分析交K-平均算法是一种经典的自下而上的聚类分析方法。它的基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群分”的效果。....i..z.t.tzijijz5.3.3 聚类分析践实聚类分析程序关键代码可视化图形(截图)#年龄-消费金额图,消费时间-消费金额图,年龄-消费时间图for i in range(0,len(y)):if(y[i]==0):print(str(i)+"->0")pyl.subplot(2,3,1)#年龄-消费金额图pyl.plot(x[i:i+1,0:1],x[i:i+1,1:2],"*r")pyl.subplot(2,3,2)#消费时间-消费金额图pyl.plot(x[i:i+1,2:3],x[i:i+1,1:2],"*r")pyl.subplot(2,3,3)#年龄-消费时间图pyl.plot(x[i:i+1,0:1],x[i:i+1,2:3],"*r")分析结果左图为年龄与消费额的关系;中图为消费周期与消费金额的关系;右图为年龄与消费周期的关系。....i..z.t.tzijijz5.3.3 聚类分析践实聚类分析程序关键代码可视化图形(截图)from sklearn.cluster import KMeans#导入商品样本数据fname="data_sample.csv"dataf=pda.read_csv(fname,encoding="gbk")x=dataf.as_matrix()#聚类分析kms=KMeans(n_clusters=3)y=kms.fit_predict(x)print(y)分析结果程序按照提供的数据样本,自动将商品分成了三类。....i..z.t.tzijijz5.3.3 聚类分析结总聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。....i..z.t.tzijijz结5.3.3 聚类分析总聚类分析的基本算法:1. 从数据点集合中随机选择K个点作为初始的聚集中心,每个中心代表着每个聚集中心的平均值。2. 对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。3. 重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。....i..z.t.tzijijz5.3 数据的分析4数 据 分 类36例5.3.4 数据分类实分 类动 物植 物人 体成 语多如牛毛 狐假虎威 画蛇添足风吹草动 胸有成竹 昙花一现耳闻目睹 腹背受敌 头重脚轻....i..z.t.tzijijz5.3.4 数据分类究探1. 观看微课视频“数据分类程序介绍”;2. 查找资料,研讨贝叶斯分类;3. 讨论幻灯片中的问题,尝试着用贝叶斯分类技术解决;4. 总结、归纳数据分类的方法和基本算法。填写《5.3 学习项目活动记录表》“活动5”的内容。....i..z.t.tzijijz5.3.4 数据分类究探贝叶斯分类技术在众多分类技术中占有重要地位,也属于统计学分类的范畴,是一种非规则的分类方法。贝叶斯分类技术通过对已分类的样本子集进行训练,学习归纳出分类函数(对离散变量的预测称作分类,对连续变量的分类称为回归),利用训练得到的分类器实现对未分类数据的分类。贝叶斯定理 :....i..z.t.tzijijz5.3.4 数据分类究探例如,假设有一个数据集,由两类组成,且已知每个样本的分类,数据分布如下图所示。用 p1(x,y) 表示数据点 (x,y) 属于红色一类的概率,用 p2(x,y)表示数据点 (x,y) 属于蓝色一类的概率。....i..z.t.tzijijz5.3.4 数据分类究探那么如何判断对于一个新的点 C(x,y)属于红色还是属于蓝色类别呢?通常人们会按以下步骤解答这个问题:(1)求新的点 C(x,y)属于红色一类的概率 p1(x,y)。(2)求新的点 C(x,y)属于蓝色一类的概率 p2(x,y)。(3)选择概率高的一类作为新点 C(x,y)的分类。即如果 p1(x,y)>p2(x,y),则 C(x,y)为红色一类;如果 p1(x,y)