年终活动
搜索
    上传资料 赚现金
    英语朗读宝
    粤教版高中信息技术必修第一册 5.3 数据的分析 课件第1页
    粤教版高中信息技术必修第一册 5.3 数据的分析 课件第2页
    粤教版高中信息技术必修第一册 5.3 数据的分析 课件第3页
    粤教版高中信息技术必修第一册 5.3 数据的分析 课件第4页
    粤教版高中信息技术必修第一册 5.3 数据的分析 课件第5页
    粤教版高中信息技术必修第一册 5.3 数据的分析 课件第6页
    粤教版高中信息技术必修第一册 5.3 数据的分析 课件第7页
    粤教版高中信息技术必修第一册 5.3 数据的分析 课件第8页
    还剩44页未读, 继续阅读
    下载需要25学贝 1学贝=0.1元
    使用下载券免费下载
    加入资料篮
    立即下载

    粤教版高中信息技术必修第一册 5.3 数据的分析 课件

    展开

    这是一份粤教版高中信息技术必修第一册 5.3 数据的分析 课件,共52页。
    5.3 数据的分析15.3 数据的分析题问采集到的数据,没有分析处理,能直接使用?25.3 数据的分析数 据 分 析45.3 数据的分析流交①分组:4—6位同学组成一个学习小组;②通过查找资料、学习和交流,填写下表。①在一大批杂乱无章的数据中,运用数字化的工具和技术,探索数据内在的结构和规律,构建数据模型,并进行可视化表达;②通过验证将模型转化为知识,为诊断过去,预测未来发挥作用。数的据分析用作①特征探索 ②关联分析 ③聚类分析④数据分类 ⑤建立模型和模型评价。数据分析的 常 用 方 法....i..z.t.tzijijz5.3 数据的分析1特征探索2关联分析CONTENT3目录 >>聚类分析4数据分类65.3 数据的分析请各学习小组选择下面一个参考主题,或者自拟一个感兴趣的数据分析方法,开展项目学习。①特征探索②关联分析③聚类分析④数据分类请各学习小组根据项目选题,利用老师下发的《5.3 数据分析》导学案 和《5.3 项目学习活动记录表》,制定相应的项目活动方案。....i..z.t.tzijijz5.3 数据的分析各学习小组根据项目选题及拟定的项目方案,结合探究的知识,完成相应的数据分析。1.采用适当的方法完成相应项目选题的数据分析工作。2.探究数据分析的方法和步骤,填写《5.3 项目活动记录表》 。师生共同回顾项目活动的整个过程,总结和归纳本节课的知识,学习小组完善《5.3 项目活动记录表》。....i..z.t.tzijijz5.3 数据的分析1特 征 探 索95.3.1 特征探索究探1. 观看微课视频“特征探索程序介绍”;2. 打开运行配套学习资源包”第五章\课本素材\程序5-3数据预处理”,观察、分析数据预处理结果;3. 总结、归纳特征探索的主要任务。填写《5.3 项目学习活动记录表》“活动2”的内容。....i..z.t.tzijijz5.3.1 特征探索验体(1)数据清洗,发现缺失值。如果销量为0的,修改为64。x=0data["price"][(data["price"]==0)]=NoneFor i in data.columns:ꢀ for j in range(len(data)):ꢀꢀ if(data[i].isnull())[j]: # 如果为空即插入值ꢀꢀꢀ data[i][j]="64“x+=1# 空值插入64print(x)....i..z.t.tzijijz验5.3.1 特征探索体(2)异常值处理中,利用画散点图发现异常值部分,找到异常值。data2=data.Tprice=data2.values[2]comt=data2.values[3]plt.xlabel('price') # 显示X坐标标签plt.ylabel('paynum') # 显示Y坐标标签pyl.plot(price,comt,"o")pyl.show( )....i..z.t.tzijijz5.3.1 特征探索验体(3)求最大值和最小值。pricemax=da2[2].max(ꢀ)pricemin=da2[2].min(ꢀ)commentmax=da2[3].max(ꢀ)commentmin=da2[3].min(ꢀ)....i..z.t.tzijijz验5.3.1 特征探索体(4)求极差pricerg=pricemax—pricemincommentrg=commentmax—commentmin(5)求组距pricedst=pricerg/13commentdst=commentrg/13....i..z.t.tzijijz验5.3.1 特征探索体(6)绘制价格直方图。pricesty=npy.arange(pricemin,pricemax,pricedst)pyl.hist(da2[2],pricesty)pyl.show(ꢀ)分析结果:价格在10-30块之间的商品种类最多,此价位的商品竞争最激烈。....i..z.t.tzijijz验5.3.1 特征探索体(7)绘制销量数直方图。paynumsty=npy.arange(paynummin,paynummax+1,paynumdst)plt.xlabel('paynum')plt.ylabel('number')# 显示X坐标标签# 显示Y坐标标签pyl.hist(da2[3],paynumsty)pyl.show()分析结果:销量在10以下的商品种类最多,大部分商品销量一般。....i..z.t.tzijijz结5.3.1 特征探索总特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差、组距等描述性统计量。主....i..z.t.tzijijz5.3 数据的分析2关 联 分 析18例5.3.2 关联分析实商品关联 —— 顾客购买习惯 —— 商家制定销售策略....i..z.t.tzijijz5.3.2 关联分析究探1. 观看微课视频“关联分析程序介绍”;2. 查找资料、讨论和交流计算机如何对数据进行关联分析;3. 总结、归纳关联分析的方法和基本算法。填写《5.3 项目学习活动记录表》“活动3”的内容。....i..z.t.tzijijz究5.3.2 关联分析探计算机如何对数据进行关联分析?序 号1商 品可乐,大米,牙膏234可乐,猪肉,啤酒可乐,猪肉,啤酒,牙膏猪肉,啤酒....i..z.t.tzijijz究5.3.2 关联分析探关联分析步骤一:扫描数据,建立项集。C1项集序号商品[可乐][大米][牙膏][猪肉][啤酒]1可乐,大米,牙膏可乐,猪肉,啤酒234可乐,猪肉,啤酒,牙膏猪肉,啤酒....i..z.t.tzijijz究5.3.2 关联分析探关联分析步骤二:计算每项数据的支持度,即数据出现频率次数/总数C1项集[可乐][大米]支持度序号商品3/4=0.751/4=0.251可乐,大米,牙膏234可乐,猪肉,啤酒可乐,猪肉,啤酒,牙膏猪肉,啤酒[牙膏]2/4=0.50[猪肉][啤酒]3/4=0.753/4=0.75....i..z.t.tzijijz5.3.2 关联分析究探关联分析步骤三:对项集的支持度进行筛选,设置最小支持度=0.4C1项集[可乐][大米]支持度L1项集[可乐][牙膏]3/4=0.751/4=0.25[牙膏]2/4=0.50[猪肉][啤酒][猪肉][啤酒]3/4=0.753/4=0.75....i..z.t.tzijijz究5.3.2 关联分析探步骤四:将L1中的数据两两拼接,得C2。C2项集支持度C1项集 支持度[可乐,牙膏] 2/4=0.50[可乐,猪肉] 2/4=0.50[可乐,啤酒] 2/4=0.50[牙膏,猪肉] 1/4=0.25[牙膏,啤酒] 1/4=0.25[猪肉,啤酒] 3/4=0.75[可乐] 3/4=0.75[大米] 1/4=0.25[牙膏] 2/4=0.50[猪肉] 3/4=0.75[啤酒] 3/4=0.75频 繁 项 集 L1频 繁 项 集 L2[可 乐][ 牙膏 ][猪肉][啤酒][可乐,牙膏][可乐,猪肉][可乐,啤酒][猪肉,啤酒]....i..z.t.tzijijz究5.3.2 关联分析探步骤五:将L2中的数据两两拼接,得C3。C2项集支持度C1项集 支持度[可乐,牙膏] 2/4=0.50[可乐,猪肉] 2/4=0.50[可乐,啤酒] 2/4=0.50[牙膏,猪肉] 1/4=0.25[牙膏,啤酒] 1/4=0.25[猪肉,啤酒] 3/4=0.75[可乐] 3/4=0.75[大米] 1/4=0.25[牙膏] 2/4=0.50[猪肉] 3/4=0.75[啤酒] 3/4=0.75C3项集支持度[可乐,牙膏,猪肉] 1/4=0.25[可乐,牙膏,啤酒] 1/4=0.25[可乐,猪肉,啤酒] 2/4=0.50频 繁 项 集 L1频 繁 项 集 L2频 繁 项 集 L3[可 乐][ 牙膏 ][猪肉][ 可乐,牙膏][可乐,猪肉][可乐,啤酒][猪肉,啤酒][可乐,猪肉,啤酒]…… Lk[啤酒]....i..z.t.tzijijz结5.3.2 关联分析总关联分析 就是分析并发现存在于大量数据之间的关联性或相关性,从而描 述一个事物中某些属性同时出现的规律和模式。....i..z.t.tzijijz5.3.2 关联分析结总关联分析的基本算法是:1. 扫描历史数据,并对每项数据进行频率次数统计。2. 构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。3. 对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度,从而形成频繁项集L1。4. 对频繁项集L2进行连接生成候选项集C2,重复以上步骤,最终形成频繁K项集或者最大频繁项集。....i..z.t.tzijijz5.3 数据的分析3聚 类 分 析29究5.3.3 聚类分析探1. 观看微课视频“聚类分析程序介绍”;2. 查找资料,研讨 K-平均算法;3. 运行“程序5-6-1 聚类分析(教材范例).py”代码,对采集到的商品销售数据”data_sample.csv”进行聚类分析,观察数据分析结果;4. 归纳、总结聚类分析的方法和基本算法。填写《5.3 学习项目活动记录表》“活动4”的内容。....i..z.t.tzijijz流5.3.3 聚类分析交K-平均算法是一种经典的自下而上的聚类分析方法。它的基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群分”的效果。....i..z.t.tzijijz5.3.3 聚类分析践实聚类分析程序关键代码可视化图形(截图)#年龄-消费金额图,消费时间-消费金额图,年龄-消费时间图for i in range(0,len(y)):if(y[i]==0):print(str(i)+"->0")pyl.subplot(2,3,1)#年龄-消费金额图pyl.plot(x[i:i+1,0:1],x[i:i+1,1:2],"*r")pyl.subplot(2,3,2)#消费时间-消费金额图pyl.plot(x[i:i+1,2:3],x[i:i+1,1:2],"*r")pyl.subplot(2,3,3)#年龄-消费时间图pyl.plot(x[i:i+1,0:1],x[i:i+1,2:3],"*r")分析结果左图为年龄与消费额的关系;中图为消费周期与消费金额的关系;右图为年龄与消费周期的关系。....i..z.t.tzijijz5.3.3 聚类分析践实聚类分析程序关键代码可视化图形(截图)from sklearn.cluster import KMeans#导入商品样本数据fname="data_sample.csv"dataf=pda.read_csv(fname,encoding="gbk")x=dataf.as_matrix()#聚类分析kms=KMeans(n_clusters=3)y=kms.fit_predict(x)print(y)分析结果程序按照提供的数据样本,自动将商品分成了三类。....i..z.t.tzijijz5.3.3 聚类分析结总聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。....i..z.t.tzijijz结5.3.3 聚类分析总聚类分析的基本算法:1. 从数据点集合中随机选择K个点作为初始的聚集中心,每个中心代表着每个聚集中心的平均值。2. 对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。3. 重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。....i..z.t.tzijijz5.3 数据的分析4数 据 分 类36例5.3.4 数据分类实分 类动 物植 物人 体成 语多如牛毛 狐假虎威 画蛇添足风吹草动 胸有成竹 昙花一现耳闻目睹 腹背受敌 头重脚轻....i..z.t.tzijijz5.3.4 数据分类究探1. 观看微课视频“数据分类程序介绍”;2. 查找资料,研讨贝叶斯分类;3. 讨论幻灯片中的问题,尝试着用贝叶斯分类技术解决;4. 总结、归纳数据分类的方法和基本算法。填写《5.3 学习项目活动记录表》“活动5”的内容。....i..z.t.tzijijz5.3.4 数据分类究探贝叶斯分类技术在众多分类技术中占有重要地位,也属于统计学分类的范畴,是一种非规则的分类方法。贝叶斯分类技术通过对已分类的样本子集进行训练,学习归纳出分类函数(对离散变量的预测称作分类,对连续变量的分类称为回归),利用训练得到的分类器实现对未分类数据的分类。贝叶斯定理 :....i..z.t.tzijijz5.3.4 数据分类究探例如,假设有一个数据集,由两类组成,且已知每个样本的分类,数据分布如下图所示。用 p1(x,y) 表示数据点 (x,y) 属于红色一类的概率,用 p2(x,y)表示数据点 (x,y) 属于蓝色一类的概率。....i..z.t.tzijijz5.3.4 数据分类究探那么如何判断对于一个新的点 C(x,y)属于红色还是属于蓝色类别呢?通常人们会按以下步骤解答这个问题:(1)求新的点 C(x,y)属于红色一类的概率 p1(x,y)。(2)求新的点 C(x,y)属于蓝色一类的概率 p2(x,y)。(3)选择概率高的一类作为新点 C(x,y)的分类。即如果 p1(x,y)>p2(x,y),则 C(x,y)为红色一类;如果 p1(x,y)

    欢迎来到教习网
    • 900万优选资源,让备课更轻松
    • 600万优选试题,支持自由组卷
    • 高质量可编辑,日均更新2000+
    • 百万教师选择,专业更值得信赖
    微信扫码注册
    qrcode
    二维码已过期
    刷新

    微信扫码,快速注册

    手机号注册
    手机号码

    手机号格式错误

    手机验证码 获取验证码

    手机验证码已经成功发送,5分钟内有效

    设置密码

    6-20个字符,数字、字母或符号

    注册即视为同意教习网「注册协议」「隐私条款」
    QQ注册
    手机号注册
    微信注册

    注册成功

    返回
    顶部
    Baidu
    map