高中信息技术浙教版 (2019)必修1 数据与计算4.2 大数据处理教课内容ppt课件
展开1、理解Hadp的组成和功能2、掌握大数据处理类型
未来,已发生改变…… 大数据的关键技术
大数据,或称海量数据,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、避免疾病扩散、打击犯罪、测定实时交通路况或判定研究质量等。
顾客一次购买商品 1面包、黄油、尿布、牛奶 2咖啡、糖、小甜饼、鲑鱼 3面包、黄油、咖啡、尿布、牛奶、鸡蛋 4面包、黄油、鲑鱼、鸡 5鸡蛋、面包、黄油 6鲑鱼、尿布、牛奶 7面包、茶叶、糖、鸡蛋 8咖啡、糖、鸡、鸡蛋 9面包、尿布、牛奶、盐10茶叶、鸡蛋、小甜饼、尿布、牛奶经关联分析,可发现顾客经常同时购买的商品:尿布牛奶
分--将问题分解为规模更小的子问题治--将规模更小的子问题逐个击破合--将已解决的子问题合并,最终得出原问题的解
正如“不同的锁需要不同的钥匙”企业中不同的应用场景数据不同的计算模式,需要使用不同的大数据技术
不同的计算模式需要使用不同的产品
设想:硬盘读取速度永远满足要求!
你发现:目前的硬盘容量是1T,速度100MB/s要把现在的硬盘数据刷一遍,要两个多小时,太可怕了。而Hadp就是一个并行处理海量数据的工具。
Hadp 诞生于大搜索应用
Dug Cutting
MapReduce | GFS | BigTable
是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据批处理计算。方便用户便捷处理海量数据。目前Yah!(雅虎)是最主要的贡献者。
国内外那些企业用Hadp?
数据仓库,商业智能 (facebk,twitter,淘宝,京东,暴风,新浪,58同城,移动大云)互联网广告计算 (亿赞普,科捷,各类大互联网企业)大搜索引擎项目 (Yah,国产盘古,人民搜索)站内搜索引擎项目 (Ebay,支付宝)内容推荐引擎 (人人,新浪微博,优酷)病毒分析,垃圾邮件识别(Yah,趋势科技,360)云计算服务项目 (亚马逊云,阿里云)地图项目 (月球表面探测地图)科研项目 (欧洲量子对撞机)金融项目 (股票分析,阿里金融)
分布式文件系统HDFS
分布式数据库HBase
分布式并行计算模型MapReduce
以流式数据访问模式存储超大文件而设计的文件系统。思想:一次写入,多次读取最高效HDFS不需要运行在昂贵并且高可靠的硬件上。比如:云盘、网盘
高可靠,高性能,可伸缩,分布式的列式数据库是谷歌BigTable数据库的开源实现。
分布式并行计算模型 MapReduce
处理海量数据,(>1TB)由Map(映射)和Reduce(归纳)组成自动实现分布式并行计算计算分配到大量机器上
流计算可以简单、高效、可靠地实现实时数据的获取、传输和存储。
主要流计算软件:IBM InfSphere Streams(捕获和分析动态数据)Twitter Strm(推特风暴)Yah!S4(雅虎分布式流计算)淘宝Facebk PumaHern
·近年来,在Web应用、网络监控、传感监测等领域,兴起了一种新的数据密集型应用——流数据,即数据以大量、快速、时变的流形式持续到达
现实中的数据大多以图的形式呈现,或者转换为图以后再进行分析
社交网络数据转换成图结构
四、实时处理于批处理的整合
平台的整合缩短了批处理与流处理之间的切换延时时间,有利于减少系统的开销,降低使用成本。
1.下列关于流数据的描述不正确的是( ) A.数据在处理时已经采集完成 B.数据价值随着时间的流逝降低 C.实时分析流数据可以得到更有价值的结果 D.可以采用流计算进行实时分析
2.下列关于Hadp架构的描述正确的是( ) A.是一个对大数据进行聚合式处理的基础软件框架 B.不能运行于大规模计算机集群上 C.采用NTFS文件系统管理数据文件 D.采用MapReduce编程模型处理大规模数据集
3.下列软件主要用于进行流计算的有( ) A.Hadp B.Strm C.Pregel D.Spark
4.实时处理与批处理整合的优势有( ) ①可以在同一个平台做批处理计算和流计算 ②缩短了批处理计算和流计算之间的切换延时 ③有利于降低使用成本 ④增加了系统开销 A.①②③ B.①②④ C.②③④ D.①③④
5.(开放题)试述应用“分治”思想,从日志数据文件(大数据集)中提取出某日访问百度次数最多的IP的基本思路。
把整个日志大数据文件映射为若干个(如1000个)小文件,再对每个小文中出现的IP进行频率统计,找出频率大的部分及其频率。然后再汇总1000个小文件的处理结果,从中找出频率最大的IP。
6.(开放题)上网查找Hadp 处理大数据的应用实例,制作演示文稿并向同学介绍。
建议:学生分组,明确分工,然后使用搜索引擎查找Hadp处理大数据的应用实例,甄选后制作成演示文稿,展示交流。展示交流可以采用面对面方式、微视频方式等。
信息技术必修1 数据与计算4.2 大数据处理说课课件ppt: 这是一份信息技术必修1 数据与计算4.2 大数据处理说课课件ppt,共25页。PPT课件主要包含了批处理计算,拓展链接等内容,欢迎下载使用。
综合总复习-浙教版(2019)高中信息技术必修第一册课件: 这是一份高中浙教版 (2019)本册综合复习课件ppt,共60页。PPT课件主要包含了P26,ABCD等内容,欢迎下载使用。
高中信息技术浙教版 (2019)必修1 数据与计算4.3 大数据典型应用课堂教学ppt课件: 这是一份高中信息技术浙教版 (2019)必修1 数据与计算4.3 大数据典型应用课堂教学ppt课件,共32页。PPT课件主要包含了文本处理数据,文本处理的一般过程,1标签云,文本数据分析与应用,2文本情感分析,数据可视化,什么是数据可视化,可视化的作用,实时分析数据,可视化的基本方法等内容,欢迎下载使用。