年终活动
搜索
    上传资料 赚现金

    浙教版(2019)高中信息技术必修1-4.2.1 大数据处理基本思想课件PPT

    立即下载
    加入资料篮
    浙教版(2019)高中信息技术必修1-4.2.1 大数据处理基本思想课件PPT第1页
    浙教版(2019)高中信息技术必修1-4.2.1 大数据处理基本思想课件PPT第2页
    浙教版(2019)高中信息技术必修1-4.2.1 大数据处理基本思想课件PPT第3页
    浙教版(2019)高中信息技术必修1-4.2.1 大数据处理基本思想课件PPT第4页
    浙教版(2019)高中信息技术必修1-4.2.1 大数据处理基本思想课件PPT第5页
    浙教版(2019)高中信息技术必修1-4.2.1 大数据处理基本思想课件PPT第6页
    浙教版(2019)高中信息技术必修1-4.2.1 大数据处理基本思想课件PPT第7页
    浙教版(2019)高中信息技术必修1-4.2.1 大数据处理基本思想课件PPT第8页
    还剩17页未读, 继续阅读
    下载需要10学贝 1学贝=0.1元
    使用下载券免费下载
    加入资料篮
    立即下载

    信息技术必修1 数据与计算4.2 大数据处理说课课件ppt

    展开

    这是一份信息技术必修1 数据与计算4.2 大数据处理说课课件ppt,共25页。PPT课件主要包含了批处理计算,拓展链接等内容,欢迎下载使用。
    这些精确的数据是如何统计得到的?
    2021 年微博发布的《微博用户发展报告》显示微博已经有 5.3 亿活跃用户,包括个人用户、企业用户、组织集体用户等等。而每天发布的内容有短文字长文章、表情、图像、视频等等,除了原创微博,还有转发。假如每条微博包含 100 个字,那么两个月有多少个字?530000000*100*60=3180000000000这还只能算是其中很小一部分的数据。如果要从这些数据中找出这两个月出现频率最高的 100 个字,要怎么做?我们还能使用电子表格进行处理么?
    大数据具有数据量大、数据来源与类型多样、处理速度快、价值密度低等特点
    1+2+3+4+5+6+7+8+9+10=?
    1+10 2+9 3+8 4+7 5+6
    11 11 11 11 11 55
    分--将问题分解为规模更小的子问题治--将规模更小的子问题逐个击破合--将已解决的子问题合并,最终得出原问题的解
    分治大数据处理的基本思想
    自主学习课本P114:处理大数据的分治思想
    回答以下问题:(1)该案例中,如何使用10台计算机统计10G微博数据中出现频率最高的词汇? 每台计算机将计算结果汇总到主控计算机,主控计算机汇总统计最终结果(2)使用100台计算机处理100G数据时,遇到了什么问题,如何解决? 网络传输带宽瓶颈。 改造网络结构,每10台计算机分为一组进行汇总,最后提交给主控计算机(3)使用1000台、1万台、十万台计算机处理更大量数据时,为什么行不通了?如何解决的? 机器故障、网络故障风险增加。 一份数据发给多台计算机,故障时让备份数据的计算结果相互验证。总结:在数据量很大的情况下,我们要怎么进行快速高效的处理? 分而治之
    静态数据:在处理时已收集完成、在计算式不会发生改变的数据 流数据:是指不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低,通过实时分析计算可以得到更有价值的分析的结果图数据:以社交网络、道路交通等数据为例的众多以图为数据呈现形式的数据,或者转化为图之后再进行分析的
    假设硬盘读取速度恒定不变,对于1T的硬盘,读取速度100MB/s,要把硬盘的数据刷一遍,要两个多小时,太可怕了
    批处理:通过并行计算方式实现针对大规模数据的批量计算框架:Hadp,Spark这些架构均提供庞大且设计精良的并行计算软件框架,可以自动完成计算任务的并行化处理,以及计算数据和任务的自动划分,从而大大减轻了软件开发人员的负担
    运用Hadp企业一览数据仓库,商业智能 (facebk,twitter,淘宝,京东,暴风,新浪,58同城,移动大云)互联网广告计算 (亿赞普,科捷,各类大互联网企业)大搜索引擎项目 (Yah,国产盘古,人民搜索)站内搜索引擎项目 (Ebay,支付宝)内容推荐引擎 (人人,新浪微博,优酷)病毒分析,垃圾邮件识别(Yah,趋势科技,360)云计算服务项目 (亚马逊云,阿里云)地图项目 (月球表面探测地图)科研项目 (欧洲量子对撞机)金融项目 (股票分析,阿里金融)
    Hadp是一个可运行于大规模计算机集群上的分布式系统架构,适用于静态数据的批处理计算。Hadp有哪些组成部分?
    HDFS(Hadp分布式文件系统)主要功能:将大规模海量数据以文件的形式、用多个副本保存在不同的存储结点上,并用分布式系统进行管理是GFS的开源实现特点:容错性高,可以部署在廉价的机器中应用:云盘、网盘
    HBase(Hadp分布式数据库)主要功能:基于列的存储方式,用来存储非结构化和半结构化的数据,有良好的横向扩展能力,可管理PB级的大数据, 是BigTable的开源实现特点:高可靠、高性能、可伸缩、分布式
    MapReduce(分布式并行计算模型)核心思想:将任务分解并发布到多个节点上进行处理,最后汇总输出处理大规模数据集的并行运算由Map(映射)和Reduce(归纳)组成HDFS提供分布式计算时的数据访问Map函数把处理要求映射为map任务进行计算Reduce函数归纳计算结果并输出
    思考:用自己的话说说什么是分布式计算和并行计算?
    分布式计算:把大任务分成小任务,分配给很多计算机处理 并行计算:同时执行多个处理
    实现方式:分布式计算会是一个比较松散的结构,可能会跨越局域网,或者直接部署在互联网上,节点之间几乎不互相通信。并行计算则是各节点之间通过高速网络或其它总线之类的东西连接,一般在企业内部进行
    独立性:分布式的计算被分解后的小任务互相之间有独立性,节点之间的结果几乎不互相影响,实时性要求不高。并行计算每个节点的每一个任务块都是必要的,计算的结果相互影响,要求每个节点的计算结果要绝对正确,并且在时间上做到同步。
    北京城市数据映像-流动的城市“北京城市数据映像”项目采集了北京市地铁一卡通数据、出租车GPS定位轨迹数据、移动手机基站定位、地理位置微博数据、工商业POI地点等约2TB的数据。数据计算平台采用了服务器集群、Hadp和HBase架构。 通过收集北京市各相关行业的数据,运用大数据分析和可视化表达技术,将城市的发展和变化过程变得直观、透明和可视。大数据分析为城市管理提供了技术支撑,是发现、分析城市问题的新思维和技术方法。
    Hadp适用于处理静态数据,在流数据实时处理时性能不足。流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。
    流计算可以简单、高效、可靠地实现实时数据的获取、传输和存储。
    主要流计算软件:Twitter Strm(推特风暴)Yah!S4(雅虎分布式流计算)银河流数据处理平台(淘宝)Facebk PumaHernIBM InfSphere Streams(捕获和分析动态数据)
    与数据库、Hadp、编程语言等整合后可开发出功能强大的实时计算与分析应用如:Twitter社交网络数据处理
    实时处理与批处理的整合
    缩短了批处理与流处理之间的切换延时时间,有利于减少系统的开销,降低使用成本。
    Twitter的分层数据处理架构
    图计算:现实中有很多数据以图的形式呈现,或者转换为图以后再进行分析图由节点和边组成,关系错综复杂
    蛋白质激素构成图(由2.7万个节点和794万条边组成)
    社交网络,节点是人,边是社交关系
    大数据处理的基本思想:分治
    大数据处理按类型划分:
    1.下列关于流数据的描述不正确的是(   ) A.数据在处理时已经采集完成 B.数据价值随着时间的流逝降低 C.实时分析流数据可以得到更有价值的结果 D.可以采用流计算进行实时分析
    2.下列关于Hadp架构的描述正确的是(  ) A.是一个对大数据进行聚合式处理的基础软件框架 B.不能运行于大规模计算机集群上 C.采用NTFS文件系统管理数据文件 D.采用MapReduce编程模型处理大规模数据集

    相关课件

    高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件:

    这是一份高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件,共34页。PPT课件主要包含了高一各班总分平均值,热门省份Top5,学科百分比示意图,性别比例,大数据处理类型,Hadoop组成等内容,欢迎下载使用。

    2020-2021学年4.2 大数据处理完美版课件ppt:

    这是一份2020-2021学年4.2 大数据处理完美版课件ppt,文件包含421《大数据处理的基本思想与框架》课件PPTpptx、421《大数据处理的基本思想与框架》教案docx等2份课件配套教学资源,其中PPT共18页, 欢迎下载使用。

    信息技术必修1 数据与计算3.2 Python语言程序设计课文课件ppt:

    这是一份信息技术必修1 数据与计算3.2 Python语言程序设计课文课件ppt,共16页。PPT课件主要包含了输入输出,追加数据读写数值数据,文件定位等内容,欢迎下载使用。

    文档详情页底部广告位
    欢迎来到教习网
    • 900万优选资源,让备课更轻松
    • 600万优选试题,支持自由组卷
    • 高质量可编辑,日均更新2000+
    • 百万教师选择,专业更值得信赖
    微信扫码注册
    qrcode
    二维码已过期
    刷新

    微信扫码,快速注册

    手机号注册
    手机号码

    手机号格式错误

    手机验证码 获取验证码

    手机验证码已经成功发送,5分钟内有效

    设置密码

    6-20个字符,数字、字母或符号

    注册即视为同意教习网「注册协议」「隐私条款」
    QQ注册
    手机号注册
    微信注册

    注册成功

    返回
    顶部
    Baidu
    map