开学活动
搜索
    上传资料 赚现金

    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件

    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件第1页
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件第2页
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件第3页
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件第4页
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件第5页
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件第6页
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件第7页
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件第8页
    还剩20页未读, 继续阅读
    下载需要30学贝 1学贝=0.1元
    使用下载券免费下载
    加入资料篮
    立即下载

    高中信息技术粤教版 (2019)必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具优质课件ppt

    展开

    这是一份高中信息技术粤教版 (2019)必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具优质课件ppt,共28页。PPT课件主要包含了复习上节课内容,系统日志采集法,系统日志怎么查看,网络数据采集法,程序5-1,实践课本106页,运行结果等内容,欢迎下载使用。
    大数据(big data)的基本概念:指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
    数据(data):是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。
    大数据对日常生活的影响
    大数据与乔布斯癌症治疗乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。
    思考:数据的来源如此广泛,我们要如何进行数据采集呢?用什么方法和工具呢?
    一、数据采集的方法和工具
    数据采集的基本方法包括系统日志采集法、网络数据采集法和其他数据采集法。
    在信息系统中,系统日志是记录系统硬件、软件和系统问题的信息文件。系统日志包括操作系统日志、应用日志和安全日志。系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。        
    通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
    网络数据采集是指通过网络爬虫或网站公开API(应用程序接口)等方式从网站上获取数据信息。
    网络爬虫从一个或若干个初始网页的URL(统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断地从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
    Pythn网络数据采集程序使用的扩展库
    1.Numpy 构建科学计算最基础的软件库,为Pythn中的n维数组和矩阵的操作提供了大量有用的功能。Numpy是用于处理含有同种元素的多维数组运算的第三方库。2.SciPySciPy是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块。它的主要功能建立在Numpy的基础之上
    3.Pandas Pandas是一个Pythn包,旨在通过标记和关系数据进行工作简单直观。4.MatpltlibMatpltlib是Pythn的一个2D绘图库,以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。在Numpy、SciPy和Pandas的帮助下,通过Matpltlib,开发者仅需输入几行代码,便可以生成绘图、直方图、功率谱、条形图、散点图等。
    Pythn如何使用这些库?
    1.使用imprt语句导入模块的语法:imprt mdule关键名 模块名例一:imprt numpy #导入numpy库模块例二:imprt numpy as ny  #引入numpy库模块,程序代码中用np表示例三:imprt matpltlib.pyplt as plt #调用matpltlib库pyplt方法,用plt表示2.使用frm imprt语句导入(从库模块中调用方法):frm  mdule imprt  name关键字 模块名  关键字  方法名frm pylab imprt * #引入pylab库模块中的所有方法frm PLT imprt Image #从PLT库中调用Image方法
    # -*- cding: utf-8 -*-imprt numpy as np #引入numpy库模块,用np替代imprt matpltlib.pyplt as plt #引入matpltlib库模块中的pyplt方法,用plt替代frm pylab imprt * #引入pylab库模块中的所有方法x = np.arange(-5.0, 5.0, 0.02) #定义x轴数值为-5到5,步长为0.02y = np.sin(x) #利用正弦函数计算出x轴数值对应的y轴数值你plt.plt(x, y) #利用x,y轴对应的数值绘制出图形plt.shw() #显示出绘制的图形
    matpltlib是提供数据绘图功能的第三方库,其pyplt子库主要用于实现各种数据展示图形的绘制
    arrange()函数函数说明:arange([start,] stp[, step,], dtype=Nne)根据start与stp指定的范围以及step设定的步长,生成一个 ndarray。 dtype : dtype The type f the utput array. If `dtype` is nt given, infer the data type frm the ther input arguments. np.arange(0,60,2) 生成从0到60的步距为2的数组,其中0为初始值,60为终值,2步距np.arange(60 生成从0到59的默认步距为1的数组
    运行结果分别为:[ 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58][ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59]
    range(start, stp[, step])这是一个通用的函数来创建包含算术级数的列表。它最常用于fr循环。参数必须是纯整数。如果省略step参数,则默认为1。如果省略start参数,则默认为0。完整的形式返回一个普通整数列表。如果步骤是肯定的,最后一个元素是小于停止的最大元素; 如果step是负数,最后一个元素是大于stp的最小元素。 步骤不能为零(否则报错)。
    fr i in range(0, 5): # 循环5次,就是5个页面的商品数据
    paylad['page'] = i # 此处为页码,根据网页参数具体设置 resp = requests.get(url, params=paylad) sup = bs4.BeautifulSup(resp.text, "html.parser") print(resp.url) # 打印访问的网址 resp.encding = 'utf-8' # 设置编码
    all_title = sup.find_all('span', class_="title") fr j in all_title: sup_title = bs4.BeautifulSup(str(j), "html.parser", ) title.append()
    # 店铺名称 all_stre = sup.find_all('span', class_="shpNick") fr k in all_stre: sup_stre = bs4.BeautifulSup(str(k), "html.parser", ) stre.append()
    # 价格 all_price = sup.find_all('span', class_="pricedetail") fr l in all_price: sup_price = bs4.BeautifulSup(str(l), "html.parser") price.append()
    # 销售量 all_paynum = sup.find_all('span', class_="payNum") fr m in all_paynum: sup_paynum = bs4.BeautifulSup(str(m), "html.parser") paynum.append()

    相关课件

    信息技术必修1 数据与计算5.2.1 数据采集的方法和工具完美版ppt课件:

    这是一份信息技术必修1 数据与计算5.2.1 数据采集的方法和工具完美版ppt课件,文件包含新教材粤教版2019信息技术必修一52《数据的采集》课件pptx、爬虫程序采集网络数据mp4、第三方库模块安装与使用mp4、系统日志采集法mp4等4份课件配套教学资源,其中PPT共24页, 欢迎下载使用。

    信息技术必修1 数据与计算5.2.2 数据的存储和保护试讲课ppt课件:

    这是一份信息技术必修1 数据与计算5.2.2 数据的存储和保护试讲课ppt课件,共26页。PPT课件主要包含了数据采集的方法和工具,数据的存储和保护,数据的存储,数据的保护,数据安全技术,隐私泄露的途径,数据的隐私保护等内容,欢迎下载使用。

    英语朗读宝
    欢迎来到教习网
    • 900万优选资源,让备课更轻松
    • 600万优选试题,支持自由组卷
    • 高质量可编辑,日均更新2000+
    • 百万教师选择,专业更值得信赖
    微信扫码注册
    qrcode
    二维码已过期
    刷新

    微信扫码,快速注册

    手机号注册
    手机号码

    手机号格式错误

    手机验证码 获取验证码

    手机验证码已经成功发送,5分钟内有效

    设置密码

    6-20个字符,数字、字母或符号

    注册即视为同意教习网「注册协议」「隐私条款」
    QQ注册
    手机号注册
    微信注册

    注册成功

    返回
    顶部
    Baidu
    map