年终活动
搜索
    上传资料 赚现金
    英语朗读宝

    【核心素养】川教版(2019)信息技术九上3.1《爬取网络信息》课件

    资料中包含下列文件,点击文件名可预览资料内容
    • 课件
      【核心素养】川教版(2019)信息技术九上3.1《爬取网络信息》课件.pptx
    • 教案
      【核心素养】川教版(2019)信息技术九上3.1《爬取网络信息》教案.doc
    【核心素养】川教版(2019)信息技术九上3.1《爬取网络信息》课件第1页
    【核心素养】川教版(2019)信息技术九上3.1《爬取网络信息》课件第2页
    【核心素养】川教版(2019)信息技术九上3.1《爬取网络信息》课件第3页
    【核心素养】川教版(2019)信息技术九上3.1《爬取网络信息》课件第4页
    【核心素养】川教版(2019)信息技术九上3.1《爬取网络信息》课件第5页
    【核心素养】川教版(2019)信息技术九上3.1《爬取网络信息》课件第6页
    【核心素养】川教版(2019)信息技术九上3.1《爬取网络信息》课件第7页
    【核心素养】川教版(2019)信息技术九上3.1《爬取网络信息》课件第8页
    【核心素养】川教版(2019)信息技术九上3.1《爬取网络信息》教案第1页
    【核心素养】川教版(2019)信息技术九上3.1《爬取网络信息》教案第2页
    还剩22页未读, 继续阅读
    下载需要30学贝 1学贝=0.1元
    使用下载券免费下载
    加入资料篮
    立即下载

    川教版(2019)九年级上册第三单元 我的课外读物——网络爬虫第1节 爬取网络信息完整版ppt课件

    展开

    这是一份川教版(2019)九年级上册第三单元 我的课外读物——网络爬虫第1节 爬取网络信息完整版ppt课件,文件包含核心素养川教版2019信息技术九上31《爬取网络信息》课件pptx、核心素养川教版2019信息技术九上31《爬取网络信息》教案doc等2份课件配套教学资源,其中PPT共30页, 欢迎下载使用。
    随着信息技术的迅速发展,互联网上涌现大量信息,网络爬虫可以有效地筛选并提取我们需要的信息。 本单元同学们将通过完成“我的课外读物”项目,掌握Pythn网络爬虫的编写技术,学会处理和保存信息的方法。
    我有一个好方法。可以先用搜索引擎找到一个书目介绍网页,再用Pythn编写一个小程序,快速从这个网页上获双到书的各种信息。
    老师,您给我们推荐了很多课外阅读书,我去网上查了一下,找到了书约内容简介、好评度和价格等信息,但是要一一去比较,好庥烦呢……
    好呀!但你不要着急,我们需要一步一步来完成这个任务。我们先来分析一下这个任务并梳理出实现的方法。
    Pythn真是太强大了。老师,快给我们讲讲怎么做吧!
    01.分析任务要达到的目标。
    02.学会将任务分解成小任务并梳理出方法和步骤
    03.学会在Pythn中使用requests模块访问网络,获取信息
    嗯,网上类似的网站很多,我给你推荐一个网页“好书推荐”,网址是“httplcalhst/hashu.html"。
    老师,我搜索了一下,有很多书目介绍的网站呢。
    这个网页上有好多书的介绍,还有好评数和价格呢。
    对,你可以用程序把这个网页的信息获取下来,对信息进行筛选和整理,并且保存下来,还可以进行简单的处理,最后得到你起要的信息。
    嗯,我明白了!我们要做一个表格来存储书籍的各种信息,如表3-1-1所示。
    表3-1-1 书籍信息清单表
    上面的过程可概括为获取信息、处理信息、保存信息、使用/分析信息等步骤。可以用这几个步骤来分析上面描述的过程,如图3-1-1所示。
    请同学们想一想,上图的括号中你觉得填入什么词合适呢?
    根据上面的任务分析图,我们需要一些相关的知识才能完成各任务,如表3-1-2所示。
    表中的知识与方法,是我们编写爬虫程序的基础,表中列举的requests和BeautifulSup模块请提前安装。只要掌握了这些知识,就可以编写出符合我们需求的爬虫程序。
    (三)、Pythn爬虫访问网页
    编写程序,让程序访问网络并获取我们需要的信息,这样的程序,我们叫它“网络爬虫”。
    首先,请从浏览器中打开“好书推荐”的网页,页面上有很多书,每本书有书籍名、内容简介、好评数、作者、价格等信息,如图3-1-2所示。
    在页面上点击右键,选择“查看页面源代码”,这些源代码就是一些纯文本。有如…,,,…这些文本,它们叫Html标签,用来控制页面文本或者图片在网页中的显示,如图3-1-3所示。
    我们使用requests模块的get函数可以获取这个页面的源代码。
    哇!好复杂!我们写爬虫程序是不是先要用程序把这些源代码“取”下来呢?
    获取“好书推荐”页豆信息并显示的完整代码如下:
    将上面代码保存为文件“我的课外读物.py”,然后执行。执行结果如图3-1-4所示。
    通过上面五条语句获取到网页的源代码。但是我们不需要全部的内容,只需要书籍名称及它的好评数和价格、作者、内容简介等信息。
    仔细观察源代码,发现书籍名称代码中有些相同的代码:…。这就是Html标签书籍名称不同,但标签中的class="title”却是相同的,我们使用class="uitle”做关键字来查找书籍名。再找找好评数、价格和内容简介的标签与关键字,统一大小写、规范填写。如表3-1-3所示。
    根据代码特征就可以从全部源代码中提取出我们需要的信息。这需要对‘xt文件中的“字符串”进行操作。七年级上学期我们了解到通过input函数获取到的数据默认是字符串类型,前面获取的页面源代码resTxt”也是一个字符串。下面我们来进一步了解字符串。
    字符串:在Pythn中,字符串通常都放在单引号或者双引号之中,如果字符串较长,甚至有分段,我们还可以使用三个单引号或者三个双引号,来将这种长字符串“包括”在其中。
    请同学们运行下面代码,观察运行结果,总结定义字符串的方式。
    从上面代码中,可以看出,定义字符串有4种不同的方式,请填写在下表中,如表3-1-4所示。
    网络爬虫,又被称为网页蜘蛛、网络机器人等。它的本质,是一种按照一定的规则,自动爬取网络信息的程序或脚本。网络爬虫帮助搜索引擎从互联网上读取网页,是搜索引擎最重要也是最基础的组成部分网络爬虫能快速、高效地帮助我们获取到有用的信息,特别是当我们需要从网络上大规模的获取某类信息时,网络爬虫将会使我们的工作事半功倍。所以,理解网络爬虫的基本原理,甚至能够自己编写爬虫,是我们生活在信息时代应该具备的技能。

    相关课件

    川教版(2019)九年级上册第一单元 家庭云第4节 管理家庭云优秀ppt课件:

    这是一份川教版(2019)九年级上册第一单元 家庭云第4节 管理家庭云优秀ppt课件,文件包含核心素养川教版2019信息技术九上14《管理家庭云》课件pptx、核心素养川教版2019信息技术九上14《管理家庭云》教案doc等2份课件配套教学资源,其中PPT共29页, 欢迎下载使用。

    信息技术九年级上册第3节 体验家庭云一等奖ppt课件:

    这是一份信息技术九年级上册第3节 体验家庭云一等奖ppt课件,文件包含核心素养川教版2019信息技术九上13《体验家庭云》课件pptx、核心素养川教版2019信息技术九上13《体验家庭云》教案doc等2份课件配套教学资源,其中PPT共32页, 欢迎下载使用。

    川教版(2019)九年级上册第1节 认识家庭云精品课件ppt:

    这是一份川教版(2019)九年级上册第1节 认识家庭云精品课件ppt,文件包含核心素养川教版2019信息技术九上11《认识家庭云》课件pptx、核心素养川教版2019信息技术九上11《认识家庭云》教案doc等2份课件配套教学资源,其中PPT共19页, 欢迎下载使用。

    欢迎来到教习网
    • 900万优选资源,让备课更轻松
    • 600万优选试题,支持自由组卷
    • 高质量可编辑,日均更新2000+
    • 百万教师选择,专业更值得信赖
    微信扫码注册
    qrcode
    二维码已过期
    刷新

    微信扫码,快速注册

    手机号注册
    手机号码

    手机号格式错误

    手机验证码 获取验证码

    手机验证码已经成功发送,5分钟内有效

    设置密码

    6-20个字符,数字、字母或符号

    注册即视为同意教习网「注册协议」「隐私条款」
    QQ注册
    手机号注册
    微信注册

    注册成功

    返回
    顶部
    Baidu
    map