搜索
    上传资料 赚现金
    英语朗读宝

    川教版信息技术九上 3.1 爬取网络信息 课件PPT

    川教版信息技术九上 3.1 爬取网络信息 课件PPT第1页
    川教版信息技术九上 3.1 爬取网络信息 课件PPT第2页
    川教版信息技术九上 3.1 爬取网络信息 课件PPT第3页
    川教版信息技术九上 3.1 爬取网络信息 课件PPT第4页
    川教版信息技术九上 3.1 爬取网络信息 课件PPT第5页
    川教版信息技术九上 3.1 爬取网络信息 课件PPT第6页
    川教版信息技术九上 3.1 爬取网络信息 课件PPT第7页
    川教版信息技术九上 3.1 爬取网络信息 课件PPT第8页
    还剩13页未读, 继续阅读
    下载需要20学贝 1学贝=0.1元
    使用下载券免费下载
    加入资料篮
    立即下载

    初中信息技术川教版(2019)九年级上册第1节 爬取网络信息课文配套ppt课件

    展开

    这是一份初中信息技术川教版(2019)九年级上册第1节 爬取网络信息课文配套ppt课件,共21页。PPT课件主要包含了课堂导入,明确任务,实现方法,课堂小结等内容,欢迎下载使用。
    同学们:随着信息技术的迅速发展,互联网上涌现出了大量的信息,网络爬虫可以有效地筛选并提取我们需要的信息。本单元我们将通过完成“我的课外读物”项目,掌握Pythn网络爬虫的编写技术,学会处理和保存信息的方法。
    1.分析任务要达到的目标。
    2.学会将任务分解成小任务并梳理出方法和步骤。
    3. 学会在Pythn中使用requests模块访问网络,获取信息。
    三、Pythn爬虫访问网页
    网上有很多书目介绍的网站,我们以“京东商城”为例,网址是“”。我们可以用pythn程序把这个网页的信息获取下来,对信息进行筛选和整理,并且保存下来,还可以进行简单的处理,最后得到我们想要的信息。
    我们按以下步骤来进行:1.搜索满足要求的网站;2.编写程序从网页获取信息;3.筛选出所需信息;4.将信息转化成表格的格式;5.保存信息;6.使用/分析信息。
    上面的过程可以概括为获取信息、处理信息、保存信息、使用/分析信息等步骤。
    “我的课外读物”项目用Pythn爬虫编程实现所需知识和方法。
    上表中的知识与方法,是我们编写爬虫程序的基础,表中列举的requests和BeautifulSup模块需要提前安装。安装方法如下:打开cmd命令提示符,输入pip install requests,按回车键开始下载安装。打开cmd命令提示符,输入pip install beautifulsup4,按回车键开始下载安装。只要掌握了这些知识,就可以编写出符合我们需求的爬虫程序。
    编写程序,让程序访问网络并获取我们需要的信息,这样的程序,我们把它叫做“网络爬虫”。
    首先,请从浏览器中打开“京东商城”的网页,页面上有很多书,每本书有书籍名、内容简介、好评数、作者、价格等信息,如下图所示:
    在页面上点击右键,选择“查看页面源代码”,这些源代码就是一些纯文本。有如… , …,…, …这些文本,它们叫Html标签,用来控制页面文本或者图片在网页中的显示,如下图所示:
    我们使用requests模块的get函数,可以获取这个页面的源代码。
    将上面代码保存为文件“我的课外读物.py”,然后执行。执行结果如下图所示:
    通过上面代码中的五条语句获取到网页的源代码。但是我们不需要全部的内容,只需要书籍名称及它的好评数和价格、作者、内容简介等信息。
    仔细观察源代码,发现书籍名称代码中有一些相同的代码:…
    。这就是Html标签,书籍名称不同,但标签中的class=“title”却是相同的,我们使用class=“title”做关键字来查找书籍名。再找找好评数、价格和内容简介的标签与关键字,统一大小写、规范填写。如下表所示:



    根据代码特征就可以从全部源代码中提取出我们需要的信息。这需要对txt文件中的“字符串”进行操作。七年级上学期我们了解到通过input函数获取到的数据默认是字符串类型,前面获取的页面源代码“resTxt”也是一个字符串。下面我们来进一步了解字符串。
    字符串:在Pythn中,字符串通常都放在单引号或者双引号之间,如果字符串较长,甚至有分段,我们还可以使用三个单引号或者三个双引号,来将这种长字符串“包括”在其中。
    练习:请同学们运行下面的代码,观察运行结果,总结定义字符串的方式。
    stra='我是字符串a’strb=“我是字符串b”print(stra)print(strb)strc="Let’s g!"strd=’’’欢欢说:“Let’s g!”’’’stre=”””乐乐说:’Let’s g!”””print(strc)print(strd)print(stre)
    从上面的代码中运行结果可以看出,定文字符串有4种不同的方式,请同学们填写在下表中。
    字符串较长,甚至有分段
    拓展阅读:网络爬虫及其作用
    网络爬虫,又被称为网页蜘蛛、网络机器人等。它的本质,是一种按照一定的规则,自动爬取网络信息的程序或脚本。网络爬虫帮助搜索引擎从互联网上读取网页,是搜索引擎最重要也是最基础的组成部分。网络爬虫能快速、高效地帮助我们获取到有用的信息,特别是当我们需要从网络上大规模的获取某类信息时,网络爬虫将会使我们的工作事半功倍。所以,理解网络爬虫的基本原理,甚至能够自己编写爬虫。是我们生活在信息时代应该具备的技能。
    Pythn爬虫访问网页
    1. 使用requests模块获取信息2.使用BeautifulSup模块处理信息3.保存信息至文件4.使用pandas模块排序

    相关课件

    川教版(2019)九年级下册第1节 确定项目 规划机器人方案完美版课件ppt:

    这是一份川教版(2019)九年级下册第1节 确定项目 规划机器人方案完美版课件ppt,共28页。PPT课件主要包含了课堂导入,课堂小结等内容,欢迎下载使用。

    初中川教版(2019)第2节 处理网络信息教学课件ppt:

    这是一份初中川教版(2019)第2节 处理网络信息教学课件ppt,共37页。PPT课件主要包含了课堂导入,提取书籍的名称,保存信息,我的课外读物,课堂小结等内容,欢迎下载使用。

    初中信息技术川教版(2019)九年级上册第3节 揭开物联网的面纱课文配套课件ppt:

    这是一份初中信息技术川教版(2019)九年级上册第3节 揭开物联网的面纱课文配套课件ppt,共28页。PPT课件主要包含了课堂导入,分析智能温室项目,认识物联网,课堂小结等内容,欢迎下载使用。

    文档详情页底部广告位
    欢迎来到教习网
    • 900万优选资源,让备课更轻松
    • 600万优选试题,支持自由组卷
    • 高质量可编辑,日均更新2000+
    • 百万教师选择,专业更值得信赖
    微信扫码注册
    qrcode
    二维码已过期
    刷新

    微信扫码,快速注册

    手机号注册
    手机号码

    手机号格式错误

    手机验证码 获取验证码

    手机验证码已经成功发送,5分钟内有效

    设置密码

    6-20个字符,数字、字母或符号

    注册即视为同意教习网「注册协议」「隐私条款」
    QQ注册
    手机号注册
    微信注册

    注册成功

    返回
    顶部
    Baidu
    map