华东师大版第一节 数据采集、整理与安全优秀课件ppt
展开本章学习目标 ◉ 通过典型的应用实例,了解数据采集和整理的基本方法,理解数据安全的重要性。 ◉ 选用合适的软件工具或平台处理数据,掌握数据可视化的基本方法。 ◉ 了解数据分析报告的结构形式,完成解决问题的数据分析报告,感悟数据分析的价值
项·目·情·境 共享单车的诞生,顺应了“绿色出行”的环保理念,解决了人们出行“最后一公里”的烦恼。但与此同时,又有新的问题浮出水面。 小申是一名“优秀志愿者”,他的服务岗位是学校附近的共享单车站点。因为 学校周边还有地铁站、图书馆等,所以小申服务的站点的共享单车租放量很大。有时共享单车太多而挤占了人行道,有时人多而共享单车却供不应求,小申看在眼里 急在心里。共享单车使用的“潮汐”难题如何破解呢?
利用信息技术工 具收集共享单车使用 过程中的相关数据,形 成数据集。
学习数据处理的 常用工具和方法,对数 据集进行整理,用可视 化方式呈现出来。
应用项目活动中 的数据处理结果,以小 组为单位撰写数据分 析报告,交流分享学习成果。
当今社会,信息技术开始渗透至人类日常生活的方方面面,随之而产生的数据量也呈现指数级数增长的态势,例如物联网传感器、社交网络等每时每刻都产生着大量的数据。面对数据量的快速增长及 变化、数据来源的多元化、数据呈现方式的多样化,我们在遵守相关法 律法规、尊重知识产权的前提下,有效地采集与整理数据是进行数据处理的基础。
(1)获取网页
获取网页的源代码。源代码里包含了网页的部分有用信息,只要得到源代码,就可以从中提取想要的信息了。 获取源代码的关键就是构造一个请求并发送给服务器,然后在接收到服务器响应后将其解析出来。
获得网页的源代码后,接下来就是要分析网页源代码,从中提取我们想要的数据。由于网页的结构有一定的规则,所以可以利用一些 用于提取网页信息的库(如BeautifulSup、PyQuery、lxml等),高效 快速地提取网页信息。 解析网页并从中提取信息,可以使杂乱的数据变得条理清晰,以 便我们后续处理和分析数据。
提取数据后,我们一般会将其保存,以便后续使用。保存的形式多种多样,如文件存储、数据库存储或网络存储等。
数据整理是数据分析过程中的重要环节,包括检查处理数据的重复值、缺失值和异常值等。数据的重复值会导致数据分布发生较大变化。数据的缺失值会导致样本信息减少,降低数据分析的准确性。数 据的异常值不仅增加了数据分析的难度,而且会导致数据分析的结果 产生偏差。 数据整理的过程是否科学、结果能否真实地反映客观实际,将直 接影响数据处理的质量,影响整个数据分析的准确性。
随着大数据、物联网、云计算等技术和应用的日渐兴起,大数据应 用越来越被人们所重视。然而,数据在体现和创造价值的同时,也面 临着严峻的安全风险。在复杂的应用环境下,保障国家重要数据、企业机密数据和用户个人隐私数据等不发生外泄,是数据安全的首要任 务。海量多源数据在大数据平台汇聚,强化数据隔离和访问控制,实 现数据“可用不可见”,是大数据环境下数据安全的新要求。
目前,全国各地正在积极有序地推进新版社会保 障卡的换发工作,如图 3.8所示。新版社会保障卡既有 社会保障应用功能,也有金融应用功能,并采用先进的 互联网安全技术手段,构建网络与人之间的可信链接, 确保在互联网上实现“实人、实名、实卡”,使人们能够 高效、安全地享受各项公共服务。 查阅资料并讨论: 1. 新版社会保障卡增加了哪些功能? 有什么 用途? 2. 新版社会保障卡应用了哪些新技术? 这些新技术是如何保护我们的个人信息的? 将讨论结果填入表 3.7中。
图 3.8 新版社会保障卡示意图
(1) 数据加密 数据加密是计算机系统对数据进行保护的一种较为可靠的办法。 对需要保护的数据(也称为明文)进行加密,即利用加密算法和加密密 钥将需要保护的数据转化成另外一种数据(也称为密文),然后将密文 进行存储或者传输给需要使用数据的人,使得窃取者在没有密钥和不了解加密算法的情况下无法识别密文,从而起到数据保密的作用。
(2) 数据脱敏 数据脱敏是在不影响数据分析结果准确性的前提下,对需要保护 的数据进行一定的变换操作,如替换、过滤或删除等,从而降低数据的 敏感性,保护用户的隐私不被泄露,如图3.9所示。
图 3.9 数据脱敏示例
(3) 访问控制 在各种计算机系统中,涉及各类服务的使用、文件的访问、数据的存取时,需要规定特定的人对部分数据负责或获得管理权限,从而做 到被授权的人允许使用特定信息。此时,就需要进行访问控制,这是 确定用户身份及其所享有权限的一种技术。访问控制主要由身份验 证与授权两个部分组成,身份验证是用于验证用户身份合法性的一种 技术。身份验证本身并不足以防护数据,还需要授权技术来确定用户 是否可以访问数据或执行其所尝试的操作。
(4) 数据备份 数据备份是指为了防止由于操作失误、系统故 障等人为因素或意外原因导致数据丢失,而将整个 系统的数据或者一部分关键数据通过一定的方法从 主计算机系统的存储设备中复制到其他存储设备中 的过程,如图3.10所示。一旦数据丢失,就可以从 备份中恢复历史版本的数据。数据备份往往需要定 期定时进行,从而使得备份的数据能够保持最新的状态。
(5) 异地容灾 当某处的计算机系统因意外、不可抗力因素(如火灾、地震等)的 原因导致停止工作并且无法提供计算机服务时,往往需要切换到另外 一套备用系统上,使其能够继续提供相关计算机服务。如果两套或多 套计算机系统都安放在同一处,一旦遭到不可抗力因素的影响时,将 会是灾难性的。为了防止出现这种情况,人们采用了一种异地容灾的方式,在相隔较远的地方,建立两套或多套功能相同的计算机系统,相 互进行数据备份或应急时提供备用计算机服务。例如,银行的数据中 心都实现了异地容灾,从而可以保证用户的金融数据安全。
目前,“停车难”几乎成为了掣肘城市发展、影响市民生活的顽疾。市中心周转腾挪的空间越来越有限, 在众多停车问题中,路面停车问题尤为突出。图 3.11是道路停车标准化管理系统示意图,该系统通过视频自 动检测和记录停车过程,无需 人工干预,结合停车费线上支 付和停车信息发布,实现路面 停车管理无人值守,节省人力 成本,提升泊位周转率,从而实现道路停车智能化的管理。 利用所学的数据采集方 法,采集“停车点名称”“停车 点地址”“停车泊位”“车辆出 入记录”“收费记录”等相关特 征数据,并用合适的方法进行 整理,保存为“道路停车数据. csv”文件。
图 3.11 道路停车自动检测和缴费示意图
华东师大版必修1第三章 数据处理与应用第三节 数据分析报告与应用完整版ppt课件: 这是一份华东师大版必修1第三章 数据处理与应用第三节 数据分析报告与应用完整版ppt课件,共17页。PPT课件主要包含了体验思考,专题分析报告,综合分析报告,日常数据通报,项目实践等内容,欢迎下载使用。
高中信息技术华东师大版必修1第三节 大数据及其作用与价值精品ppt课件: 这是一份高中信息技术华东师大版必修1第三节 大数据及其作用与价值精品ppt课件,共20页。PPT课件主要包含了体验思考,大数据处理过程,数据预处理,数据分析,数据挖掘应用,作业练习等内容,欢迎下载使用。
华东师大版必修1第一节 数据、信息与知识评优课ppt课件: 这是一份华东师大版必修1第一节 数据、信息与知识评优课ppt课件,共23页。PPT课件主要包含了项目主题,信息技术伴我学,体验思考,感知数据,认识信息,合理应用信息等内容,欢迎下载使用。