浙教版 (2019)第四章 数据处理与应用4.2 大数据处理一等奖课件ppt
展开4.1 常用表格数据处理
4.3 大数据的典型应用
numpy:科学计算的基础库scipy:高等数学,信号处理等pandas:数据处理与分析matpltlib:数据可视化
利用pandas模块处理数据
pandas是基于numpy的数据分析模块,提供了大量标准数据模型和高效操作大型数据集所需要的工具, 为Pythn数据分析提供了高性能,且易于使用的数据结构,即 Series(一维结构) 和 DataFrame(二维结构)
导入:imprt pandas as pd
读取excel文件(csv文件)
pd.read_excel(“文件名.xlsx”)
imprt pandas as pd
pd.read_csv(“文件名.csv”)
实例.t_excel(“文件名.xlsx”)
实例.t_csv(“文件名.csv”)
如何打开这种普通的文本文件?
f=pen(file, mde='r', encding=Nne)
file:打开的文件对象mde:打开的文件模式,默认(只读)encding:编码方式
文件模式可以组合。如:‘r+’以读写方法打开文件, 'rb'以只读方式打开二进制文件
尝试打开“哪吒影评.txt”分别读取前10个字节,前2行数据以追加写的模式(“a+“),在文档末尾添加自己的名字
文本数据处理是大数据处理的重要分支之一,目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。
文本数据要如何处理才能得到我们想要的结果?
信息技术的发展沿着以计算机为核心、到以互联网为核心、再到以数据为核心的脉络,对社会的经济结构和生产方式产生了深远的影响。
基于词典的分词方法基于统计的分词方法基于规则的分词方法
将连续的字序列按照一定的规范重新组合成词序列
基于词典的分词方法 分析句子时,跟词典中的词语进行对比,词典中出现的就划分为词
分词函数:jieba.cut(txt,cut_all)txt:要分词的文本cut_all:是否采用全模式(默认否)
基于统计的分词方法 依据上下文中相邻字出现的频率统计,同时出现次数越高就越可能组成一个词
基于规则的分词方法 根据大量现有资料和规则,让计算机模拟人的理解方式,学习对文字分词
字,词,短语都可以作为文本的特征项
最具代表性,最有效的文本特征
根据专家知识挑选构造评估函数自动选择
用词频表示文本特征,将关键词按照一定的顺序和规律排序,如频度递减、字母顺序等。并以文字大小的形式代表词语的重要性。
通过计算机技术对文本的主观性,观点,情绪,极性进行挖掘和分析,对文本的情感倾向做出分类判断根据颗粒度不同,分为词语级,语句级,整篇级三类主要应用于:网络舆情监控,用户评论分析与决策,信息预测等众多领域
信息技术必修1 数据与计算3.2 Python语言程序设计完美版课件ppt: 这是一份信息技术必修1 数据与计算<a href="/xx/tb_c4005637_t3/?tag_id=26" target="_blank">3.2 Python语言程序设计完美版课件ppt</a>,共30页。PPT课件主要包含了函数名参数,函数的使用对象,import模块名,导入整个模块,导入模块中的指定函数,函数名实际参数,计算圆环的面积,大圆面积,小圆面积,自定义圆面积函数等内容,欢迎下载使用。
信息技术必修1 数据与计算1.2 数据、信息与知识完整版ppt课件: 这是一份信息技术必修1 数据与计算<a href="/xx/tb_c4005625_t3/?tag_id=26" target="_blank">1.2 数据、信息与知识完整版ppt课件</a>,共26页。PPT课件主要包含了客观事物,最高温等内容,欢迎下载使用。
浙教版 (2019)必修1 数据与计算1.1 感知数据优秀课件ppt: 这是一份浙教版 (2019)必修1 数据与计算<a href="/xx/tb_c4005624_t3/?tag_id=26" target="_blank">1.1 感知数据优秀课件ppt</a>,共22页。PPT课件主要包含了什么是“数据”,什么是数据,关于数据,数据及其演变,数据无处不在,数据与科学,科学研究离不开数据,数据与生活,互联网+农业,互联网+教育等内容,欢迎下载使用。