所属成套资源:全套信息技术沪教版必修1数据与计算多媒体PPT课件+教案
高中信息技术沪教版(2019)必修1 数据与计算2.了解机器学习中的数据采集与预处理优秀课件ppt
展开
这是一份高中信息技术沪教版(2019)必修1 数据与计算2.了解机器学习中的数据采集与预处理优秀课件ppt,文件包含沪科版2019高中必修1信息技术项目92了解机器学习中的数据采集与预处理教案doc、沪科版2019高中必修1信息技术项目92了解机器学习中的数据采集与预处理课件pptx、项目九第二课时了解机器学习中的数据采集与预处理1mp4、项目九第二课时了解机器学习中的数据采集与预处理2mp4、项目九第二课时了解机器学习中的数据采集与预处理3mp4等5份课件配套教学资源,其中PPT共0页, 欢迎下载使用。
项目九 了解手写数字识别——体验人工智能第二课时 了解机器学习中的数据采集与预处理 ■教材分析“了解机器学习中的数据采集与预处理”这一小节,让学生通过了解手写数字识别的核心技术——机器学习,感受人工智能技术。机器学习是人工智能的核心研究领域之一,它研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,从而不断改善自身的性能。机器学习是一门研究学习算法的学问,它利用已有的数据来建立模型,再用模型去解决未知的问题。 机器学习的一般过程为:用采集到的数据进行训练,以建立一个模型,再对模型进行验证和评估,然后投入应用。■教学目标1、知识和技能(1)了解“机器学习”概念。(2)了解机器学习的一般过程。2、过程与方法让学生通过了解手写数字识别的核心技术———机器学习,感受人工智能技术。学生通过了解机器学习的含义、应用及作用,了解机器学习的一般过程。3、情感态度与价值观(1)了解手写数字识别的核心技术———机器学习,感受人工智能技术。学生通过了解人工智能和机器学习的含义、应用及作用,提升对人工智能技术作用的认识,发展信息社会责任;(2)通过学生通过使用 Python 及其第三方工具进行手写数字识别学习过程的体验,在完成项目的过程中了解人工智能解决问题的思想方法,促进计算思维的形成与发展。■教学重点:了解机器学习的概念。■教学难点:机器学习的一般过程。■教学准备多媒体教室。■教学过程:一、新课导入 教师播放机器人与机器人对话和机器人与人对话的视频。提出问题:“机器人为什么有很多简单话都听不董?”以此引出机器学习的概念及一般过程。二、机器学习机器学习是人工智能的核心研究领域之一,它研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,从而不断改善自身的性能。人类学习的机理,一般认为是通过积累并利用经验来构造或修改对于所经历事物的判断。机器学习正是从人类学习中受到启发:机器要学会某一个概念,可以通过从数据中获取一些规则性的东西,来形成一个可用于判断未知事物的模型。实际上,机器学习是一门研究学习算法的学问,它利用已有的数据来建立模型,再用模型去解决未知的问题。和一般计算机程序中的算法不同的是,学习算法具有不断改善自身性能的能力,从而使机器的能力变得越来越强,甚至算法设计者本人也不能预测机器的能力可以达到何种程度。特别是在大数据的背景下,用大量长期积累的数据学习得到的模型,已经表现出了优越的性能。数据为王,未来的机器其能力将以数据为依托,提升空间巨大。近年来,机器学习在许多应用领域中均发挥了重要作用,极大地推动了社会的进步,如下图所示。在机器学习中,要解决的问题可以分为分类(识别)和回归(预测)两大类。分类问题是指,给定一个新的模式,根据训练集推断它所对应的类别是什么,这是一种定性输出,也叫离散变量预测。指纹识别、人脸识别、图像分类等都属于分类问题。回归问题是指,给定一个新的模式,根据训练集推断它所对应的输出值是多少,这是种定量输出,也叫连续变量预测。天气预报、市场测、金融分析等都属于回归问题。 根据已有数据的不同,机器学习又可以分为监督学习和无监督学习。针对已被标注的数据,采用监督学习;针对未被标注的数据,采用无监督学习。目前,监督学习已在工业界取得了很多成功应用。无监督学习是众多科研工作者一直在努力的研究方向。如果在无监督学习方向能有所突破,将会极大地推动机器学习的发展,产生巨大的社会效益。三、机器学习的一般过程机器学习的一般过程为:用采集到的数据进行训练,以建立一个模型,再对模型进行验证和评估,然后投入应用如图所示。 1.数据的采集在手写字体识别中,最简单的当属手写数字识别,但这对计算机来说却仍然颇具挑战性。针对手写数字识别,人们开发了可用于机器学习的MNIST数据集。作为机器学习的入门学习者,我们将直接使用现成的MNIST数据集。MNIST数据集了70000张从0到9这10个数字的样本图片,由250个人手写的不同数字构成。所有图片样本都由人工完成标注,即标明它是哪个数字。建立模型、验证模型和评估模型,都需要使用样本图片,所以采集到的70000张图片被分成两部分,其60000张图片作为训练样本,10000张图片作为测试样本。如下图所示,训练样本又可以再细分为Train(训练)集合和Validation((验证)集合。其中Train合5500张图片,用于训练以建立模型。Validation集合包含5000张图片,用于粗略判断训练的效果以验证模型。测试样本即Test(测试)集合,用于评估最终模型的优劣,在建立模型训练过程中是不使用的。 2.数据预处理 采集到的700000张样本图片,每一张都代表了从0到9中一个数字,所有的数字都出现在图片的正中间(下图)这些图片并非二值图像,而是灰度图像。每一张图片都由28×28个像素点组成,每个像素点用一个灰度值表示。但是这样的灰度图像并不能直接用于机器学习,必须先要对它进行向量化。二值图像:是指像素点的值只能为0或1的图像。灰度图像:灰度图像是用0来表示白色,用1表示黑色,中间名级别的灰色用(0,1)中的相应小数来表示的图像。如下图所示,把各种灰度的像素点转换成具体的数值,就可以得到一个矩阵。把矩阵中除第一行外的每一行依次接在前一行之后,可以得到一个长度为784(28×28)的一维数组,该数组中的每一个元素与图片像素矩阵中的每一个数字是一一对应的。这样就完成了图片的向量化。对所有的训练样本和测试样本进行同样的向量化处理,就得到了手写数字识别算法所需要的输入样本。MNIST数据集可直接在MNIST数据集官方网站下载。在Python语言中,有一些第三方工具,可用来方便地读入 MNIST数据集,并直接完成向量化。通过以下这行代码,可以读取MNIST数据集。注意先要将下载的数据集存放在指定路径中。 input_data.read_ data_sets函数会自动将MNIST数据集划分为Train、Validation和Test三个数据集。设置one_hot=True,可以将标注信息转化为本项目中所使用的手写数字识别算法的标准格式。 四、课后作业Python 语言中,运行配套资源中的相关代码,将读入的 MNIST 数据集中的二进制文件数据转换成图像格式文件,观察两者之间的对应关系,体会图像是如何被向量 化的。
相关课件
这是一份沪教版(2019)2.采集数据课前预习课件ppt,文件包含212项目三第二课时采集数据课件-2020-2021学年高中信息技术沪科版2019必修1pptx、212项目三第二课时采集数据教案--2020-2021学年高中信息技术沪科版2019必修1docx等2份课件配套教学资源,其中PPT共33页, 欢迎下载使用。
这是一份信息技术沪教版(2019)1.了解网络订票系统的工作过程优质ppt课件,文件包含沪科版2019高中必修2信息技术项目91了解网络订票系统的工作过程课件pptx、沪科版2019高中必修2信息技术项目91了解网络订票系统的工作过程教案doc、项目九第一课时了解网络订票系统的工作过程mp4等3份课件配套教学资源,其中PPT共30页, 欢迎下载使用。
这是一份高中信息技术沪教版(2019)必修2 信息系统与社会4.了解网络社交的道德规范与法律法规优质ppt课件,文件包含沪科版2019高中必修2信息技术项目82了解网络社交的道德规范与法律法规课件pptx、沪科版2019高中必修2信息技术项目82了解网络社交的道德规范与法律法规教案doc、项目八第二课时了解网络社交的道德规范与法律法规mp4、项目八第二课时了解网络社交的道德规范与法律法规1mp4等4份课件配套教学资源,其中PPT共26页, 欢迎下载使用。