第1章初识人工智能
本章主要介绍人工智能的概念、诞生和发展历程。具体包括人工智能概念的提出和涉及 的相关重要人物,以及人工智能发展过程中的几个阶段,包括诞生、两次浪潮与寒冬、稳健 阶段和ABC 新时代。
本章的主要知识点如下:
人工智能概念
1. 人工智能英文名为“Artificial Intelligence”, 简 称Al。它是用人工的方法在机器(计算
机)上实现的智能;或者说是人们使机器具有类似于人的智能。
2. 人工智能学科一门研究如何构造智能机器(智能计算机)或智能系统,使它能模拟、延
伸、扩展人类智能的学科。
3. 图灵测试是现在人工智能来判断一个机器是不是有智能的依据。
重要人物
1. 冯 · 诺依曼 (John von Neumann,1903.12.28-1957.2.8),美籍匈牙利数学家、计算机 科学家、物理学家,是20世纪最重要的数学家之一。被后人称为“现代计算机之父”、 “博弈论之父”。
2. 艾伦 · 麦席森 · 图灵 (Alan Mathison Turing,1912.6.23-1954.6.7), 英国数学家、逻辑 学家,被称为计算机科学之父,人工智能之父。1950年,图灵发表了著名论文《计算 机器与智能》,第一次提出“机器思维”和“图灵测试” (TurningTest) 的概念,在其 中,图灵提出一个震惊世界的问题:机器能思考吗?
“人工智能“的诞生1. 达特茅斯会议首次正式提出人工智能一词,Artificial Intelligence,Al, 一直被沿用至今,
所以此次会议也就被认为是人工智能正式诞生的元年
2. 达特茅斯会议(1956 年 ) :
> 1956 年,一群科学家聚会在美国汉诺思小镇宁静的达特茅斯学院,他们试图利用 暑假期间的两个月进行封闭式的讨论和研究,而这次会议的主题就是“达特茅斯夏 季人工智能研究计划”。
3. 达特茅斯会议主要参会者:
特伦查德摩尔,数学家和计算机科学家,曾在IBM的沃森研究中心工作;
> 约翰麦卡锡,达特茅斯会议的发起人,1971年图灵奖得主, Lisp语言创始人。
> 马文闵斯基,知名的认知科学家,曾在1951年建立了第一个神经网络,模拟了40 个神经元。
> 奥利弗赛弗里奇,被称为“机器感知之父”。 > 雷所罗门诺夫,经验概率理论的发明人。
人工智能的第一次浪潮(1956-1974)
计算机在使用“推理和探索”时取得较大发展,主要事件:
1. 聊天程序ELIZA 的诞生、机器学习之父亚瑟塞缪尔(Arthur Lee Samuel,1901-1990),
1959年开发的西洋跳棋程序打败了当时的西洋棋大师。
2. 1958年麦卡锡开发了LISP 语音。
3. 斯坦福研究院 (SRI) 的人工智能中心于1966年到1972年研制的世界上第一台真正意 义上的移动机器人Shakey。
4. 多层神经网络、反向传播算法开始出现。
5. 专家系统开始起步。
人工智能的第一次寒冬(1974-1980)
在当时,人工智能面临的技术瓶颈主要是三个方面:
1. 问题的复杂性。让科学家们最头痛的就是虽然很多难题理论上可以解决,看上去只是少 量的规则和几个很少的棋子,但带来的计算量增加却是惊人的增长,实际上根本无法解 决。
2. 计算机性能不足。就像飞机需要有足够的马力才能从跑道上起飞,人工智能也需要足够
的计算力才能真正发挥作用。
3. 数据量严重缺失。人工智能还需要大量的人类经验和真实世界的数据,即使一个三岁婴 儿的智能水平,也是观看过数亿张图像之后才形成的。但当时是不可能找到足够大的数 据库来支撑程序进行深度学习,这导致机器无法读取足够量的数据进行智能化。
人工智能的第二次浪潮(1980-1987)
1. 专家系统 (Expert System)
> 1980年卡耐基梅隆大学 (CMU) 研发的XCON 正式投入使用,这成为一个新时期 的里程碑,专家系统开始在特定领域发挥威力,也带动整个人工智能技术进入了一 个繁荣阶段。
> 198 2年美国数十家大公司联合成立微电子与计算机技术公司(MCC), 该公司1984 发起了人工智能历史上最大也是最有争议性的项目,cyc, 这个项目至今仍在运作。
2. 日本的实现并行计算第五代计算机系统
> 1982年,日本尝试使用大规模多CUP并行计算来解决人工智能计算力问题。日本
的第五代计算机系统,FGCS (Fifth Generation Computer Systems) 制造大规模多处 理器并行计算的硬件。
3.VaMoRs:
> 在德国的1986年,慕尼黑的联邦国防军大学把一辆梅赛德斯-奔驰面包车安装上了 计算机和各种传感器,实现了自动控制方向盘、油门和刹车。这是真正意义上的第 一辆自动驾驶汽车,叫做VaMoRs,开起来时速超过80公里。
人工智能的第二次寒冬(1987-1993)
1 . 1987年,苹果和IBM 公司生产的台式机性能都超过了当时的通用计算机。人工智能领 域再一次进入寒冬。
2. 知识描述与知识管理的缺陷逐渐暴露,专家系统并不是人工智能的正确路径,专家系统 由于无法自我学习、更新知识库和算法,维护越来越麻烦,成本越来越高。以至很多企 业后来都放弃专家系统,或升级到新的信息处理方式。
人工智能的稳健时代(1993-2011)
1. 1997年世纪之战, IBM 深 蓝VS 卡斯帕罗夫计算机战胜人类世界象棋冠军。
2.2009年,谷歌开始秘密测试无人驾驶汽车技术;至2014年,谷歌就成为第一个在通过 美 国 州自 驾车测试的公司。
3. 华裔科学家吴恩达及其团队在2009年开始研究使用图形处理器( GPU ) 进 行 大 规 模 无
监督式机器学习工作,尝试让人工智能程序完全自主的识别图形中的内容。
人工智能的ABC 新时代(2012~)
1 . 2012年,吴恩达取得了惊人的成就,向世人展示了 一 个超强的神经网络,它能够在自 主观看数千万张图片之后,识别包含有猫图像内容。这是历史上在没有人工干预下,机 器自主强化学习的里程碑式事件。
2. 人 工 智 能 (Al)、 大 数 据 (Big Data)、云 计 算 (Cloud) 的 融 合 。
第2章行业应用案例 第3章算力和大数据 人工智能技术架构
人工智能技术架构
1. 基于机器学习和深度学习的人工智能技术架构主要依托计算机技术体系实现。技术架构
自底向上依次为基础层、技术层和应用层。
2. 人工智能三大基石:算法、大数据、计算能力。机器学习算法是实现人工智能落地的引
擎,大量实时产生的数据为人工智能的落地应用奠定了基础,GPU/FPGA的发展及计算 能力的提升使得云计算平台可以快速计算、处理大量数据。
3. 计算能力所依托的硬件是运行Al算法的芯片与相对应的计算平台。芯片就是硬件的最
重要组成部分。包括两个计算过程: 1、训练;2、执行
算力简介
1. 通用AI 芯片的特点: > 可编程性
> 架构动态可变性 > 高计算效率
> 低成本低功耗 > 体积小
> 应用开发简便
2.GPU/FPGA/AI 专用芯片快速发展,GPU比 CPU 拥有更多的并行计算单元
3. 任何高性能计算和超级计算都离不开使用并行技术。
4. 并行计算是指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度
和处理能力的一种有效手段。并行计算的三大特征: > 将工作分离成离散部分,有助于同时解决;
> 随时并及时地执行多个程序指令;
> 多计算资源下解决问题的耗时要少于单个计算资源下的耗时。
5. 大数据(Big Data):
> 大数据指大小超出了常用软件工具在运行时间内可以承受的收集、管理和处理数据 能力的数据集。
> 大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规 模产生的相对概念。
> 大数据可视化技术旨在借助于图形化手段,清晰有效地创达与沟通信息。
第 4 章 算 法
无监督学习算法:
无监督学习 (Unsupervised learning) 概念:从无标记的训练数据中推断结论。其特点 为输入数据(训练数据)不存在明确的标识或结果(标签)。
无监督学习的算法主要有聚类和降维算法。
1. 聚类算法:
> 聚类算法即发现隐藏的模式或者对数据进行分组。即计算机根据我们提供的材料
“自动”学习,给定数据,寻找隐藏的结构或模式。
> 聚类算法主要解决事物分组的问题,将类似的事物放在一起。 > 常用的聚类方法有K均值聚类、系统聚类等。
2. 降维算法
① 特征降维:如果输入的数据源是一个多字段的矩阵,特征降维就是挖掘出其中的关 键字段,从而减少输入矩阵的维度。
② 主要任务:
● 确保变量间的相互独立性;
● 减少计算量; ● 去噪。
③ 降维的常用方法:主成分分析 (PCA) 和线性判断分析 (LDA)
监督学习算法
监督学习 (Supervised learning)利用一组已知类别的样本来训练模型,使其达到性能要 求。
监督学习常用算法有分类、回归和神经网络算法等。
1. 分类算法:分类算法通过对已知类别训练集的分析,从中发现分类规则,以此预测新数 据的类别。
① 分类算法任务:根据历史数据形成的类标识,预测新数据的归类情况。
② 分类算法应用:用于用户画像
③ 常用的分类算法有: > 决策树
支持向量机
> 贝叶斯
> KNN(K最近邻) > 随机森林
④ 分类算法常用评估指标有:
> 精确率:预测结果与实际结果的比例
> 召回率:预测结果中某类结果的正确覆盖率
> F1-Score: 统计量,综合评估分类模型,取值在0-1之间。
2. 线性回归算法:试图学得一个线性模型以尽可能准确地预测实值输出标记。根据历史数
据形成一个线性模型,预测新数据,比如明天的天气温度,明天的股市走势等。
神经网络
1. 神经网络概念:是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。处
理非结构化的数据,比如图像、文本、语音。
2. 神经网络的工作原理:模拟人脑思维方式的数学模型,从信息处理角度对人脑神经元网
络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。
3. 神经元:神经网络的基本单位。
模型是一个包含输入,输出与计算功能的模型。
> 输入可以类比为神经元的树突,而输出可以类比为神经元的轴突,计算则可以类比 为细胞核。
4. 所有的神经网络都由一个输入层、一个输出层和任意数量的隐藏层组成。
5. 基于神经网络技术的声图文处理领域的核心算法:
> 图像识别:图像识别的任务主要包括图像分类、目标识别,算法主要是CNN、YOLO。
> 文本处理:文本处理主要是对自然语言的处理,包括对话系统、翻译系统,算法主 要是 LSTM、Seq2Seq。
> 语音处理:语音方面的应用主要有语音识别、音频处理等应用,算法主要有LSTM、 seq2seq。
第5章智能语音技术 语音识别系统架构
1. 特征提取:就是从语音波形中提取出能反映语音特征的重要信息,去掉相对无关的信息 (如背景噪声),并把这些信息转换为一组离散的参数矢量。
2. 声学模型:是识别系统的底层模型,其目的是提供一种计算语音的特征矢量序列和每个
发音模板之间的距离的方法。
3. 语言模型 LM: 主要解决如何将识别出的单词组成有逻辑的句子,如何识别出正确的有
歧义的单词。
4. 解码搜索:解码器的作用就是将训练好的模型按照一定的规则组合起来,将新输入的语 音识别出来。
语音识别技术
1. 智能语音识别包含语音合成、语音识别、语音评测、语音增强、声纹识别、语种识别等。
2. 语音识别主要技术问题: > 语音的模糊性。
> 对自然语言的识别和理解。
> 单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发 音速度等。
> 语音信息量大,语音模式不仅对不同的说话人不同,对同一说话人也是不同的。 > 环境噪声和干扰对语音识别有严重影响,致使识别率低。
3. 智能语音的核心技术:
> 语音识别 (ASR)
> 自然语言处理(NLP) > 语音合成技术(TTS)
第 6 章 NLP 技术 自然语言处理
自然语言处理 (Natural Language Processing,NLP),是利用计算机为工具对人类特有的 书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。
自然语言理解
自然语言理解(Natural Language Understanding,NLU)是要理解给定文本的含义,希望 机器人像人一样,具备正常人的语言理解能力。
自然语言理解(NLU) 难点:
1. 语言的多样性
自然语言的组合方式非常灵活,字、词、短语、句子、段落…不同的组合可以表达出很 多的含义。
2. 语言的歧义性
不联系上下文,缺少环境的约束,语言有很大的歧义性。词法歧义性、句法歧义性、语 义歧义性、回指歧义性。
3. 语言的鲁棒性
自然语言在输入的过程中,尤其是通过语音识别获得的文本,会存在多字、少字、错字、 噪音等问题。
4. 语言的知识依赖
语言是对世界的符号化描述,语言天然连接着世界知识。
5. 语言的上下文
上下文的概念包括很多种:对话的上下文、设备的上下文、应用的上下文、用户画像 …
自然语言生成(NLG)
1. NLG 是把计算机非语言格式的数据转化为人类可以理解的自然语言,难以处理是自然语
言生成的主要问题。
2. 自然语言生成3个级别(Level):
> 简单的数据合并 > 模板化的NLG
> 高 级NLG
3.NLG 生成方式:
> 文本到语言的生成 > 数据到语言的生成
4. 自然语言生成 (NLG) 的6个步骤
① 内容确定:NLG 系统决定哪些信息包含在正在构建的文本中
② 文本结构:NLG 系统合理的组织文本的顺序
③ 句子聚合:将多个信息合并到一个句子里表达
④ 语法化:在各种信息之间加连接词,组成完整的句子
⑤ 参考表达式生成:识别出内容的领域,使用该领域的词汇构成完整的句子
⑥ 语言实现:所有的单词和短语确定后,组合起来形成结构良好的完整句子。
NLP 技术架构
1. 自然语言处理技术框架
自 然 语 言 处 理 技 术 基 本 内 涵 : 词 法 分 析 、 句 法 分 析 、 语 义 分 析 。 2.NLP 基础技术
> 词法分析:包括词形和词汇两个方面。
> 句 法 分 析 : 对 用 户 输 入 的 自 然 语 言 就 词 性 词 汇 短 语 的 分 析 。
> 语义分析:基于自然语言语义信息的一种分析方法,其不仅是词法分析和句法分析 这样语法水平上的分析。
> 语用分析:相对于语义分析又增加了对上下文、语言背景、环境等的分析。
> 语境分析:对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查 询语言的技术。
3. NLP 核心技术
> 信息抽取:从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、 结果、数字、日期、货币、专有名词等等。涉及到实体识别、时间抽取、因果关系 抽取等关键技术。
> 文本挖掘(或者文本数据挖掘):包括文本聚类、分类、信息抽取、摘要、情感分 析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基 于统计机器学习的。
> 机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入
媒介不同,可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。 > 信息检索:从相关文档集合中查找用户所需信息的过程。
◆ “存”:对信息进行收集、标引、描述、组织,进行有序的存放。
◆ “取”:按照某种查询机制从有序存放的信息集合(数据库)中找出用户所需
信息或获取其线索。
◆ 检索成功:将用户输入的检索关键词与数据库中的标引词进行对比,二者匹配 成功时检索成功。检索结果按照与提问词的关联度输出,供用户选择,用户采 用“关键词查询+选择性浏览”的交互方式获取信息。
> 问答系统:对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对 自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑 表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答 案。
> 对话系统:通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到 用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下 文相关,要具备多轮对话能力。
4. 自然语言处理难点:词义消歧是瓶颈,中文相对英文更难。
NLP 典型应用
1. 搜索引擎
> 涉及技术:词义消歧、句法分析、指代消解等。
> 功能:不单单是帮助用户找到答案,还能帮助用户找到所求,连接人与实体世界的 服务。
> 基本模式:自动化地聚合足够多的内容,对之进行解析、处理和组织,响应用户的 搜索请求找到对应结果返回。
2. 文本分类
> 概念:根据文档的内容或者属性,将大量的文档归到一个或多个类别的过程。
> 关键问题:如何构建一个分类函数或分类模型,并利用这一分类模型将未知文档映
射到给定的类别空间。 > 常见应用比如:
① 垃圾电子邮件检测
② 门户网站每天产生的信息分繁杂多,文本分类技术尤为重要。
3. 文本创作与生成
4. 机器翻译
5. 情感分析
6. 舆情监控
7. 语音识别系统
8. 聊天机器人
第7章知识图谱
知识图谱技术本质上是一种语义网络将客观的经验沉淀在巨大的网络中,其核心三元 组是实体、属性和关系。
第8章机器学习
基于机器学习的所有应用,都是基于一定的算法实现的。
机器学习分类
1. 有监督学习 (Supervised Learning):利用一组已知类别的样本来训练模型,使其达到 性能要求。对已有的样本集(已知样本类别)进行训练,得到最优模型,再利用这个模型 将新的样本映射为相应的输出结果,那么该模型便具有了对未知数据进行预测的能力。 主要用到的算法有分类算法、回归算法。
2. 无监督学习 (Unsupervised Learning): 从无标记的训练数据中推断结论。无监督学习
(Unsupervised Learning): 从无标记的训练数据中推断结论。 主要用到的算法有聚类算法和降维算法。
3. 半监督学习 (Semi-Supervised learning): 是监督学习和无监督学习相结合的一种学习 方法。也就是训练集中有一部分是有标签的,而有一部分是没有标签的。主要用于数据 量大,但是标签数据少或者标签数据的获取很难很贵的情况。
常用算法:直推和归纳算法
4. 强化学习 (Reinforcement Learning): 如果计算机的某个行为策略导致环境正的奖赏
(强化信号),那么计算机系统以后产生这个行为策略的趋势便会加强。核心是通过积 极奖励(强化信号)来强化最佳行为或行动的概念。
第9章深度学习
深度学习的发展历程
1. 1943年,心理学家麦卡洛克和数学逻辑学家提出了MP模型。MP模型作为人工神经网 络的起源,开创了人工神经网络的新时代,也奠定了神经网络模型的基础。
2.1958年感知机的发现吸引了大量科学家对人工神经网络研究的兴趣,对神经网络的发 展具有里程碑式的意义。
3. 在1969年, “Al 之父”马文 · 明斯基和 LOGO语言的创始人西蒙 ·派珀特共同编写了 一本书籍《感知器》,在书中他们证明了单层感知器无法解决线性不可分问题 (XOR 问题)。由于这个致命的缺陷以及没有及时推广感知器到多层神经网络中,在20 世纪 70年代,人工神经网络进入了第一个寒冬期,人们对神经网络的研究也停滞了将近20 年。
4. 1986年,深度学习之父杰弗里 · 辛顿提出了一种适用于多层感知器的反向传播算法一 —BP算法。BP 算法完美的解决了非线性分类问题,让人工神经网络再次的引起了人们 广泛的关注。
5. 由于八十年代计算机的硬件水平有限,如:运算能力跟不上,这就导致当神经网络的规 模增大时,再使用BP算法会出现“梯度消失”的问题。这使得 BP 算法的发展受到了 很大的限制。再加上90 年代中期,以SVM 为代表的其它浅层机器学习算法被提出,并 在分类、回归问题上均取得了很好的效果,其原理又明显不同于神经网络模型,所以人 工神经网络的发展再次进入了瓶颈期。
6.2006年,杰弗里 · 辛顿正式提出了深度学习的概念,并给出了“梯度消失”问题的解 决方案。
7. 2012 年,在著名的ImageNet 图像识别大赛中, DNN 技术在图像识别领域取得了惊人的
成绩。
8 . 2 0 1 4 年 ,Facebook 基于深度学习技术的DeepFace 项目,在人脸识别方面的准确率已经 能达到97%以上。
9.2016年,随着谷歌公司基于深度学习开发的AlphaGo 以4:1的比分战胜了国际顶尖围棋 高手李世石,深度学习的热度一时无两。
10.2017年,基于强化学习算法的AlphaGo Zero, 以100:0的比分轻而易举打败了之前的 AlphaGo。
深度学习的特点
1. 基于人工神经网络,是机器学习的一个分支,含多个隐层的多层学习模型是深度学习的
架构。
2. 对数据进行分层计算,从底层到高层进行特征抽象。
3. 主要适用于视觉、语音、行为等领域,在解决复杂特征的数据即非结构化数据有独特优
势。
深度学习
深度学习是一类模式分析方法的统称,就具体研究内容而言,主要涉及三类方法:
1. 基于卷积运算的神经网络系统,即卷积神经网络(CNN)。
2. 基于多层神经元的自编码神经网络,包括自编码(Auto encoder)以及近年来受到广泛关
注的稀疏编码两类(Sparse Coding)。
3. 以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值 的深度置信网络(DBN)。
循环神经网络 (Recurrent Neural Network,RNN)
循环神经网络是一类以序列 (sequence) 数据为输入,在序列的演进方向进行递归 (recursion) 且所有节点(循环单元)按链式连接的递归神经网络( recursive neural network)。
循环神经网络具有记忆性、参数共享并且图灵完备 (Turing completeness), 因此在对 序列的非 线性特征进行学习时具有 一 定优势。循环神经网络在自 然语言处理 (Natural Language Processing,NLP), 例如语音识别、语言建模、机器翻译等领域有应用,也被用于 各类时间序列预报。
卷积神经网络 (Convolutional Neural Networks,CNN)
卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络 (Feedforward Neural Networks), 是深度学习 (deep learning)的代表算法之 一。
卷积神经网络仿造生物的视知觉(visual perception) 机制构建,可以进行监督学习和非 监督学习,其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小 的计算量对格点化 (grid-like topology) 特征,例如像素和音频进行学习、有稳定的效果且 对数据没有额外的特征工程 ( feature engineering) 要求。
BP 算 法
1986年,深度学习之父杰弗里 · 辛顿提出了一种适用于多层感知器的反向传播算法一 —BP 算法。BP 算法在传统神经网络正向传播的基础上,增加了误差的反向传播过程。
BP算法完美的解决了非线性分类问题。
运算能力不足导致BP 算法会出现“梯度消失”。
第10章计算机视觉技术
1. 计算机视觉(Computer Vision):
使用计算机模仿人类视觉系统的科学,用计算机代替人眼对目标进行识别、跟踪和测量 等,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。
2. 计算机视觉的起源:
Lary Roberts, 现代计算机视觉领域的先驱,在1963年所写的博士论文“方块世界”, 通过算法能够在不同角度和光照条件下基于形状判断出照片中的块状物为同一个物体。这个 发现告诉我们:视觉处理流程是从一些简单的形状开始的。
计算机视觉的应用领域:
> 图文识别:提取图片中的文字;
> 人脸识别:基于人的脸部特征信息进行身份识别; > 医学影像:非侵入方式取得内部组织影像;
> 辅助驾驶:利用传感器预先让驾驶者察觉到可能发生的危险;
> 视频监控:利用视频技术探测、监视设防区域并实时显示、记录现场图像的电子系 统或网络;
> 工业视觉:工业视觉系统是用于自动检验、工件加工和装配自动化以及生产过程的 控制和监视的图像识别机器。
3. 计算机视觉的五大任务:是识别、描述、推理、检测、分割。
4. 光学字符识别 ( OCR)。
光学字符识别(OCR