云计算
云计算的市场规模增长趋于稳定,目前主要以IaaS、PaaS、SaaS为代表的全球公有云为主,根据相关机构预测,市场规模已经达到2000亿美元,平均增长幅度达到29%。知识图谱最初是由谷歌提出用来优化搜索引擎的技术,目前已经应用到了很多热门领域中,例如语音助手、聊天机器人、智能问答等。其可以组织现实世界中的知识,描述客观概念、实体、关系。这种基于符号语义的计算模型,一方面可以促成人和机器的有效沟通,另一方面可以为深度学习模型提供先验知识,将机器学习结果转化为可复用的符号知识累积起来。
云计算作为知识图谱的基础,能够更好的帮助知识图谱完成图谱的构建,数据的采集、存储、计算等。例如边缘计算可以使得知识图谱能够采集到更加完备的数据,云上的GPU可以帮助知识图谱更快的进行分析计算,云中的分布式存储使得数据存储上限近乎没有上限。同时,Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(Data Web),云计算中的各种应用对知识图谱的依赖也越来越深,尤其以改进搜索质量、在复杂关系中寻找特殊关联关系等应用中尤为突出。由此可以看出云计算和知识图谱相辅相成,互相促进,知识图谱从云计算的各个基础技术中获得了极大的便利性,包括但不限于分布式存储,大规模并行计算,边缘计算等。同时知识图谱也给云计算中的应用带来了极大的帮助,例如安全方面,传统的方式不利于发现某些特殊的安全漏洞,利用知识图谱擅长的关系计算分析可以更为容易的发现安全隐患。
大数据
大数据时代的到来,为人工智能的飞速发展带来了前所未有的数据红利其中以知识图谱为代表的知识工程以及以深度学习为代表的机器学习等相关领域均取得了长足的进步。然而,随着大数据红利逐渐消失殆尽,深度学习的局限性日益凸显。相反,基于大数据种类和来源多样化、数据增长速度快、处理速度快、数据真实等特点,知识工程摆脱了传统人工构建、数据规模局限的束缚,迎来了发展新机遇,特别在知识图谱技术的推动下,对机器友好的知识图谱重要性不断攀升。得益于海量数据规模和强大数据计算能力,大数据为知识获取获取提供了数据支撑,辅助了知识存储、知识表示、知识理解地不断优化,有利于大规模高质量知识库的构建。反之,作为实现机器认知智能的基础,知识图谱的关联分析、可解释性推理为大数据智能搜索、推荐、分析预测提供了可靠的先验支撑。
传统知识工程与知识图谱的差异体现在数据容量规模上。传统知识工程在上世纪七八十年代后逐渐销声匿迹其的根本原因由于传统知识库主要依靠人工构建、成本高昂、规模有限。而在大数据时代,依赖海量数据规模以及大数据强大计算能力,利用自动化构建、众包等形式可实现大规模知识库的构建。而且,大数据已经有了很多成熟的分析技术,各个行业的数据量规模也达到了十亿级,甚至千亿级,知识图谱可以利用这些技术和数据,其分析计算能力将远远超越专家系统。以知识规模量变带动知识效用的质变,大数据为良好的知识表示提供基础。
人工智能的出现极大提高了数据可利用的广度和深度。随着互联网时代社交媒体的兴起,非结构化数据体量激增,如何对其进行有效处理也一直是大数据价值挖掘的重点和难点。知识图谱根据数据不同的结构化形式采用不用方法将数据结构转化为机器能够有效识别的形式,这是使机器具有理解和解释能力的前提。友好的数据结构有助于提升大数据的存储、分析、数据处理能力辅助大数据应用。此外,知识图谱可充分利用大数据多源特性对已有知识库进行交叉验证以保证知识库的质量。高质量数据也极大减少了大数据处理成本,提升了数据使用价值,有利于数据的深入挖掘。
语义关系足够丰富可实现对知识的精细分析和精准推理,以满足大数据对智能服务的实际需求。大数据价值的分析、挖掘与创造的目的就是发现知识关联的模式,并对关联化的知识进行有效组织管理,将其运用到实践中以产生更多的价值。知识图谱通过知识表示、知识融合将不同种类的信息连接在一起形成巨大关系网,并以关系的视角推理出数据间的隐含知识。知识图谱用关系建立起数据间的联系,实现了具有可解释性的关联分析,这为大数据价值挖掘提供了可靠的先验知识,节约了大数据分析成本,符号化的知识表示有助充分利用知识图谱中的已有知识,也提高了大数据分析效率。
物联网
从物联网概念兴起发展至今,受基础设施建设、基础性行业转型和消费升级三大周期性发展动能的驱动,处于不同发展水平的领域和行业成波次地动态推进物联网的发展。当前,基础性、规模化行业需求凸显,一方面,全球制造业正面临严峻发展形势,主要国家纷纷量身定制国家制造业新战略,以物联网为代表的新一代信息技术成为重建工业基础性行业竞争优势的主要推动力量,物联网持续创新并与工业融合,推动传统产品、设备、流程、服务向数字化、网络化、智能化发展,加速重构产业发展新体系。另一方面,市场化的内在增长机制推动物联网行业逐步向规模化消费市场聚焦。受规模联网设备数量、高附加值、商业模式清晰等因素推动,车联网、社会公共事业、智能家居等成为当前物联网发展的热点行业。
物联网通过前面所述的各种技术,汇集了无论是规模上还是质量上都前所未有的数据集,而知识图谱的第一环就是数据信息的抽取,数据的规模和质量直接影响到知识图谱的构建,而经过知识图谱的计算分析,能为物联网提供更好的决策,使得物联网中的数据采集部分更加高效。
物联网的传感器源源不断产生的大量数据,同时也为决策数据的下达提供了高速通路,当基于知识图谱应用生成决策数据时,能够确保快速准确下达至执行设备,从而保证了知识图谱与应用场景间的融合交互。例如,在智能家居领域中,由于设备的多样性和规则的个性化容易导致设备间控制冲突,知识图谱能够为动作器功能的自动分类与作用效果判断提供支撑,进而避免相关问题的出现。
针对知识图谱在医疗、金融、工业等领域的平台建设而言,物联网是平台数据层的重要组成部分,通过可穿戴设备、手机APP、工业生产线等不同设备采集数据,为平台提供除静态数据录入与应用以外的动态数据支持,进而支撑平台的上层应用。同时,为已建设知识图谱的验证、更新与维护提供数据依据,提升平台的自我完善能力与适应能力。
信息安全
近年来,网络空间安全形势快速变化,国家级博弈更为凸出、攻防对抗更为激烈、数字经济安全保障要求不断提升,网络安全形势演变对网络安全产业发展产生深刻影响。众所周知,知识图谱的核心就是知识提取、数据整合、知识表示,这些都涉及到了数据信息,如前所述,现今信息的安全受到了越来越广泛的关注,特别是个人和公司的隐私数据,一旦遭到泄露,将会导致严重的后果。在安全数据越来越多的大环境下,根据这些数据构建知识图谱,用来发现更多的安全隐患和攻击链条势在必行。
网络中的安全事件与攻击行为正从零散的、炫耀式的,变为有组织、有规模的行动,一般以窃取企业核心数据、破坏机构系统、个人隐私信息、金融欺诈、骗取勒索个人财产为目的。这些事件与攻击行为有几个特点:攻击链长,数据稀疏且流量庞大,病毒木马家族化,隐蔽性强,具有产业链。在上述特点中,相同的是事件、攻击节点之间的关联性,如描述APT安全事件的三元组(URL、MD5、IP地址)。数据关联正是知识图谱擅长解决的问题。通过人工定义或自动发现关联关系,可以构建出基于安全行为和流量分析的知识图谱,从流量和用户行为中识别出隐藏的信息,如IP地址、文件哈希值、URL、访问行为、流量特征、设备日志等信息之间的复杂关系,基于统计模型或深度学习模型推理攻击行为,从而达到事中拦截攻击,事后溯源攻击的效果。
机器学习
机器学习被广泛应用在知识获取、知识融合、知识建模、知识计算等知识图谱构建与应用环节。其中,知识计算目前主要分为单步推理和多步推理。在单步推理和多步推理中主要包括4个研究方向:基于传统的规则推理、基于分布式表示推理、基于神经网络的推理、基于上述方法的混合推理。常见的推理算法有单层神经网络SLM、矩阵分解模型RESCAL、TransE等。在知识表示方面,表示学习旨在将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空间中,2个对象距离越近则说明其语义相似度越高。顾名思义,知识表示学习是面向知识图谱中的实体和关系进行表示学习。该方向最近取得了重要进展,可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升。在基于知识图谱的应用方面,在视觉问答中大多数方法将CNN和RNN结合起来,通过CNN提取给定图像中的概念特征,然后使用RNN/LSTM与知识库中表示类似概念的节点相关联,最终得到直接从输入图像和问题到答案的学习映射。近年来,以深度学习为代表的表示学习技术异军突起,在语音识别、图像分析和自然语言处理领域获得广泛关注。
在知识融合方面,ERNIE模型在BERT基础上,将外部知识引入大规模预训练语言模型中,有望增强预训练模型的鲁棒性,提高在知识驱动任务上的性能。在知识建模方面,基于先验知识的模型有助于解决知识图谱在实体和实体关系构建的两大瓶颈,自动补充知识获取阶段未成功提取的知识,智能补全未识别的实体间关系。在知识计算方面,缺失连接的推理、知识图谱的自生长自适应、推理的可解释性等问题的解决都依赖于机器学习相关算法模型的进一步发展。
自然语言处理
自然语言处理是指利用计算机对人类日常使用的自然语言进行处理,通过对字、词、句、篇章的输入、识别、分析、理解、生成等操作,实现人机之间的信息交流,是一门涵盖了计算科学、人工智能和计算机语言学等多领域的交叉学科。自动化、半自动化的知识图谱构建以及知识融合和挖掘过程中均离不开自然语言处理技术的支撑,同时自然语言处理的各个任务也离不开基础语料库和知识库的建设,如机器翻译、自动问答、会话系统、实体抽取等。随着知识图谱在自然语言处理的各个领域中的大获成功,现在自然语言处理有明显和知识图谱结合的趋势。特别是在特定领域的知识模型中,这种趋势就更明显,因为这些模型往往要关联很多领域的知识,而这种知识的整合和表示,很适合用知识图谱来解决。
与传统的语义网络相比,数据爆炸背景下的知识谱图构建需要从结构化、非结构化和半结构化数据源中获取实体、属性以及关系,这就需要利用词性标注、命名实体识别、关系抽取等技术从各类数据源中提取特定类型的信息,通过信息归并、冗余消除和冲突消解等手段将非结构化文本转换为结构化信息,再通过信息集成技术中实体链接和共指消解实现知识融合。在知识图谱应用中,知识图谱的典型应用智能问答系统中需要利用自然语言处理的句法语义分析技术以及信息检索、文本生成技术,正确理解用户提出的问题,将从中抽取关键信息与知识图谱进行检索匹配,最终将获取的答案反馈给用户。
自然语言存在歧义性、多样性,语义理解模糊且依赖上下文。机器理解自然语言困难的根本原因在于缺乏人的认知形成的背景知识。相对于传统知识表示形式,知识图谱具有覆盖率高、语义关系多样、结构友好以及质量较高等优势,机器在理解自然语言的同时需要这样的知识背景。因此,利用知识图谱,将图谱中的语义信息作为输入,使得知识图谱的已有的知识成为模型的输入,进而降低模型对大样本的依赖;利用知识图谱结合深度模型,基于从图谱中提取的相关已有知识,在训练样本减少的同时保证了模型预测的准确度,另一方面知识作为优化约束,指导模型训练可以更好的提升自然语言处理技术的模型效果。
知识图谱的构建已由早期的专家手工和依靠群体智能建设,发展到利用自然语言处理技术自动化的构建的时代。随着大数据时代的到来,传统手工的方式对于知识图谱的构建可以说基本上是无法完成的任务,必须依赖自然语言处理的技术在海量数据中自动化的抽取知识,有监督的构建知识体系以及可持续的补充完善知识图谱。目前,通用知识图谱的规模越来越大,很多都是包含亿级的实体以及百千亿级的各类关系。还有一些针对不同的领域的知识图谱,如医疗知识图谱、金融知识图谱、司法知识图谱和教育知识图谱等,节点与关系的规模也都是在亿级以上。这些知识图谱的构建都受益于自然语言技术的发展。
知识图谱是一个网状的知识库,如今有着非常广泛的应用,这不仅依赖于现阶段知识图谱质量的提升和人们对知识的重视,自然语言处理技术的发展也对知识图谱智能化的应用起到了推动作用。自然语言处理主要解决自然语言和计算机的交互问题,包括分析、理解、变化、检索、生成等方面,与图谱应用的很多环节都息息相关。搜索引擎是知识图谱常见的应用之一,基于自然语言处理中的词法分析、句法分析、相似度匹配、信息检索等技术,将提取用户检索的关键字和知识图谱中的数据进行转化比对,按照相关度为用户呈现检索结果。在智能问答系统中,通过语音识别技术、语义理解、智能交互等技术理解用户需求,基于知识图谱为用户提供分析决策。
计算机视觉
随着计算机视觉技术日益成熟,在政策、资本、技术等方面都受到良好的待遇,应用场景不断拓展,自动驾驶、安防、医疗、政务等领域开始全面应用计算机视觉技术。随着消费者在安全和效率需求也不断提升,计算机视觉技术在各行业应用能有效满足人们需求,市场发展空间巨大。根据Forrester统计,全球在计算机视觉领域的投资持续增长,截止到2018年11月末投资较2017年增长113%,在过去的五年中复合增长率高达135%,未来五年内全球计算机视觉软件及服务市场规模将超 过200亿美金。
知识图谱对于计算机视觉作用主要是弥补深度学习模型对现实世界的大量背景知识的忽略。一方面,知识图谱可以作为深度学习的输入并优化模型。通常首先完成知识图谱中的语义信息表示学习,然后将离散化知识图谱组成元素(节点与边)表达为连续化的向量,从而使得知识图谱的先验知识能够成为深度学习的输入,从而将符号推理引入以改进计算机视觉中深度学习模型的性能。此类问题的关键在于如何获取各类知识的高质量连续化表示,避免知识图谱的表示学习产生语义损失。
另一方面将知识作为计算机视觉算法中目标优化的约束,可以实现视觉算法模型与背景知识更好的一致性。例如将知识图谱中知识表达为优化目标的后验正则项,通过量化成对概念之间语义一致性与目标检测模型集成实现知识感知检测,使用链接预测方法集成语义模型提高视觉关系检测的结果。这方面后续将重点探索或构建专门针对视觉任务的知识图并融合在深度学习模型中,降低模型对于大规模标注样本的依赖,实现超越对封闭数据集的有监督的学习,并具备不断扩展知识的能力。