日常生活中,我们经常遇到以下两种信息展现方式: 二者展示的信息量是差不多的,但右边这种看起来更加直观。而且,随着文本篇幅的增长,这种优势会体现得更加明显。和人一样,机器也更加擅长利用右图所示的数据。但矛盾之处在于,互联网等数据平台保存的大多是左图所示的数据。要把左图转换成右图,机器需要经历一个「阅读理解」的过程。这个过程如何完成?这就要提到我们今天的主题——学问图谱。学问图谱可以做什么?学问图谱的概念于 2012 年由 Google 提出,当时主要被用来提高其搜寻引擎质量,改善用户搜寻体验。随着大数据时代的到来和人工智能技能的进步,学问图谱的运用边界被逐渐拓宽,越来越多的企业开始将学问图谱技能融入其已经成型的数据分析业务,有的甚至使用学问图谱作为其数据的基础组织与保存形式,成为其数据中台的核心基建。 与谷歌类似,微软将学问图谱技能用于旗下必应(Bing)搜寻引擎,优化搜寻结果质量和交互式搜寻体验;LinkedIn 与 Facebook 利用学问图谱挖掘其平台上人、事、资讯等之间的相互联系,使得用户更容易发现感兴趣的内容、找到志同道合的朋友;eBay、亚马逊等电商平台使用学问图谱为用户和产品建立联系,执行更精准的产品推荐;IBM 则专注于企业服务,其 IBM Watson Discovery 产品能够帮助用户根据自身的特殊需求快速建立自己的学问图谱框架。虽然学问图谱的概念 2012 年才被提出,但其背后的思想本质上是上个世纪的语义网络(Semantic Network)学问表达形式,即一个由节点(Point)和边(Edge)组成的有向图结构学问库。其中,图的节点代表现实世界中存在的“实体”,图的边则代表实体之间的“联系”。
图 1:传统学问库与学问图谱示意图 [1]
与传统的数据保存和计算方式相比,学问图谱技能更加侧重于对非结构化异构数据的收集和处理,更擅长对于联系的表达和计算,可以处理复杂多样的关联分析、挖掘到更多隐藏学问。与此同时,学问图谱的数据结构与人工智能领域许多技能工作所鉴于的数据一脉相承(异质结构多关联的大数据),可以为后续的机器进修和推理工作提供强有力的支持,帮助企业在智能搜寻、智能问答、智能推荐、以及大数据分析这几个方面提升性能。
智能搜寻:传统的搜寻引擎依靠网页之间的链接和权重举行搜寻排序,而学问图谱提供了实体的分类、属性和联系的描述,从而可以直接对事物举行更精准的语义搜寻。
智能问答:鉴于学问图谱的智能问答是目前产业界问答系统的主要技能路线之一,即对于给定的自然语言问题,利用学问图谱技能举行语义的解析、查询、推理以得出答案。该技能常见于智能手机或音箱载体上的智能对话机器人,如 Siri、Google Assistant、Amazon Alexa、小爱同学、天猫精灵,以及微软的小冰、小娜等,这些智能问答 agent 的背后都有相关企业各自积累的学问图谱作为问答系统的支撑。
智能推荐:鉴于学问图谱的推荐能更好将用户与被推荐项目之间的各种相互联系考虑进来,可以增强数据的语义信息、挖掘隐藏的关联信息,进一步提高推荐的准确度。
大数据分析:鉴于学问图谱中实体的关联信息和推理,我们能挖掘出传统数据分析较难得到的隐含信息,该优势在存在大量异构信息的数据集中更为显著。鉴于学问图谱的大数据关联分析在金融风控、反欺诈乃至安防等运用场景中都有很好的效果。
近年来,学问图谱的诸多优势和运用前景使得面向特定领域的学问图谱建立在行业运用中得到推广,产生了如医疗学问图谱、金融学问图谱、电商图谱等不同的垂直行业的学问图谱形态。
图 2:行业学问图谱运用一览 [2]
如何建立学问图谱?一般来说,建立一个学问图谱通常会经历学问夺取、学问表示与建模、学问融合、学问保存,以及建立完成后的学问查询和推理几大要素:
学问夺取:从不同来源、不同结构的数据中抽取学问(实体、联系以及属性等信息),这是学问图谱建立的核心与前提条件。
学问表示与建模:为学问制定统一的数据架构(data schema),将夺取到的学问依照统一的数据结构保存并形成学问库,这是学问图谱正式建立的第一步,影响着后续的学问融合、保存以及查询推理可以使用的方式与效果。
学问融合:将不同源的学问以统一的框架规范举行验证、消歧、加工等异构数据整合工作,这是学问图谱更新与合并的必经之路,为不同学问图谱间的交互融合提供可能性。
学问保存:依据数据量的大小、数据特征以及运用需求的不同,选取合适的保存模式,将夺取到的数据保存起来,形成学问图谱。
学问查询与推理:鉴于建立完成的学问图谱举行查询,或者进一步推理挖掘出隐藏学问来丰富、扩展学问图谱,这是学问图谱建立的最终目的,与学问夺取共同影响着学问图谱的运用场景和范围。
图 3:学问图谱建立的要素与示例流程
在执行正式的学问夺取步骤之前,通常会首先确认学问的建模表示方式,主要的方式有两种:
先为学问图谱设计数据模式(data schema),再依据设计好的数据模式举行有针对性的数据抽取,这是自顶向下(top-down)的数据建模方式,一般适用于数据相对集中、学问结构相对确定的垂直领域行业学问图谱;
先举行数据的收集和整理,再根据数据内容总结、归纳其特点,提炼框架,逐步形成确定的数据模式,这是自底向上(bottom-up)的数据建模方式,一般适用于与涉及海量数据、内容繁杂且架构不清晰的公共领域通用学问图谱。
图 4:学问图谱数据建模方式 [3]
学问图谱建立的核心技能、局限与发展方向学问夺取是建立学问图谱的核心与前提条件,也是主动建立学问图谱最关键的影响要素和重点研究领域。除了纯人工的学问输入之外,目前的学问夺取主要是指针对结构化数据(如联系型数据库)、半结构化数据(如词典、百科类标记清晰的网页数据)、或者非结构化数据(如声音、图像和文字语料数据)这三类不同结构的学问举行的主动或半主动抽取。对于结构和半结构化的数据,通常只需要简单的预处理和映射即可以作为后续数据分析系统的输入,相关技能已经比较成熟。而非结构化数据通常需要借助自然语言处理、信息抽取、乃至深度进修的技能来帮助提炼有效信息,这也是目前学问抽取技能的主要难点和研究方向,包含实体抽取、联系抽取和事务抽取三个重要的子技能工作。
实体抽取:主要是指命名实体识别(Named Entity Recognition, NER)工作,即从纯文本中主动识别并提出特定类别的命名实体,如人物、组织、地点、时间、金额等。实体抽取是学问抽取中最基础的步骤,早期主要是通过人工编写规则的方式举行抽取,但规则不易总结、成本高且移植性差,目前主要是作为补充方式使用。在这之后,实体抽取多采用鉴于特征的统计方式,使用如隐马尔可夫(HMM)和条件随机场(CRF)等模型,将实体抽取当做序列标注问题举行预测标注。而近年来,随着深度进修的发展,目前较流行的方式是将统计方式与深度神经网络相结合,使用如长短期记忆网络(LSTM)主动提炼特征,再结合 CRF 模型标注提炼实体,主动化程度更高,适用范围更广。
联系抽取:指从文本中识别抽取实体之间的联系,抽取结果常使用 SPO 结构(即主谓宾结构)的三元组来表示。与实体抽取类似,早期主要使用鉴于模板的方式(触发词模板、依存句法分析模板等),近年来开始发展出半主动的鉴于监督进修的方式(CNN、RNN 等)和纯主动的鉴于弱监督进修的方式(远程监督、Boostrapping 等)。目前在联系抽取工作上取得最佳表现的模型大多融入了注意力机制,如 Attention CNNs 模型和 Attention BLSTM 模型等。
事务抽取:指识别文本中目标事务的信息,并以结构化的形式呈现。例如从投融资新闻中定位融资公司、融资金额、投资企业等信息;或是从恐怖袭击事务的新闻报道中识别提炼出袭击发生的时间、地点和受害人信息等。事务抽取同时涉及到实体和联系抽取的相关技能。从宏观的事务抽取思路上来看,事务抽取的方式可分为流水线抽取和联合抽取两大类方式。流水线抽取的思路是将事务抽取工作进一步分解为事务识别、元素抽取、属性分类等一条流水线上的多个子工作,分别使用相应的机器进修分类器实现,这是目前事务抽取的主流方式。联合抽取则主要是采用鉴于概率图的模型举行联合建模,或鉴于深度进修的方式(如鉴于注意力机制的序列标注模型),将事务的多个元素作为一个整体共同识别并提炼。
移动互联网、云计算、以及物联网等技能的快速发展开启了一个大规模生产、分析和运用数据的大数据时代。然而,互联网上只有少数的结构或半结构化的数据学问可方便直接地被机器解析。对于非结构化数据的学问抽取尚达不到完全取代人工的准确度要求,而依靠人工编辑的学问图谱建立有着高成本、低效率的问题。根据德国 Mannheim 大学的研究者估算 [5],手动创建一个三元组(即一条记录)的成本在 2 到 6 美元之间。那么,使用纯人工的方式建立一个大型学问图谱的总成本就会在数百万到数十亿美元之间。相比较而言,主动创建学问图谱的成本可以降低 15 到 250 倍左右,即一个三元组需要 1 美分到 15 美分左右的成本。因此,如何运用主动化学问抽取技能,在广泛的自由文本信息中主动且准确地提炼高质量、结构化学问,将成为学问图谱建立的重要突破点。
图 5:每个三元组成本与错误率之间的联系示意 [5]
前沿的学问图谱主动建立技能学问夺取是学问图谱主动建立的核心,而非结构化学问又是学问夺取里面最需要攻克的技能难点。近年来,深度进修和相关自然语言处理技能的迅猛发展使得非结构化数据的主动学问抽取少人化、乃至无人化成为了可能。与传统方式相比,深度进修方式减少了对外部工具的依赖,能建立端到端的系统直接举行实体识别、联系抽取等工作,简单高效。在深度进修的基础上,艾伦人工智能实验室和微软的研究人员结合自然语言处理领域较为成功的预训练语言模型,提出了主动学问图谱建立模型 COMET(COMmonsEnse Transformers)[8]。该模型可以根据已有常识库中的自然语言内容主动生成丰富多样的常识描述,在 Atomic 和 ConcepNet 两个经典常识图谱上都取得了接近人类表现的高精度,证明了此类方式在常识学问图谱主动建立和补全方面替代传统方式的可行性。
图 6:COMET 从一个已有学问图谱中进修(实线),并生成新的节点和边(虚线) [8]
另一方面,IJCAI 2020 上一篇来自明略科学院学问工程实验室的论文另辟蹊径,从传统的鉴于文本的学问图谱生成进一步扩展到了鉴于语音生成学问图谱。其 HAO-Graph 系统 [10] 设计并实现了实时的语音图谱生成架构,并且能够根据演讲者的主题变化在不同的图谱之间切换。
图 7:结合摘要从一长段语音演讲中提炼出的学问图谱示例 [10]
HAO-Graph 鉴于明略科技的 HAO 智能技能,是已知的首个公开发布的从语音中建立学问图谱的系统,实现了中文文本和语音学问图谱的实时生成和可视化。与此同时,明略科技在最近的 WAIC 2020 上还进一步开放了其 Text2KG API 接口,帮助相关从业人员举行学问图谱底层的数据收集、标注、抽取、以及关联等相关工作,避免了大量的重复工作,节省开发者的时间。在深度进修发展进入瓶颈的时期,结合学问成为了下一步人工智能技能突破的关键,而学问图谱必然是核心驱动力之一。我们期待这一技能在未来有更大、更广的运用。参考[1] A Survey on Knowledge Graphs: Representation, Acquisition and Applications[2] 学问图谱发展报告(2018)[3] 学问图谱标准化白皮书(2019)[4] 人工智能之学问图谱(2019)[5] How much is a Triple? [6] 67 亿美金搞个图,创建学问图谱的成本有多高你知道吗?[7] A Survey of Deep Learning Methods for Relation Extraction[8] COMET : Commonsense Transformers for Automatic Knowledge Graph Construction[9] AI2 等提出主动学问图谱建立模型 COMET,接近人类表现[10] A Speech-to-Knowledge-Graph Construction System[11] ICDM 2019 Knowledge Graph Contest: Team UWA[12] 明略科技 HAO 图谱 Open API:开放企业级学问图谱建立能力[13] Domain-Specific Knowledge Graph Construction[14] Knowledge Graphs[15] Enterprise-scale knowledge graphs