HOME/nlp/

知识图谱01:知识图谱的定义

Article Outline
TOC
Collection Outline

<center><b><font color=#A52A2A size=5 >公众号:数据挖掘与机器学习笔记</font></b></center>

知识图谱(knowledge graph)是以图的形式表现客观世界中的实体(概念、人、事物)及其之间的关系的知识库。2012年,谷歌提出了知识图谱的概念,自此,知识图谱得到了广泛的关注和应用研究,现已发展成为语义搜索、智能问答、决策支持等智能服务的基础技术一。

知识图谱是以图的形式表现客观世界中的实体(概念)及其之间关系的知识库. 知识图谱的研究起源 于语义Web. 在2000年的XML大会上, Tim Berners Lee提出了语义Web的理念, 目标是为Web网页添加语义, 支持机器自动处理, 以提供诸如信息代理、搜索代理、信息过滤等语义服务. 此后, 互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网.基于关键词的传统搜索引擎技术也逐渐开始添加语义搜索功能. 2005年, 美国Metaweb公司成立, 致力于开发用于Web语义服务的开放共享的世界知识库.Metaweb基于诸如维基百科、美国证券交易委员会等的公开数据集, 提取现实世界中的实体(人或事物)及其之间的关系, 然后以图结构存储在计算机中. 2010年谷歌收购了Metaweb, 获得其语义搜索技术, 并于2012年提出知识图谱的概念.

1.知识图谱相关概念

1.1 本体与知识图谱

本体(ontology)是共享概念模型的显式说明[1], 描述概念与概念间的关系; 是语义Web的关键技术, 用于为Web网页添加语义. 语义Web理念中的本体与知识图谱, 二者密切相关. 本体描述概念及概念间的关系,是大多数知识图谱的模式层, 是知识图谱的概念模型和逻辑基础.

知识图谱与本体的相同之处和不同之处:

同:二者都通过定义元数据以支持语义服务;都可以使用RDFS、OWL等描述语言来定义;二者涉及到的关键技术也相似:实体抽取、关系抽取、语义解析、知识存储、融合方法等。

异:知识图谱更灵活,支持通过添加自定义的标签划分事物的类别;本体侧重概念模型的说明, 能对知识表示进行概括性、抽象性的描述, 强调的是概念以及概念之间的关系. 知识图谱更侧重描述实体关系, 在实体层面对本体进行大量的丰富与扩充.

可以认为, 本体是知识图谱的抽象表达, 描述知识图谱的上层模式; 知识图谱是本体的实例化, 是基于本体的知识库。

1.2 知识地图

知识地图(knowledge map)将特定组织内的知识索引通过“地图”的形式串联在一起, 揭示相关知识资源的类型、特征以及相互关系[4,5],知识地图的主要功能在于实现知识的快速检索、共享和再重用, 充分有效地利用知识资源[6]. 知识地图是关于知识的来源的知识 [7]. 知识并非存储在知识地图中, 而是存储在知识地图所指向的知识源中. 知识地图指向的知识源包含数据库、文件以及拥有丰富隐性知识的专家或员工.

1.3 科学知识图谱

科学知识图谱(mapping knowledge domain)是用来显示知识演化进程和知识结构的图形化与序列化的知识谱系[8].

image-20201005203330219

2. 知识图谱的构成

知识图谱由数据层(data layer)和模式层(schema layer)两部分构成

2.1 模式层

模式层是知识图谱的概念模型和逻辑基础, 对数据层进行规范约束. 多采用本体作为知识图谱的模式层, 借助本体定义的规则和公理约束知识图谱的数据层. 也可将知识图谱视为实例化了的本体, 知识图谱的数据层是本体的实例. 如果不需支持推理, 则知识图谱(大多是自底向上构建的)可以只有数据层而没有模式层. 在知识图谱的模式层, 节点表示本体概念, 边表示概念间的关系.

2.2 数据层

在数据层, 事实以“实体-关系-实体”或“实体-属性-属性值”的三元组存储, 形成一个图状知识库. 其中, 实体是知识图谱的基本元素, 指具体的人名、组织机构名、地名、日期、时间等. 关系是两个实体之间的语义关系, 是模式层所定义关系的实例. 属性是对实体的 说明, 是实体与属性值之间的映射关系. 属性可视为实体与属性值之间的hasValue关系, 从而也转化为以“实体-关系-实体”的三元组存储. 在知识图谱的数据层, 节点表示实体, 边表示实体间关系或实体的属性.

3. 知识图谱的分类

3.1 构建过程是否依赖自动抽取技术

  • 早期的本体,如WordNet、CYC、HowNet等

    大多由专业人士手工构建, 规模较小; 但其知识质量高, 能够确保准确性与完整性

  • 从开放的互联网信息中自动抽取实体与关系构建的, 如YAGO、DBPedia等

    规模大; 但因其数据源的复杂多样及自动抽取算法的不完全准确, 可能会有大量不完整信息、噪声等.

3.2 覆盖范围

  • 通用知识图谱

    通用知识图谱(generic knowledge graph)描述全面的常识性的知识, 主要应用于语义搜索, 对知识的准确度要求不高, 如百科类的DBpedia、zhishi.me和语言学类 的WordNet、大词林等. 通用知识图谱强调知识的广度, 大多采用自底向上的方式构建, 侧重实体层的扩充,因此也导致其大部分较难构建规范的本体层。

  • 行业知识图谱

    面向特定领域, 能够进行知识推理, 实现辅助分析及决策支持等功能, 如 GeoNames[22]、中医医案知识图谱等. 行业知识图谱对专业性与准确度的要求高, 这也要求其必须有严格的本体层模式, 通常采用自底向上与自顶向下结合的方式进行构建.

image-20201005204644925

image-20201005204709859

image-20201005204746716

image-20201005204810735

上述内容主要来源于文献[1]

参考:

[1]黄恒琪,于娟,廖晓,席运江.知识图谱研究综述.计算机系统应用,2019,28(6):1–12. http://www.c-s-a.org.cn/1003-3254/6915.html

在这里插入图片描述