HOME/nlp/

1.信息抽取

Article Outline
TOC
Collection Outline

<center><b><font color=#A52A2A size=5 >公众号:数据挖掘与机器学习笔记</font></b></center>

image-20201019223023599

1.信息抽取

信息抽取是知识图谱构建的第一步,其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。知识抽取是一种自动化地从结构化、半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括:实体抽取、关系抽取和属性抽取。

1.1 实体抽取

实体抽取,主要是命名实体识别,指从文本数据集中自动识别出命名实体。实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,因此是信息抽取中最为基础和关键的部分。实体抽取的目的是抽取文本中的人名、地名、机构名、专有名词等,实际生产中可以根据自己业务需要定制化抽取所需实体。

<font color='red'>实体抽取通常包括两部分</font>:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。

根据领域划分,实体抽取主要有面向单一领域(如特定行业或特定业务)的实体抽取,随着命名实体技术的发展,开放域的信息抽取问题得到越来越多的关注。目前的命名实体识别方法主要包括基于规则的实体抽取方法、基于统计学习方法的基于实体抽取方法和基于深度学习的实体抽取方法,或者将三种方法进行组合使用。

当前,中文命名实体识别主要存在以下难点:

  • (1)汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界,即分词;
  • (2)汉语分词和命名实体识别互相影响;
  • (3)除了英语中定义的实体,外国人名译名和地名译名是存在于汉语中的两类特殊实体类型;
  • (4)现代汉语文本,尤其是网络汉语文本,常出现中英文交替使用,这时汉语命名实体识别的任务还包括识别其中的英文命名实体
  • (5)不同的命名实体具有不同的内部特征,不可能用一个统一的模型来刻画所有的实体内部特征。
  • (6)没有统一、科学、完整的命名实体分类体系

1.2 关系抽取

文本语料经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,才能够形成网状的知识结构。

目前的主流关系抽取技术有:

  1. 有监督的学习方法将关系抽取任务当做分类问题。根据训练数据设计有效的特征,从而学习各类分类模型,然后使用训练好的分类器预测关系。该方法的问题在于需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。

  2. 半监督的学习方法:主要采用 BootStrapping 进行关系抽取,对于要抽取的关系,该方法首先手工设定若干种子实例,然后迭代地从数据中抽取关系对应的关系模板和更多的实例。

  3. 无监督的学习方法:假设拥有相同语义关系的实体对拥有相似的上下文信息。因此可以利用每个实体对对应上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。

    更详细的关系抽取综述可以参考这篇文章

1.3 属性抽取

属性抽取的目标是从不同信息源中采集特定实体的属性信息,例如公众人物的生日、国籍、教育背景等。属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的完整勾画。

由于可以将实体的属性视为实体与属性值之间的一种名词性关系,因此也可以将属性抽取问题视为关系抽取问题。百科类网站提供的半结构化数据是当前实体属性抽取研究的主要数据来源。但是大量的实体属性数据隐藏在非结构化数据中。如何从海量非结构化数据中抽取实体属性是值得关注的理论研究问题。一种解决方案是基于百科类网站的半结构化数据,通过自动自动抽取生成的训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取。

另一种方案是采用数据挖掘的方法直接从文本挖掘实体属性与属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位,这种方法的基本假设是属性名和属性值之间有位置上的关联关系。

2.知识融合

信息抽取的结果可能包含大量的冗余和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,因此有必要对其进行清理和整合。知识融合主要包括两部分:实体链接和知识合并

2.1 实体链接

实体链接是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。

实体链接的基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。

实体链接的一般流程:

1)从文本中通过实体抽取得到实体指称项

2)进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义

3)在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体

  • 实体消歧

    实体消歧是专门用于解决同名实体产生歧义问题的技术。在实际语言环境中,经常会遇到某个实体指称项对应于多个命名实体对象的问题。通过实体消歧,就可以根据当前的语境,准确建立实体链接。

  • 共指消解

    共指消解技术主要用于解决多个指称项对应于同一实体对象的问题。

2.2 知识合并

在构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入。

  • 合并外部知识库

    将外部知识库融合到本地知识库需要处理2个层面的问题。1)数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要问题是如何避免实例以及关系的冲突问题,造成不必要的冗余;2)通过模式层的融合,将新得到的本体融入已有的本体库中。

  • 合并关系数据库

3.知识加工

通过信息抽取,可以从原始语料中提取出实体、关系与属性等知识要素。再经过知识融合,可以消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。然而,事实不等于知识,要想获得结构化、网络化的知识体系,还需要经历知识加工的过程。知识加工包括三方面内容:本体构建、知识推理和质量评估。

3.1 本体构建

本体是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义。本体的最大特点在于它是共享的,本体中反映的知识是一种明确定义的共识。本体是树状结构,相邻层次的节点之间具有严格的“IsA”关系,这种单纯的关系有助于知识推理,但却不利于表达概念的多样性。在知识图谱中,本体位于模式层,用于描述概念层次体系是知识库中知识的概念模板。

本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。除此之外,还可以用跨语言知识链接的方法来构建本体库。

3.2 知识推理

知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络。知识推理是知识图谱构建的重要手段和关键环节,通过知识推理,能够从现有知识发现新的知识。知识推理并不局限于实体间的关系,也可以是实体的属性值、本体的概念层次关系等。

知识推理方法可以分为2大类:基于逻辑的推理和基于图的推理。基于逻辑的推理主要包括一阶谓词逻辑、描述逻辑以及基于规则的推理。基于图的推理方法主要基于神经网络模型或Path Ranking算法。

3.3 质量评估

受现有技术水平的限制,采用开放域信息抽取技术得到的知识元素有可能存在错误,经过知识推理得到的知识的质量同样也是没有保障的,因此在将其加入知识库之前,需要有一个质量评估的过程;此外,随着开放关联数据项目的推进,各子项目所产生的知识库产品间的质量差异也在增大,数据间的冲突日益增多,如何对其质量进行评估,对于全局知识图谱的构建起着重要的作用。引入质量评估可以对知识的可信度进行量化,通过舍弃置信度较低的知识,可以保障知识库的质量。

4.知识更新

知识图谱的内容也需要与时俱进,其构建过程是一个不断迭代更新的过程。从逻辑上看,知识库的更新包括概念层的更新和数据层的更新。概念层的更新是指新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层。数据层的更新主要是新增或更新实体、关系和属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗余等问题)等多方面因素。当前流行的方法是选择百科类网站等可靠数据源,并选择在各数据源中出现频率高的事实和属性加入知识库。知识的更新也可以采用众包的模式,而对于概念层的更新,则需要借助专业团队进行人工审核。

知识图谱的内容更新有两种方式:数据驱动下的全面更新和增量更新。所谓全面更新是指以更新后的全部数据为输入,从零开始构建知识图谱。这种方式简单,但资源消耗大,维护困难;而增量更新,则是以当前新增数据为输入,向现有知识图谱中添加新增知识。这种方式资源消耗小,但需要人工干预,实施困难。

参考:

[1]https://baike.baidu.com/item/%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%AB/6968430

[2]https://www.jiqizhixin.com/graph/technologies/23eb0d0a-74c4-4507-be9b-3c22a6042b47

[3]《知识图谱构建综述》

在这里插入图片描述