本体(Ontology)
牛津英语字典(OED)关于本体(ontology)的定义是“ the branch of metaphysics dealing with the nature of being”。(处理存在本质的形而上学的分支)因此,本体论学者将会对实体的存在以及这些实体如何分组的问题进行探讨;他可能会通过层次结构、相似或不同来进行划分。近年来,人工智能研究和从业人员已经使用本体这个词来对知识领域进行分类,随后它被用来描述以面向对象的方式对信息进行分类。
3种对象
了解这些,有助于我们了解Palantir中的本体是如何定义、加载到系统的本体如何构建数据。Palantir系统里的所有本体都是围绕在3种基本类型、它们之间的关联关系以及这些类型的属性上进行建造。
核心是三种对象:实体(Entities),事件(Events)和文档(Documents)。
实体是事物,通常任何名词都可以代表一个实体,例如人、车辆或位置。
事件是某个时间点发生的行为,这意味着任何动词都可以表示为事件,例如访问、飞行或购买等。
文档代表着非结构化文本数据,例如电子邮件、文本文档或html文件。
对象的结构及其属性可以这样描述:对象具有两个固有属性,所有其他属性都在系统中被分开并安全地保存,通过关联关系连接到它们对应的对象;这就使得Palantir系统能够实现细粒度的访问控制(粒度细到“属性”级别)以及在单个属性中允许多个值出现,这与许多内容管理系统实现属性的方式相反,即单列表对应单个属性值。
日常生活中有关本体的一个很好的实例,就如思考一下就报纸中关于这篇足球比赛的文章如何定义本体:“球员定义为实体,进球为事件,实际报道就是一个文档”。我们可以为这个例子建模一个简单的本体,如下所示:
属性
- 姓名
- 人数
- 球队
- 球赛地点
- 比赛时间(分钟)
- 报纸
文档
- 球赛报道 - 报纸,作者
实体
- 球队 – 球队
- 人 – 姓名,球队
- 球员 – 比赛地点,人数
- 教练
- 裁判
事件 – 比赛时间(分钟)
- 红黄牌情况
- 红牌
- 黄牌
- 进球
关联
- 获牌者
- 得分手
- 评论
- 出示
比如有以下报纸报道:
每日记事
记者
曼彻斯特联队vs女王公园巡游者
大卫·贝克汉姆在23分钟从25码得分。曼联教练弗格森爵士说,霍华德·韦伯将球员巴顿驱逐离场是正确的,巴顿于78分钟时收到 他的第二张黄牌。
使用本体来描述“大卫•贝克汉姆在23分钟从25码得分”这样一个非常简单的例子;从这句话我们可以得出以下属性、实体和关联:
实体 – 球员
- 姓名:大卫•贝克汉姆
事件 – 进球
- 标题:25码进球
- 比赛时间:23分钟
关联
- 人(大卫•贝克汉姆) - 得分手 – 进球(25码进球)
如果我们在Palantir系统建模,使用上面的本体,将建立以下关系图:
<div align="center"><img src="https://www.bobinsun.cn/assets/images/palantir-03-1.png"/></div> <br>
考虑报导中的第二句话“曼联教练弗格森爵士说,霍华德·韦伯将球员巴顿驱逐离场是正确的,巴顿于78分钟时收到他的第二张黄牌”。从这句话中,可以创建如下实体和事件:
实体 – 球员
- 姓名:巴顿
实体 – 教练
- 姓名:弗格森爵士
- 球队:曼联
实体 - 裁判
- 姓名:霍华德•韦伯
事件 - 黄牌
- 比赛时间:78分钟
事件 – 红牌
- 比赛时间:78分钟
关联
- 人(巴顿) -获黄牌球员
- 人(霍华德•韦伯) -掏黄牌人
- 人(巴顿) -获红牌球员
- 人(霍华德•韦伯) -掏红牌人
- 人(弗格森爵士) - 评论 - 红牌
如果我们在Palantir中建模,将创建以下关系图:
<div align="center"><img src="https://www.bobinsun.cn/assets/images/palantir-03-2.png"/></div> <br>
本体的结构取决于一组分析师,其主要使得系统中的数据最大可用; 因此,本体论没有单一的模式,只有最佳实践。在这里我不再过多的赘述建模本体的方法,而是强调以下才是重点:
- 本体的目标存在
- 它是数据分类的一种方式
- 以及谈论本体时使用的术语
在下一篇文章中,我将探讨Palantir的数据集成工具。