失眠网 > 知识图谱认知智能理论与实战----------第二章知识图谱模式设计

知识图谱认知智能理论与实战----------第二章知识图谱模式设计

时间：2018-09-02 17:25:36

文章目录

一. 知识图谱模式二. 模式与本体三. 本体概论I. 模式与本体辨析II.本体的构成要素III.实体分类IV.实体分类四. 六韬法I. 场景II. 复用III. 事物IV. 联系V. 约束VI. 评价

一. 知识图谱模式

实体：eg：法国，巴黎…关系：eg：属于，基于…三元组：<主语，谓词，宾语> eg：<巴黎，属于，法国>

二. 模式与本体

本体的核心目标：定义一组领域内的概念和类别，以及它们之间的关系来组织信息和知识。本体与知识图谱的区别：本体更多地追求知识的本质；知识图谱模式偏向于产业应用。本体不仅包含知识本身，还包含许多推理逻辑；知识图谱模式更关注知识本身，与推理逻辑相分离。

三. 本体概论

I. 模式与本体辨析

模式和本体是对相同事物的不同表达。在大多数情况下，可以忽略两者区别，将模式视为分离了推理规则的本体。在知识图谱领域倾向于使用模式。在语义网和哲学领域更倾向于使用本体。

II.本体的构成要素

实例：也称个体，类似于知识图谱中的实体。eg：贝多芬。类：实例的父类，和java当中的定义一样，也类似于知识图谱模式中的实体类型。eg：人物。属性：类可能具有的属性、特征、特性、参数、描述等。eg：人物的生日、性别…关系：类与类、概念与概念之间可能存在的关系。eg：is - a 或 has - a规则：基于类、属性和关系等元素来描述逻辑推断的语句。eg：音乐家是男的。公理：采用某种逻辑的断言或规则所共同构成的理论。eg：八大恒星属于银河系。

III.实体分类

应用范围角度：基础本体（Foundation Ontology，FO）：收录了适用于多个不同领域的共有的或核心的概念或术语。eg：Schema和COSMO。 Schema：基于协作性社区（）活动构建的本体，CNSchema是Schema的中文翻译。

COSMO（Common Semantic Model）：通用语义模型，旨在收录所有语义原语。（利用这些原语能够从逻辑上明确说明任何领域本体的元素的含义。语义原语：指那些不能从本体中已经存在的概念的组合来表示的概念。）

领域本体：对特定领域的或者现实世界的一部分的事物、知识进行建模。eg：生物学、遗传学、金融领域等。eg：GO（Gene Ontology，GO）:提供一个框架和一组概念来描述来自所有生物体的基因产能等功能。

形式化角度：轻量级本体：类似于知识图谱模式，侧重于概念化，即知识和知识的层次结构。重量级本体：使用丰富且完善的公理和规则来建模知识。

IV.实体分类

资源描述框架（Resource Description Framework，RDF）：用来描述Web资源的特性,及资源与资源之间的关系，是一个基础且通用的数据模型。

<?xml version=“1.0”?><RDF xmlns=/1999/02/22-rdf-syntax-ns#xmlna:DC=/metadata/dublin-core#><Description about=/dlib/may98/miller><DC:title>An introduction to the Resource Description Framework</DC:title><DC:creator>Eric Miller</DC:creator><DC:date>1998-0501</DC:date></Description></RDF>

RDF详细内容，可以参考：/m0_37565948/article/details/81568054

四. 六韬法

从场景、复用、事物、联系、约束、评价6个角度来设计知识图谱。

I. 场景

“场景”：指所设计的知识图谱的服务范围，一般包括用于构建目标知识图谱的结构化数据和非结构化数据、知识存储的方式要求，以及基于目标知识图谱的各类应用。最关键的目标是对齐认知（清晰的描述动机，一致无歧义地理解环境，对齐参与各方对动机和环境的认知，并明确的表示出来，形成相应的文档）。具体如下图：

常见的方法：头脑风暴、问题清单、调查问卷、多方会议等。任何一种方法都是不完美的，不同的人往往会因为立场、背景、知识储备等原因发生分歧、产生冲突。

II. 复用

如果从零开始建立知识图谱，真的是太累了，可以复用别的数据，站在巨人的肩膀上。

领域词汇表（实体名称）可以进行复用，eg：《外国音乐辞典》基础本体可以复用Schema、COSMO当中的一些内容。领域本体可以复用其他现成的知识图谱。eg：OpenKG（中文的开放知识图谱社区）

III. 事物

在知识图谱设计中，最核心和基础的就是设计好实体类型，用实体类型来清晰、明确和无歧义的描述一类事物，也包括了咋基本原则中所介绍的语义、外延、颗粒度等内容。

定义类型，通常包括一下步骤：对事物的分类：厘清在场景中需要处理哪些类型的事物。对事物类别的命名：充分考虑命名的语义、外延和颗粒度。有些虽然类名、类别名、概念等说法不同，但是表示的却是一类事物。抽象出合适的特征：以属性名列表的方式来描述事物的多维特征。“如无必要，勿增实体”：在满足需求的情况下，实体数量适量即可。事物是演化和发展的：实体类型和属性名列表并非是不变的、固定的，而是演化发展的。实体类型区分的越细，对下游应用的使用就越方便，但在构建知识图谱的时候遇到的困难就越多。需要权衡在场景的需求中是否需要划分为这几种类型。 eg：若研究的对象是音乐家在音乐领域的贡献，就对音乐家进行不断的细分，而对作品本身保证颗粒度大一些；若需要研究作品本身，作品本身就需要不断的细化，比如能够区分“大协奏曲”和“独奏协奏曲”等。

IV. 联系

事物间是普遍联系的，即在任意两个实体间可以建立任意的关系。定义关系类型依赖于实体类型。

定义关系类型的流程：依次选取实体类型列表中的每一个实体类型。梳理该实体类型和自身的关系梳理该实体类型和所有其他实体类型的关系对每个关系进行探讨，赋予一个适合的关系名称。（关系名称需要明确表达事物间的联系，并且在场景相关方中能能够有一致的表达）将定义好的关系类型可视化，并对每一个关系类型及其对应属性名列表进行评估，确定其必要性。多用“继承”和“组合”这两种设计模式。继承：is a；has subclass；subclass of。组合：has a；part of；has part。

V. 约束

对模式的约束，包括数据类型、取值范围和权限控制三大部分内容。

数据类型：基本数据类型： Character、Integer、Decimal、Complex、DateTime、SpatialDatatType、UUID、Binary等，书上P68页。复杂数据类型：list、set、map、tuple。取值范围：枚举类型约束（eg：国家列表、行政区列表）、数值类型的取值上下限、日期时间类型约束、文件类型（eg：对文件内容进行校验，区分JSON、XML等）、字符串约束规则（eg：手机号）、跨属性约束（eg：URL中的域名必须等于域名属性的值）等。权限控制：对广义资源的受众进行访问限制。通用方法；基于角色的访问控制。