失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 【知识图谱】知识图谱概论

【知识图谱】知识图谱概论

时间:2021-11-18 12:55:55

相关推荐

【知识图谱】知识图谱概论

文章目录

一、知识图谱与语义技术概述1、知识图谱的概念演化2、重点3、应用4、KG的本质二、典型知识图谱三、知识图谱技术概览1、KG技术体系2、知识表示(1)概述(2)语义网知识表示框架:(3)典型表示方法(离散型)① RDF:Triple-based Assertion model② RDFS:Simple Vocabulary and Schema③ OWL:Web Ontology Language(4)典型表示方法(分布式)——KG Embedding4、知识抽取:NLP + KR5、知识存储6、知识问答7、知识推理8、知识融合9、知识众包:四、典型案例

一、知识图谱与语义技术概述

1、知识图谱的概念演化

知识图谱(Knowledge Graph, KG)的概念演化如下图所示:

1960年,语义网络(Semantic Networks)是一种用图来表示知识的结构化方式。在一个语义网络中,信息被表达为一组结点,结点通过一组带标记的有向直线彼此相连,用于表示结点间的关系。但缺少标准,其比较难应用于实践。1980s,本体论(Ontology)。该本体是由哲学概念引入到人工智能领域的,用来刻画知识。1989年,万维网。Time Berners-Lee发明了万维网(Web),以链接为中心的系统。1998年,语义网(The Semantic Web)。从链接文本到链接数据。语义网正是为了使得网络上的数据变得机器可读而提出的一个通用框架。“Semantic”就是用更丰富的方式来表达数据背后的含义,让机器能够理解数据。“Web”则是希望这些数据相互链接,组成一个庞大的信息网络,正如互联网中相互链接的网页,只不过基本单位变为粒度更小的数据。,链接数据。Tim突出强调语义网的本质是要建立开放数据之间的链接,即链接数据(Linked Data)。,知识图谱。知识图谱的提出得益于Web的发展和数据层面的丰富,有着来源于知识表示(Knowledge Represention, KR)、自然语言处理(NLP)、Web、AI多个方面的基因。可用于搜索、问答、决策、AI推理等方面。

2、重点

知识表示——Knowledge Representation基于知识表示的知识库——Knowledge Base 知识库的来源:知识构建、知识抽取、知识融合知识库的应用:语义搜索、知识问答

3、应用

辅助搜索辅助问答辅助决策辅助AI:常识推理

4、KG的本质

Web角度:类似于文本之间的超链接一样,建立数据之间的语义链接,并支持语义搜索;NLP角度:如何从文本中抽取语义和结构化数据;KR(知识表示)角度:如何利用计算机符号表示和处理知识;AI角度:如何利用知识库来辅助理解人的语言;DB角度:用图的方式存储知识。

知识图谱 VS. 深度学习(区别)

人的大脑依赖所学的知识进行思考、逻辑推理、理解语言。

可以将深度学习和知识图谱比作是“聪明的AI”和“有学识的AI”。

深度学习:主要是【学习】能力,通过强大的计算能力,感知、识别、判断来进行学习。知识图谱:主要是【推理】能力,通过已有的规则和知识,思考、语言、推理来进行学习。

注意:两者不是不相关的,可以利用对方来解决本领域的问题。

二、典型知识图谱

常识知识库:CYC、WordNet、ConceptNet、Freebase、Wikidata、DBPedia、YAGO、Babelnet、NELL、Concept Graph、OpenKG、Zhishi.me

CYC知识库:常识知识库,最初目标:建立人类最大的常识知识库。 由属于Terms(概念、关系和实体)和断言Assertions(Terms之间的关系,可包括事实Fact描述、规则Rule描述)组成。Wordnet:词典知识库,主要用于词义消歧。 主要定义了名词、动词、形容词和副词之间的语义关系。ConceptNet:常识数据库,最早源于MIT媒体实验室,主要依靠互联网众包、专家创建和游戏三种方法来构建。知识库以三元组形式的关系型知识构成。侧重:词与词之间的关系。ConceptNet完全免费开放,并支持多种语言。Freebase:完全免费并允许商业化的开放许可协议。通过开源免费吸引吸引用户贡献数据,增值的应用及技术服务收费。Wikidata:目标是构建全世界最大的免费知识库,但是仍然面临知识缺失严重的问题。DBPedia:早期的语义网项目,意指数据库版本的Wikipedia,是从Wikipedia抽取出来的链接数据集。YAGO:集成了Wikipedia、WordNet、GeoNames三个来源的数据。此外,还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述。Babelnet:类似于WordNet的多语言词典知识库,目标是解决WordNet在非英语语种中数据缺乏的问题。 将WordNet与Wikipedia百科集成。NELL:是卡内基梅隆大学开发的知识库,主要采用** **的方法从WEB自动抽取三元组知识。Concept Graph(Microsoft):以概念层次体系为中心的知识图谱。与Freebase等知识图谱不同,Concept Graph是以概念定义和概念之间的IsA关系为主。OpenKG:中文知识图谱资源库。cnSchema:开放的中文知识图谱Schema

三、知识图谱技术概览

1、KG技术体系

2、知识表示

(1)概述

知识表示:研究怎样用计算机符号来表示人脑中的知识,以及怎样通过符号之间的运算来模拟人脑的推理过程。

表示方法:

基于离散型的知识表示:RDF、RDFS、OWL、OWL…基于分布式知识表示:KG Embedding

(2)语义网知识表示框架:

绿色部分:知识表示 。其中最底层的是URI/IRI是网络链接,其上是XML和RDF为资源表示框架。黄色部分:查询。SPARQL是知识查询语言。蓝色部分:知识推理。它包含了如RDFS和OWL这样的支持推理的表示框架。橘色部分:trust灰色部分:interaction

(3)典型表示方法(离散型)

分类

离散型表示:RDF、RDFa、OWL分布式表示:KG Embedding

① RDF:Triple-based Assertion model

RDF(Resource Description Framework)即资源描述框架,是W3C制定的。用于描述实体/资源的标准数据模型。在知识图谱中,我们用RDF形式化地表示三元关系。(Subject, predicate, object),即(主语,谓语,宾语)

RDF Graph:Directed Labeled Graph

基础数据模型:有向标记图

RDF的序列化格式

JSON for Linking Data(JSON-LD):程序之间的数据交换格式,在网页中嵌入语义数据和 Restful Web Service。

{"@context":"http://json-/contexts/person.jsonld","@id":"/resource/John_Lennon","name":"John Lennon","born":"1940-10-09","spouse":"/resource/Cynthia_Lennon"}

RDFa,HTML5 MicroData:在网页中嵌入语义数据

RDF查询语言——SPARQL可对不同数据集撰写复杂的连接(joins)由所有主流图数据库支持示例1:

# prefix declarations:for abbreviating URIsPREFIX foo: </resources/>...# dataset defintion, stating what RDF graph(s) are being queriedFROM ...# result clause:identifying what information to return from the querySELECT ...# query pattern:WHERE {...}# query modifiers:slicing, ordering, and otherwise rearranging query resultsORDER BY ...

示例2:本质——子图匹配

SELECT ?nameWHERE {?m <bornIn> ?city. ?m <hasName> ?name.?m <bornOnDate> ?bd. ?city <foundingYear> "1718".FILTER(regex(str(?bd), "1976"))}

② RDFS:Simple Vocabulary and Schema

RDFS在RDF的基础上定义了一些固定的关键词如:ClasssubClassOftypePropertysubPropertyOfDomainRange以及多了Schema层

③ OWL:Web Ontology Language

OWL(本体)就是从哲学方面借鉴来的。OWL在RDF的基础上扩充了 RDF Schema,使它支持推理等操作。OWL示例复杂类

:Motherowl:equivalentClass [rdf:type owl:Class ;owl:intersectionOf ( :Woman :Parent )] .

属性约束

:Parent owl:equivalentClass [rdf:type owl:Restriction ;owl:onProperty:hasChild ;owl:someValuesFrom :Person] .

对称属性

:hasSpouserdf:typeowl:SymmetricProperty .

传递属性

:hasAncestorrdf:typeowl:TransitiveProperty .

属性链

:hasGrandparentowl:propertyChainAxiom ( :hasParent :hasParent) .

(4)典型表示方法(分布式)——KG Embedding

在保留语义的同时,将KG中的实体和关系映射到连续的稠密的低维向量空间。

常用方法

张量分解:eg:RESCAL1RESCAL^1RESCAL1神经网络:势能函数,正确的势能高,错误的势能低。eg:NTN2NTN^2NTN2距离模型:eg:TransE3

4、知识抽取:NLP + KR

知识抽取是一个结合NLP和KR的工作,它的目标抽取KR用的三元组、多元关系、模态知识等

具体流程

非结构化的文本数据获取与预处理:从网络上获取大量的各种非结构化的文本数据,经过文本预处理后得到干净的文本数据。词法及句法层次的分析:借助机器学习相关程序对文本进行分词、词性标注、词法解析、依存分析等工作,此时词法及句法层次的分析结束,NER实体链接关系抽取事件抽取KR(知识表示):最终形成KR用的三元组、多元关系、模态知识等构成知识图谱。

评测:MUC-7 ==》ACE ==》TAC 的 KBP Track

主要方法

知识工程:正则表达式、模板匹配(eg:BootStrap)、规则约束(POS、NER约束、距离约束等)基于本体的抽取: 知识挖掘(推理):PRA基于图的抽取、TransE基于Embedding的抽取基于模型的抽取模型: SVM、逻辑回归、CRF、LSTM等循环神经网络训练:有监督学习、无监督聚类、远程监督(从已有知识库获取少量训练数据)

5、知识存储

复杂性:需考虑图的特点、复杂的知识结构存储、索引和查询(支持推理)的优化等问题。

典型方法

分为:基于关系数据库的存储、基于原生图的存储实践:多为混合存储结构,图存储并非必须。

6、知识问答

KBQA(Knowledge-Based Question Answering),是基于知识库的问题回答,它以直接而准确的方式回答用户自然语言提问的自动问答系统,它将构成下一代搜索引擎的基本形态。eg:搜索姚明的身高,就可以给出226cm的回答。其实现流程为:

基本实现流程

7、知识推理

知识推理:基于已知事实推出未知的事实的计算过程。eg:回答李四儿子的爸爸是谁?

分类

按解决方法分类:基于描述逻辑的推理、基于规则挖掘的推理、基于概率逻辑的推理、基于表示学习与神经网络的推理。按照推理类型分类:缺省推理、连续变化推理、空间推理、因果关系推理等等。

8、知识融合

知识融合

也称:Record Linkage(记录链接)、Entity Resolution(实体解析)、Data Linking(数据链接)、Knowledge Fusion(知识融合)、Entity Alignment(实体对齐)…定义:在不同数据集中找出同一个实体的描述记录,主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息。

典型工具

Dedupe基于Python的工具包,实现了fuzzy matching、deduplication、entity resolution等常见任务。主要流程:先对所有records通过Clustering/Blocking方法进行分组,然后再组内通过计算相似度特征和分类器对任意一对records预测是否为同一实体。适用性:适用于有相似结构的两个数据集,不适用于两个数据集的实体属性个数差异很大的情况。LIMES针对链接数据(Linked data)设计的链接框架,不要求两个数据集的实体具有相似的结构。可灵活配置匹配规则,自定义距离计算模型,也支持基于Active Learning的ML方法。

9、知识众包:

允许各网站基于一定的方式如RDFa、JASON-LD等方式在网页和邮件等数据源中嵌入语义化数据,让个人和企业定制自己的知识图谱信息。

四、典型案例

Open PHACTS:药物研发的开放数据访问平台。电商知识图谱:阿里巴巴SAP:企业知识图谱应用。BBC ONTOLOGIES:更好的搜索体验。

如果觉得《【知识图谱】知识图谱概论》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。