知识图谱概论
概念
人工智能发展阶段
计算智能
计算机早已超过人类
感知智能
让计算机具备视觉和听觉等感知的智能。语音识别和人脸识别等技术上已取得进步。
认知智能
与人类语言、知识、逻辑相关的智能,是人工智能最高阶段,目标是让机器掌握人类的语言和知识体系,并真正理解其内在逻辑。
知识图谱
本质:万物及其联系的网络
包括:实体、属性、关系
节点有属性标签(可以包含类型)
两个节点的边是实体间关系
强调实体,但也可以描述概念
深度学习
深度学习金字塔
瓶颈
平台红利
DL开发平台日趋成熟,难以有更大提升空间
算法红利
新型模型的提出很难;现有模型的优化和潜力挖掘存在瓶颈
算力红利
GPU和TPU等硬件计算速度的摩尔定律开始失效
大数据红利
大数据的获取、清洗和标注己经出现瓶颈
知识图谱 VS 传统知识库 VS 数据库
关系
知识图谱是在传统知识库的基础上发展而来,但更注重其中的数据知识图谱不能替代数据库,二者互有所长优势
包含语义信息,可进行一定的推理形式更灵活,可扩展性更好不足
天生缺乏直接的有效处理工具,大规模图谱数据处理常常借助于数据库技术知识表示
语义网络
表示概念间语义关系的网络1956年提出,最初目的用于语言翻译和自然语言处理经典语义网络项目:WordNet框架
框架是人工智能中使用的一种数据结构概念图
有数学和逻辑支撑的知识表示形式化概念分析
语义网
Web=文档+超链接
本体
领域共享知识的描述方式,是语义Web、语义搜索、知识工程和很多人工智能应用的基础本体是我们告诉计算机人类如何认识和理解世界万物的一种形式化描述方式本体成为语义网的知识描述载体语义网的研究热潮极大促进了本体的研究描述逻辑
描述逻辑是一种知识表示语言,表达能力强于命题逻辑,弱于一阶逻辑
描述逻辑成为了语义网语言的逻辑基础,其推理有正确性和完备性保证
语义网的发展过程中先后制定了基于描述逻辑的不同语言规范:DAML,RDF,OWL, OWL2等等
链接数据(Linked Data)
Google Knowledge Graph
知识图谱(Knowledge Graph)是Google在对其搜索引擎中使用的知识库的称谓目前学术界和工业界习惯用“知识图谱”来泛指类似Google知识库的各种知识库,这些知识库都有着自己的名称经典知识图谱
Cyc
在1984年由Douglas Lenat开始创建
最初的目标是要建立人类最大的常识知识库
典型的常识知识如“Every tree is a plant ” , “Plants die eventually ” 等
由术语Terms和断言Assertions组成
Terms包含概念、关系和实体的定义Assertions用来建立Terms之间的关系,这既包括事实Fact描述,也包含规
则Rule的描述
主要特点是基于形式化的知识表示方法来刻画知识。
形式化的优势是可以支持复杂的推理。但过于形式化也导致知识库的扩展性和应用的灵活性不够。
Cyc提供开S版本OpenCyc
WordNet
由普林斯顿大学认识科学实验室从1985年开始开发
是最著名的词典知识库,主要用于词义消歧
主要定义了名词、动词、形容词和副词之间的语义关系。
例如名词之间的上下位关系(如:“猫科动物”是“猫”的上位词)动词之间的蕴含关系(如:“打鼾”蕴含着“睡眠”)等
WordNet3.0已经包含超过15万个词和20万个语义关系
ConceptNet
最早源于MIT媒体实验室的OpenMind Common Sense (OMCS)项目。OMCS项目是由著名人工智能专家Marvin Minsky于1999年建议创立
是常识知识库
主要依靠互联网众包、专家创建和游戏三种方法来构建
新版本导入大量开放的结构化数据,如DBPedia、Wikinary,Wordnet等
以三元组形式的关系型知识构成
ConceptNet5版本已经包含有2800万关系描述。与Cyc相比,ConceptNet采用了非形式化、更加接近自然语言的描述,而不是像Cyc那样采用形式化的谓词逻辑
与链接数据和谷歌知识图谱相比,ConceptNet比较侧重于词与词之间的关系
从这个角度看,ConceptNet更加接近于WordNet,但是又比WordNet包含的关系类型多。此外,ConceptNet完全免费开放,并支持多种语言
Freebase
由Metaweb开发,并于3月公开运营,7月16日被谷歌收购
致力于打造一个允许所有人快捷访问的开源知识库
目标包含19亿三元组,提供了多种语言的查询接口
Wikidata
是一个人人可编辑的知识库
其核心概念是entity,可以指一个现实中的对象或一个抽象概念
每个item 都有标签(label)、描述(description)、别名(aliases),使不同的item得以区分
item中的具体数据被称为statement, 一个item可以有许多statementstatement由属性(property)、数值(value)、修饰成分(qualifier)、参考资料(reference)等部分组成。
DBPedia
早期的语义网项目意指数据库版本的Wikipedia,是从Wikipedia抽取出来的链接数据集采用了一个较为严格的本体,包含人、地点、音乐、电影、组织机构、物种、疾病等类定义采用RDF语义数据模型,总共包含30亿RDF三元组YAGO
由德国马普研究所研制的链接数据库
主要集成了 Wikipedia、WordNet和GeoNames三个来源的数据
将WordNet的词汇定义与Wikipedia的分类体系进行了融合集成,使得YAGO具有更加丰富的实体分类体系
还考虑了时间和空间知识,为很多知识条目增加了时间和空间維度的属性描述
包含1.2亿条三元组知识
是IBM Watson的后端知识库之一
NELL
卡内基梅隆大学开发的知识库
主要采用互联网挖掘的方法从Web自动抽取三元组知识
基本理念是:给定一个初始的本体(少量类和关系的定义)和少量样本,让机器能够通过自学习的方式不断的从Web学习和抽取新的知识
目前NELL已经抽取了 400多万条高置信度三元组知识
OpenlE
ZhiShi.me
是以百度百科,互动百科,維基百科中文部分为基础构建的中文知识图谱CN-DBPedia
由复旦大学知识工场实验室研发并維护的大规模通用领域结构化百科
主要从中文百科类网站(如百度百科、互动百科、中文維基百科等)的纯文本页面中提取信息,经过滤、融合、推断等操作后,最终形成高质量的结构化数据,供机器和人使用
自12月份发布以来已经在问答机器人、智能玩具、智慧医疗、智慧软件等领域产生数亿次API调用量
CN-DBpedia提供全套API,并且免费开放使用
大规模商务调用,提供由IBM、华为支持的专业、稳定服务接口
BabelNet
类似于WordNet的多语言词典知识库
目标是解决WordNet在非英语语种中数据缺乏的问题
采用的方法是将WordNet词典与Wikipedia百科集成
首先建立WordNet中的词与Wikipedia的页面标题的映射,然后利用Wikipedia中的多语言链接,再辅以机器翻译技术,来给WordNet增加多种语言的词汇
BabelNet3.7包含了271种语言,1400万同义词组,36.4万词语关系和3.8亿从Wikipedia中抽取的链接关系,总计超过19亿RDF三元组
集成了WordNet在词语关系上的优势和Wikipedia在多语言语料方面的优势,构建
成功了目前最大规模的多语言词典知识库
应用
应用场景
辅助搜索——精准回答
提高搜索精度语义搜索搜索意图理解多模态搜索辅助问答——人机互动
提高问答精度改善问答体验引导对话走向多轮对话辅助数据集成——智能数据整合
知识图谱实现了数据-信息-知识的智能数据整合机制
针对大规模多源异构数据集成机制建立和挖掘数据内在关联通用性高可护展性强形式灵活知识重用不干涉数据源
辅助决策——智能决策
收集和整理数据建立数据间关联知识挖掘知识发现知识推理知识图谱辅助自然语言理解辅助各种AI场景广泛用于国防、金融、制造、商务、政府辅助情报研判
辅助智能制造
知识图谱应用落地模式
知识图谱技术的核心价值
集成异构数据源
知识图谱构建基于分布和异构数据源知识图谱的图模型是对异构数据的一种灵活集成
描述数据间的关联
实体关系事件
实现实体链接
建立知识和实体间的桥梁更理智的智能
大规模知识推理
发现隐含的知识
可解释的智能(可推理数据缺失/稀疏,任重道远)
实例
Google Knowledge Graph
Facebook Graph Search
微软Concept Graph
Concept Graph是以概念层次体系为中心的知识图谱。与Freebase等知识图谱不同,Concept Graph以概念定义和概念之间的IsA关系为主
给定一个概念如“Microsoft”,Concept Graph返回一组与“微软’’有IsA关系概念组,如:“Company”,“Software Company”,"Largest OS Vender"等。这被称为概念化“Conceptualization”
Concept Graph可以用于短文本理解和语义消歧中。例如,给定一个短文本 “the engineer is eating the apple”,可以利用 Concept Graph来正确理解其中“apple”的含义是“吃的苹果”还是“苹果公司”。微软发布的第一个版本包含超过540万的概念,1255万的实体,和8760万的关系。Concept Graph主要通过从互联网和网络日志中挖掘来构建
亚马逊知识图谱
路透社知识图谱
Linkedln知识图谱
阿里巴巴的知识图谱
美团知识图谱:美团大脑
百度知识图谱
百度的3类知识图谱 实体图谱(entity graph):用于精准回答关注点图谱(attention graph):用于文本理解意图图谱(intent graph):用于对话IBM Watson问答系统
工作原理
问题分析 答案类型焦点关键词 假设生成 给定问题,生成候选答案基于证据收集和假设评分模块给候选答案打分 候选生成 搜索结构化/非结构化资源,寻找证据计算候选答案的正确概率 打分 每个证据贡献支持或反对综合得分
总结
在表达多样性问题上表现出色平均每个问题的回答速度为3秒,足够和最优秀的人类竞争在55场和人类冠军实时比赛中胜率为71%总决赛中战胜2位人类选手夺冠
…
构建知识图谱
知识抽取与挖掘:任务和问题总结
知识图谱是一项实用的人工智能前沿技术,是认知智能的核心技术之一知识图谱的作用:灵活集成异构数据、建立数据间关联、实现实体链接、进行大规模知识推理知识图谱的应用场景:精准回答、人机互动、数据整合、智能决策知识图谱的门槛:复杂的技术门槛、知识获取和处理门槛、应用门槛如果觉得《知识图谱概论》对你有帮助,请点赞、收藏,并留下你的观点哦!