点击下面卡片,关注我呀,每天给你送来AI技术干货!
作者:哈工大SCIR 张宁
1.摘要
本数据集由哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)秦兵教授和刘铭教授主持开发,是一个通用领域大规模条件性知识图谱数据集。本数据集源自于AG News文本分类语料,包含四个类别,2440 条数据,每条数据都是人工标注的条件知识图谱。该数据集的提出能够为条件性知识图谱的研究提供数据支持。
2.条件性知识图谱
在大多数情况下,事实的成立都是有条件的。条件和事实起着同样重要的作用,然而目前的知识图谱只关注事实而忽略了条件的存在。与此同时,信息提取技术也只关注从给定文本中提取事实,而忽略了条件信息。为了能够让知识图谱建模条件信息更加充分,我们提出了一个三层的网络结构条件性知识图谱(Conditional-KG)。如下图所示,条件性知识图谱和传统知识图谱都是由三元组组成,但是条件性知识图谱同时包含事实元组和条件元组,以及元组之间的条件关系。
3.数据集
为了支持条件性知识图谱的研究,我们手动标注了一个条件性知识图谱数据集。我们选择了AG News文本分类语料作为条件性知识图谱的语料。AG News语料具有三大优势:
AG News中的数据是新闻的标题和一部分正文,每条数据平均包含2.1个句子、6.4个元组和3.5个条件关系;
AG News中的数据具有完整的语法结构,长度较长,语言严谨,代词、口语、习语等较少。
AG News的文本数量足够大,多样性丰富。它包含12万条训练数据和7600条测试数据,涉及World、Sports、Business、 和Sci/Tech四个类别。
我们标注的数据集追求信息的完整性和元组的原子性。完整性的意思是标注者应该尝试从句子中提取所有断言和条件,我们将原子性定义为每个元组必须是一个不可分割的单元。只要有可能,标注者必须从带有连词的句子中提取多个原子元组。我们通过两轮标注最终得到了人工标注的通用领域条件性知识图谱数据集。本数据集源自于AG News文本分类语料,包含四个类别,2440 条数据,每条数据都是人工标注的条件知识图谱。
4.结语
为了建模条件信息,我们提出了一个具有三层网络结构的条件性知识图谱,并且为社区贡献了一个人工标注的通用领域大规模条件性知识图谱。
致谢
感谢秦兵教授、刘铭教授、姜天文博士在语料构建方案中提供的宝贵建议,感谢哈工大SCIR佘琪星、郑子豪、胡振宇、张景润等同学在模型训练过程中提供的支持。
本期责任编辑:刘铭
本期编辑:朱文轩
说个正事哈
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方“深度学习自然语言处理”,进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
点击上面卡片,关注我呀,每天推送AI技术干货~
整理不易,还望给个在看!
如果觉得《赛尔笔记 | 通用领域条件性知识图谱数据集》对你有帮助,请点赞、收藏,并留下你的观点哦!