失眠网 > 科大讯飞机器阅读理解稳居全球第一 SQuAD 2.0榜单记录被刷新

科大讯飞机器阅读理解稳居全球第一 SQuAD 2.0榜单记录被刷新

时间：2021-12-28 11:50:45

3月20日，哈工大讯飞联合实验室（Joint Laboratory of HIT and iFLYTEK Research, HFL）与河北省讯飞人工智能研究院联合团队，在由斯坦福大学发起的国际权威机器阅读理解评测SQuAD2.0（Stanford Question Answering Dataset）挑战赛中再次获得冠军宝座。并且，还以远超人类平均水平的EM指标（精准匹配率）和F1指标（模糊匹配率），一举创下了该评测的全新纪录。

国际机器阅读理解评测SQuAD自发布以来，便受到了业界的广泛关注。SQuAD挑战赛是智能行业内公认的，机器阅读理解领域的顶级水平测试。参赛者需要提交一个系统模型，该系统模型在阅读完数据集中的一篇文章后，逐一回答若干个基于文章内容的问题。然后，与人工标注的答案进行比对，得出精确匹配（Exact Match）和模糊匹配（F1-score）的结果。

举办三年的时间里，该比赛共吸引了包括谷歌、微软亚洲研究院、IBM研究院、阿里巴巴达摩院、平安科技、上海交通大学、复旦大学等，众多国内外知名研究机构和高校踊跃报名。

相比SQuAD 1.1评测来说，本次SQuAD 2.0评测进一步提高了问题的解答难度：新加入了“不可回答的问题”，即通过阅读文章并无法找到答案的问题。机器阅读理解模型需要通过阅读篇章和问题选择“回答”或“拒答”，这对机器阅读理解模型来说是一个全新的挑战。

在此次比赛中，由工大讯飞联合实验室与河北省讯飞人工智能研究院联合团队提交的“BERT + DAE + AoA”模型，融合了业界领先的自然语言语义表示模型BERT以及该团队持续积累和改进的层叠式注意力机制，在比赛中EM指标（精准匹配率）达到87.147，F1指标（模糊匹配率）达到89.474，将该评测的技术指标推向了新的高度。

站在局外人的旁观角度，大家不要以为，技术评测中的积累只是“花拳绣腿”，离自己的生活环境非常遥远。其实，这一系列评测的最终目的就是：将技术更好应用到实际产品中，从而便利人们的生活。

举例来讲，机器阅读理解技术已经在汽车、司法范畴中有所应用：一些车型中的车载电子说明书产品，能在用户提出相关问题之后，快速反馈相关的章节，并利用阅读理解技术进一步挖掘并反馈给用户更精准的答案，大幅度提升了用户信息获取的速度。

而在司法领域，哈工大讯飞联合实验室出品的“法小飞”可是行业知名“团宠”。“法小飞”是应用了对话型阅读理解技术的智能法律咨询助手，能为用户提供法律咨询和相关服务，十分优质和快捷。

人们从未曾停止探索的脚步，在比赛指标上超越人类水平还远远不是终点。目前，科大讯飞依旧继续在积极地探索其他类型的阅读理解，以实现认知基础前沿技术、教育认知技术、司法认知技术等技术在政务、各公共服务等领域的应用。对于机器阅读理解的“能理解会思考”的终极目标来说，也许这会是一个全新的开始。

如果觉得《科大讯飞机器阅读理解稳居全球第一 SQuAD 2.0榜单记录被刷新》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。