失眠网 > 语音识别技术准确率早已超过人类平均水平

语音识别技术准确率早已超过人类平均水平

时间：2020-02-05 04:42:50

相关推荐

语音识别技术准确率早已超过人类平均水平

语音交互在某些方面是一个“升维”的操控方式，相比传统的操控方式来说，“语音”能让使用者无需直接接触被操控物就能实现某些功能。比如在实时互译、智能家居的操控以及面向特别人士的辅助技术等方面，语音交互都能带来很大的便利。随着这两年机器学习技术的迅猛发展，语音识别技术也有着极大地突破，百度和微软分别表示在、的时候自家语音识别技术对于汉语/英语的识别词错率就已经低于人类平均水平。伴着时间的推移，语音识别技术的准确率仍在不断地提升。

每年的2月21日是国际母语日，意义是宣传保护语言的重要性和促进母语的传播。今天正好借着这个机会来陪各位了解下语音识别技术，尤其是汉语语音识别的部分。让我们通过技术瞭望一下，还有多久能够达到“只学母语，就能走遍天下”这一美好期待。小编还贴心的为各位准备了“太长不看版”放在文末，嫌字多的值友可以拖到底部~

语音识别及技术的前世今生

基于计算机系统的语音识别技术在20世纪50年代诞生于贝尔实验室（就是那个对晶体管、发光二极管、太阳能电池蜂窝移动通讯技术等等有众多研究成果的贝尔实验室），当时开发出的特定语言增强系统Audry可识别十个英文数字单词，在之后的一段时间内对于这项技术由剑桥大学、IBM等科研机构领衔研究。在20世纪80年代末，卡耐基梅隆大学推出的Sphinx系统（由李开复主导研究哦~）取得了一个阶段性的研究成果，是第一个高性能的非特定人、大词汇量连续语音识别系统。

随着科学技术的不断进步，进入了所谓“大数据”和新一代“人工智能”时代后，深度神经网络、机器学习和大量数据的加入使得语音识别有着质和量的突破。在10月，微软表示自家的语音识别技术的词错率已经低至5.9%，已经持平人类水平，而当时还是百度首席科学家的吴恩达发了一条这样的庆祝之词“我们的汉语识别的成绩在就已经超过了人类平均水平，对于微软在比我们晚了不到一年的时间终于到了这个程度感到欣慰”。又过了一年多的时间，词错率的这个数字也降到了更低的水平。

（吴老师也是很皮了，不过人谁让家有实力呢...）

目前语音识别主流技术简介

在谈论语音识别技术时不得不提的是隐马尔可夫模型（HMM），该模型是用来描述一个含有隐含未知参数的马尔可夫过程。由于隐马尔可夫模型的特点与人类语音模型的特性相似，因此在语音识别，中文断词和机器翻译中被广泛应用，尤其在语音识别的应用中占有重要地位。马尔可夫性质是概率论中的一个概念，因为俄国数学家安德雷·马尔可夫得名。当一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态；换句话说，在给定现在状态时，它与过去状态（即该过程的历史路径）是条件独立的，那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程。

隐马尔可夫模型状态变迁图，图片和马可夫性质介绍来自维基百科

随着互联网的兴起和大数据的到来，在对于众多数据的运用和提升上隐马尔可夫模型相深度神经网络在很多地方要薄弱一些，因此目前更主流的技术大多是基于机器学习所研究。虽然说目前有众多不同的技术手段充斥在语音识别研究当中，归根结底来说目前这些算法仍旧基于统计模型。

在实际应用当中，还要提到的两个概念是“声学模型”和“语言模型”，其中声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示。简单理解的话，可以类比于将“小编想放假”转换为“xiao bian xiang fang jia”，而语言模型是用来理解“xiao bian xiang fang jia”这句话的内容的，然而这两个模型的数据量往往都十分巨大，这也是目前大部分同步翻译的软件/产品都需要联网到云端服务器的原因。

目前阶段想要完成一次从语音识别和翻译需要三个步骤：“语音识别-语义分析-语音合成”，想要实现其中每一项都需要各种各样的技术，而这其中的每一个技术都不是一篇文章能够讲述清楚地，所以暂时就不在本篇文章中多讲，有兴趣的的值友可以去了解一下相关的文献和研究报告。

Google 的语音合成系统WaveNet，上图为其结构图示

汉语语音识别现状

在对于语音识别的技术研究上，国外的研究规模要略早一些。不过对于汉语语音识别的研究，国内的高校和机构以及企业自然能够近水楼台先得月，在1986年提出的国家高技术研究发展计划（863计划）中就涉及到了对语音识别技术研究的专门立项。高校方面，清北、哈工大、上海交大、中科大等国内知名高效和科研机构都有实验室进行了相关研究。而科技型企业也有像科大讯飞、百度、搜狗这样的代表型公司。

百度

作为人工智能七大黑洞之一的百度，拥有着顶尖的人工智能人才团队，而且对于坐拥目前全球最大的中文搜索引擎的百度来说，在数据的获取上有着得天独厚的优势。百度研发的语音识别系统叫做Deep Speech，后续版本Deep Speech 2还被MIT Technology Review列为十大科技突破之一，上文中提到的汉语语音识别超过人类水平的也就是这款产品。在年末百度推出了Deep Speech 3，其转录普通话的能力和水平又得到了再一次的提升。

科大讯飞

科大讯飞未必是汉语语音识别技术的一哥，但的的确确是名声最响的一家，除了技术本身过硬之外，科大讯飞懂得如何让技术落地也是一个重要原因。小编在写这篇文章之前也同科大讯飞的工作人员简单聊了聊，对方表示翻译对科大讯飞来说是一个很大的市场，对于企业和消费者都有不同的产品推出，其中面向个人用户的有翻译机产品，可基于神经网络算法做到离线引擎翻译；面向企业用户有“讯飞听见”，这是一款可提供中英文同声传译的产品和服务，在很多大型的会议场景中都出过它的身影。

除了百度的Deep Speech和科大讯飞之外，还有像是微信、搜狗这样的互联网大厂，以及出门问问、云知声和思必池这样的技术型公司在汉语语音识别有所研究。

手机应用推荐

而在面向消费者的产品形态上，目前市面上有硬件和软件两种模式。硬件比如科大讯飞的晓译翻译机，是厂商为了盈利所打造的产品，会调用相比免费软件更好的资源。而软件的选择众多，小编也简单为各位列举了几款：有道翻译官：官网 | 有Andriod和iOS版本

出国翻译官：官网 | 有Andriod和iOS版本

Google 翻译：官方地址 | 国内网络环境直接可用，无需要其它神秘的操作~

一则灵魂拷问

写在最后

语音识别技术这种“机器感知”类的技术目前已经相对成熟，制约语音交互发展的更多原因在语义理解这种“机器认知”的部分，这一部分受限于训练方式、样本标记数据量、计算量等多个方面。其中如何能让机器理解中有一个矛盾点：机器不通过学习的话无法理解，但机器不理解又没有办法进行相关的学习。由于这方面的标记十分有限，而目前采用的非监督学习的训练方式依旧处于探索的阶段，还不足以解决这种困难。

而且汉语语音识别本身也有些问题还没有得到解决：比如说目前没有一个公用测评的标准数据集，各家宣称的识别准确率无法直接横向对比，且部分厂商有掺水嫌疑；其次还有着我国方言众多、需要理解使用者的重复说话和打断以及噪音等种种问题需要解决。

“只学母语就可走遍天下”说的不只是人与人之间的交流，也可能是未来人与机器进行交流的一种方式。诚然，无论是语音识别还是语音交互技术，都离实现这一目标还有着不小的距离。但，我们十分期待着那一天的到来。

太长不看版

重要事件节点语音识别技术在20世纪50年代诞生于贝尔实验室

在20世纪80年代末，卡耐基梅隆大学推出了第一个高性能的非特定人、大词汇量连续语音识别系统。

百度表示自家汉语语音识别技术词错率低于人类平均水平。

10月，微软表示英文语音识别词错率低于人类平均水平。

技术简介隐马尔可夫模型是此前语音识别中的主导模型，在后续研究过程中有更多种更适合新技术和模型出现。

面对大量的数据的运用和提升时，隐马尔可夫模型不如深度神经网络优秀，因此运用机器学习进行语音识别来做研究的越来越多。

其他技术类的概念无法缩略成太短的介绍，建议看文章

汉语语音识别现状国内有多所高效和企业早已开展语音识别相关研究，国家的863计划对其也有专项的扶持。

百度的语音识别系统Deep Speech 在学术界和业界表现真的不错。