失眠网 > 语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

时间：2023-05-04 19:50:41

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp./s/eJcpsfs3OuhrccJ7_BvKOg）。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

Recent Advances in End-to-End Automatic Speech Recognition

本篇综述是微软JINYU LI在.11.02更新的文章，主要从产业界的角度对最近几年端到端ASR的发展进行总结，感兴趣的读者可以阅读该文章，具体的文章链接/pdf/2111.01690.pdf

一介绍

相对于传统的混合模型的ASR，端到端E2E的ASR系统具备以下优点：1）混合模型的每个模块优化都是单独优化，不能保证获取全局最优，而E2E的ASR使用一个优化函数来优化整个网络；2）E2E的ASR直接输出character或者words，简化流程；而混合模型的每个模块都需要相应的专业知识；3）相对于混合模型，e2e模型使用一个网络进行识别，整个系统更加紧凑，可以更便捷在设备上部署。虽然端到端的ASR具备以上优点，而且在很多benchmarks超过混合模型，但混合模型在工业界依然占据主要市场。混合模型在工业界发展数十年，在streaming,latency,adaptation capability,accuracy等方面的方案技术有较厚的积累，e2e的asr要想替代混合模型，必须在以上诸多方面超越混合模型。本文为了促进e2e的asr方案落地，从工业界的角度对近年来的e2e的方案进行总结，更好的应对以上的挑战。

二端到端模型（end-to-end models)

现在主流的E2E的ASR模型主要包括a)CTC (connectionist temporak classification) b) AED(attention-based Encoder-Decoder) c)RNN-T(recurrent neural network Transducer。其主要网络结构如图一所示

其中CTC的结构如图1（a)所示，本文简单举例ctcpath如图2

图1(b)为AED模型，其为了实现streaming方式，需要对attention进行处理，本文列举了AED使用的四种attention,如图3所示

RNN-T主要如图1(c)所示。以上结构详细信息请读者阅读该文章。

三Encoder

端到端的ASR主要部分encoder,该部分主要把输入信息进行高级的特征表示，本文对encoder使用的结构类型进行总结

A)Lstm

B)Transformer

图5展示了transfomer和目前流行的confomer结构。

为了实现streamingASR，需要在attention使用mask策略，使其只看到部分的context。图6展示了不同的attenion及对应的mask矩阵。

四其它的训练准则

A) teacher-student learning

B) Minimum Word Error Rate Traing