声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp./s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。
Recent Advances in End-to-End Automatic Speech Recognition
本篇综述是微软JINYU LI在.11.02更新的文章,主要从产业界的角度对最近几年端到端ASR的发展进行总结,感兴趣的读者可以阅读该文章,具体的文章链接/pdf/2111.01690.pdf
一介绍
相对于传统的混合模型的ASR,端到端E2E的ASR系统具备以下优点:1)混合模型的每个模块优化都是单独优化,不能保证获取全局最优,而E2E的ASR使用一个优化函数来优化整个网络;2)E2E的ASR直接输出character或者words,简化流程;而混合模型的每个模块都需要相应的专业知识;3)相对于混合模型,e2e模型使用一个网络进行识别,整个系统更加紧凑,可以更便捷在设备上部署。虽然端到端的ASR具备以上优点,而且在很多benchmarks超过混合模型,但混合模型在工业界依然占据主要市场。混合模型在工业界发展数十年,在streaming,latency,adaptation capability,accuracy等方面的方案技术有较厚的积累,e2e的asr要想替代混合模型,必须在以上诸多方面超越混合模型。本文为了促进e2e的asr方案落地,从工业界的角度对近年来的e2e的方案进行总结,更好的应对以上的挑战。
二端到端模型(end-to-end models)
现在主流的E2E的ASR模型主要包括a)CTC (connectionist temporak classification) b) AED(attention-based Encoder-Decoder) c)RNN-T(recurrent neural network Transducer。其主要网络结构如图一所示
其中CTC的结构如图1(a)所示,本文简单举例ctcpath如图2
图1(b)为AED模型,其为了实现streaming方式,需要对attention进行处理,本文列举了AED使用的四种attention,如图3所示
RNN-T主要如图1(c)所示。以上结构详细信息请读者阅读该文章。
三Encoder
端到端的ASR主要部分encoder,该部分主要把输入信息进行高级的特征表示,本文对encoder使用的结构类型进行总结
A)Lstm
B)Transformer
图5展示了transfomer和目前流行的confomer结构。
为了实现streamingASR,需要在attention使用mask策略,使其只看到部分的context。图6展示了不同的attenion及对应的mask矩阵。
四其它的训练准则
A) teacher-student learning
B) Minimum Word Error Rate Traing
五多语言模型
本部分主要介绍多语言模型以及方案,主要介绍了使用语言ID(LID)的优劣和CMM方案,以及code-switching在句内和句间的挑战。
六自适用
A) speaker adaptation
主要使ASR在对应的个人效果更好,常用的方案使用speakerembeddings对应的语料进行微调,但更多情况下是如何处理每个说话人拥有较少语料。而且本部分也提到如何在用户端进行训练,不需要把用户数据发送到服务端,从而保证用户数据安全。
B)DomainAdaptation
该部分主要介绍DomainAdaptation,其主要介绍使用文本进行LM方案和TTS-based的方案。
C) Customization
七Advanced Models
A)非自回归模型Non-Autoregressive Models
B)Unified Models
流式和非流式方案的结合,动态计算等等
C)Two-pass Models
D)Multi-talker Models
E)Multi-channel Models
八多种多样的主题
a)更多语音的toolkits
b)系统使用的建模单元:characters,word-piece,words等等
c)limited data,dataaugmentation, self-supervised等等
d)模型部署的研究,模型压缩,量化等等
e)asr模型的输入直接使用waveform而不是声学特征等等。
f)鲁棒性的研究
九总结
本文列举端到端ASR相比混合模型方案的优势以及劣势。为了促进端到端对混合模型在工业界的替代,本文详细描述了端到端ASR的模型、挑战以及各种解决方案。最后作者也可列举端到端ASR未来的挑战。
如果觉得《语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition》对你有帮助,请点赞、收藏,并留下你的观点哦!