失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

时间:2023-05-04 19:50:41

相关推荐

语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp./s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

Recent Advances in End-to-End Automatic Speech Recognition

本篇综述是微软JINYU LI在.11.02更新的文章,主要从产业界的角度对最近几年端到端ASR的发展进行总结,感兴趣的读者可以阅读该文章,具体的文章链接/pdf/2111.01690.pdf

一介绍

相对于传统的混合模型的ASR,端到端E2E的ASR系统具备以下优点:1)混合模型的每个模块优化都是单独优化,不能保证获取全局最优,而E2E的ASR使用一个优化函数来优化整个网络;2)E2E的ASR直接输出character或者words,简化流程;而混合模型的每个模块都需要相应的专业知识;3)相对于混合模型,e2e模型使用一个网络进行识别,整个系统更加紧凑,可以更便捷在设备上部署。虽然端到端的ASR具备以上优点,而且在很多benchmarks超过混合模型,但混合模型在工业界依然占据主要市场。混合模型在工业界发展数十年,在streaming,latency,adaptation capability,accuracy等方面的方案技术有较厚的积累,e2e的asr要想替代混合模型,必须在以上诸多方面超越混合模型。本文为了促进e2e的asr方案落地,从工业界的角度对近年来的e2e的方案进行总结,更好的应对以上的挑战。

二端到端模型(end-to-end models)

现在主流的E2E的ASR模型主要包括a)CTC (connectionist temporak classification) b) AED(attention-based Encoder-Decoder) c)RNN-T(recurrent neural network Transducer。其主要网络结构如图一所示

其中CTC的结构如图1(a)所示,本文简单举例ctcpath如图2

图1(b)为AED模型,其为了实现streaming方式,需要对attention进行处理,本文列举了AED使用的四种attention,如图3所示

RNN-T主要如图1(c)所示。以上结构详细信息请读者阅读该文章。

三Encoder

端到端的ASR主要部分encoder,该部分主要把输入信息进行高级的特征表示,本文对encoder使用的结构类型进行总结

A)Lstm

B)Transformer

图5展示了transfomer和目前流行的confomer结构。

为了实现streamingASR,需要在attention使用mask策略,使其只看到部分的context。图6展示了不同的attenion及对应的mask矩阵。

四其它的训练准则

A) teacher-student learning

B) Minimum Word Error Rate Traing

五多语言模型

本部分主要介绍多语言模型以及方案,主要介绍了使用语言ID(LID)的优劣和CMM方案,以及code-switching在句内和句间的挑战。

六自适用

A) speaker adaptation

主要使ASR在对应的个人效果更好,常用的方案使用speakerembeddings对应的语料进行微调,但更多情况下是如何处理每个说话人拥有较少语料。而且本部分也提到如何在用户端进行训练,不需要把用户数据发送到服务端,从而保证用户数据安全。

B)DomainAdaptation

该部分主要介绍DomainAdaptation,其主要介绍使用文本进行LM方案和TTS-based的方案。

C) Customization

七Advanced Models

A)非自回归模型Non-Autoregressive Models

B)Unified Models

流式和非流式方案的结合,动态计算等等

C)Two-pass Models

D)Multi-talker Models

E)Multi-channel Models

八多种多样的主题

a)更多语音的toolkits

b)系统使用的建模单元:characters,word-piece,words等等

c)limited data,dataaugmentation, self-supervised等等

d)模型部署的研究,模型压缩,量化等等

e)asr模型的输入直接使用waveform而不是声学特征等等。

f)鲁棒性的研究

九总结

本文列举端到端ASR相比混合模型方案的优势以及劣势。​为了促进端到端对混合模型在工业界的替代,本文详细描述了端到端ASR的模型、挑战以及各种解决方案。最后作者也可列举端到端ASR未来的挑战。

如果觉得《语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。