失眠网 > 语音识别研究综述——阅读笔记3（端到端语音识别语音识别的难度与热点）

语音识别研究综述——阅读笔记3（端到端语音识别语音识别的难度与热点）

时间：2022-01-07 16:05:35

端到端语音识别

传统语音识别由多个模块组成，彼此独立训练，但各个子模块的训练目标不一致，容易产生误差积累，使得子模块的最优解并不一定是全局最优解。

针对这一问题，提出了端到端语音识别，直接对等式（1）中的概率P（W|X）进行建模，将输入的语音波形（或特征矢量序列）直接转换成单词、字符序列。

端到端的语音识别将声学模型、语言模型、发音词典等模块容纳至一个系统，通过训练直接优化最终目标，如词错误率（WER）、字错误率（CER），极大地简化了整个建模过程。

目前端到端的语音识别方法主要有：基于连接时序分类（CTC）和基于注意力机制（attention model）两类方法及其改进方法。

CTC引入空白符号（blank）解决输入输出序列不等长问题，最大化所有可能对应的序列概率之和，无需考虑语音帧和字符的对齐关系，只需要输入和输出就可以训练。基于CTC的模型结构简单，可读性强，但对发音词典和语言模型的依赖性较强，且需要做独立性假设。RNN-Transducer模型加入一个语言模型预测网络，并和CTC网络通过一层全连接层得到新的输出，解决了CTC输出需要做条件独立性假设的问题，能够对历史输出和历史语音特征进行信息积累。

基于注意力机制的端到端模型能够自动实现两种语言的不同长度单词序列之间的转换，该模型主要由编码网络、解码网络和注意力子网络组成。编码网络将语音特征序列经过深层神经网络映射成高维特征序列，注意力网络分配权重系数，解码网络负责输出预测的概率分布。Listen-Attend-Spell(LAS)模型，真正实现了端到端，所有组件联合训练，也无独立性假设要求，但LAS模型需要对整个输入序列之后进行识别，因此实时性较差。