失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 语音识别中输入输出的可能形式有哪些

语音识别中输入输出的可能形式有哪些

时间:2022-08-26 11:50:54

相关推荐

语音识别中输入输出的可能形式有哪些

序,语音信号的前处理

1,语音数据如何转化为features?

拿到10ms的语音数据后,常会利用一定大小的window将语音数据 切分成 若干份(在语音识别中,由window生成的一份语音片段被称为frame),每份语音片段在 通过 特定的数据转换方式(如:MFCC) 转成 feature,最后 在所有这些转化后的features拼接起来 作为 最终输入model 的 input。

需要注意的是,window在移动时,其移动步长常小于 length of window,因此,有window切分的语音片段,其信息大量冗余,这也在一定程度上 加快了数据的处理速度。

2,语音数据的标注方法

给定一个语音片段,直接将其内容转为文本信息,据此,获得一个 train sample。

一,语音识别模型的 输入 类型

1,直接将语音信号转为数值 作为 model 的 feature 输入模型

2,在 deeplearning 流行以前,常将 MFCC 作为 model 的 feature 输入模型,其dimension为39

3,deeplearning 得到极大发展以后,常将 filter bank output 作为 model 的 feature 输入模型,其dimension为80

由原始语音信号 到 filter bank 到 最复杂的feature MFCC 的转化 过程如下:

二,语音识别模型的输出 类型

1,Phoneme:a unit of sound , 比 英文英标还要小的单位

使用Phoneme作为output,需要额外建立一个 词典,将 word 和 phoneme 对应起来,从而能根据 输出的 Phonemes 得到 对应的 word。

值得一提的是,phoneme 需要语言学的知识,phoneme词典 并没有统一的规定,因此,不同的学者 产生的 词典 不一,在使用过程中难以统一。

2,Grapheme:smallest unit of a writing system

以英文为例,其组成单元为:26个英文字母,空格,标点符号。以中文为例,其组成单元为 方块字。

Grapheme存在的一个问题是:同音不同字,以英文为例,发音为/k/的字母 可能为 c 也可能 为 k,需要model 有很强的辨识能力才能准确辩时出来。

其优点在于,grapheme无需创建词典,只需将output串起来 即可得到 词。

3,word

对于英文来讲,由于不同的词之间会以空格分开,因此,分词很easy,但是,在外文中,word是可以被创造的,这也意味着 vocabulary 可能需要无限延长。

对于中文来讲,词之间没有明显的分割标志,outputs 还需 近一些 分词工具 才能得到 分词结果。

4,Morpheme:the smallest meaningful unit,在英文里,grapheme < morpheme <word。

举例说明:

unbreakable 可以由3个morpheme组成:un , break, able

rekillable 可以由3个morpheme组成:re, kill, able

Morpheme可以通过2种方式获得:

1)由 语言学家 给出;

2)通过 统计的方式,将那些高频出现的 pattern 作为 morpheme,但是,这种结果搜集的morpheme势必会含有一些噪音。

5,Bytes:可以使用 bytes作为输出,最后将所有bytes串起来,对应到相应的vocabulary 去转为 word。

由于在计算机中,无论是 中文,英文,还是其他外文,都对应着 一串 bytes sequence(utf8),采用这种形式训练模型,可以实现真正的 language independent!

在时,上述output使用情况如下表所示:

三,语音数据集

如果觉得《语音识别中输入输出的可能形式有哪些》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。