失眠网 > 0510 语音识别资源整理

0510 语音识别资源整理

时间：2022-07-14 06:20:53

相关推荐

0510 语音识别资源整理

语音处理课程推荐|Speech Processing（）台师大

Speech Processing。国立台湾师范大学的陈柏琳教授。

http://berlin.csie.ntnu.edu.tw/Courses/Speech%20Processing/Speech%20Processing_Main_S.htm

陈教授教学多年，主页上还有好多其他课程。

http://berlin.csie.ntnu.edu.tw

英国爱丁堡大学ASR课程 ------ 笔记

知识星球上的壹鸽技术工程也会分享很有语音相关的资料和paper

王赟的知乎live：语音识别的前世今生，小白必看

有关王赟：here

知乎上有很多做语音的牛人，关注他们也能看到很多资源

学堂在线上有很多基础的课程，比如信号与系统，数据挖掘之类

慕课网mooc也可以找完整的视频课程，和中文慕课网好像还不一样

还有网易云课堂，网易公开课，这俩是不同的资源啊，给网易点赞

还有B站，快变成一个教育类网站了，有很多从youtube过来的视频

国内大学有语音实验室的，暂时只知道：

清华，清华大学语音和语言技术中心 website

厦大，厦门大学智能语音实验室 website

中科大，语音及语言信息处理国家工程实验室，here *~~（这个实验室的网站做的最霸气）~~*

中科院声学所，中科院语言声学与内容理解重点实验室 here

西北工业大学，音频、语音与语言处理研究组 here ，智能声学与临境通信研究中心

上海交大，上海交通大学智能语音实验室，here

待补充。

一些主页：

语音识别基本法–by清华语音和语言技术中心：here

强烈推荐，这个基本法是清华的几个博士写的，1月才整理好的。虽然都比较基础，但是很系统吧。对某方面有兴趣可以专门找这个博士发表过的论文。

基于《Kaldi语音识别》技术及开源语音语料库分享：here

里面关于数据集少了一个清华出的一个CN-Celeb：here

清华郑方老师：here

清华王东老师： here

清华汤志远老师：here

清华石颖老师：here

清华李蓝天老师：here

-Robustness-Related Issues in Speaker Recognition：here

清华欧志坚老师： here

昆山杜克大学李明老师：here

厦门大学洪青阳老师：here

google学术搜索：here

语音识别入门资源：here

语音小朋友常用网址：here

语音资料和资源归总……

/wbgxx333/article/details/19930409

说话人识别/声纹识别学习路径的资料整理,从零学声纹识别

/robingao1994/article/details/82659005

SIDEKIT 1.3.3

/project/SIDEKIT/

国内做语音相关的公司，大厂的名字就不说了，基本都做。教育类网站和app也基本都做。

思必驰，here

灵声讯，

壹鸽，

希尔贝壳，here

待补充。

人工智能百度AI:语音识别JAVA类视频课程

/course/11661.html

百度人工智能语音类（识别+合成）系列专题

/topic/1362.html

52nlp：我爱自然语言处理

斯坦福大学《语音与语言处理》第三版

待查找：

黄学东博士的Spoken Language Processing

L. Rabiner教授和美国国家工程院院士庄炳煌教授合著的Fundamentals of Speech Recognition

王一蒙. 语音识别关键技术研究[D]. 电子科技大学, .

刘超. 语音识别中的深度学习方法[D]. 清华大学, .

张建华. 基于深度学习的语音识别应用研究[D]. 北京邮电大学, .

周盼. 基于深层神经网络的语音识别声学建模研究[D]. 中国科学技术大学, .

柯登峰, 徐波. 互联网时代语音识别基本问题[J]. 中国科学：信息科学, , 43(12):1578-1597.

GMIS | 腾讯AI Lab副主任俞栋：语音识别研究的四大前沿方向，机器之心

语音数据集整理：

2000 HUB5 English: 从40个电话对话抽取的英语口语数据LibriSpeech: Audiobooks的数据集，包含了500个小时不同读者读的audiobooks录音，根据audiobooks的章节进行组织的。 hereTED-LIUM: 1495个TED的演讲录音Free Spoken Digit Dataset: 1500个英语读数字的录音TIMIT: 630个美国英语发音的朗读者的数据集。timit数据集介绍及下载地址：herevoxceleb数据集介绍及下载地址：here

这个链接也是语音数据集

免费的中文语音数据集汇总列表

（有时间自己要整理一下，首先要有数据集的下载链接，其次有简单介绍，比如有多少人，来源是什么比例是什么大概多少G，再有数据集的论文介绍的话附上论文下载地址）

讲座：

清华大学王东：语音识别中的大数据与小数据学习

.4.20声纹识别研究与应用学术讨论会

帮我打开“我的电脑”，用这个例子告诉你语音识别的一般步骤

语音的基本概念–译自CMU sphinx

这是CMU sphinx语音识别系统wiki的第一部分，主要是介绍语音的一些基本概念的。我试着翻译了一下。英语水平受限，翻译难免出错，请各位不吝指点！

语音识别的发音词典是什么，它用来做什么

发音字典(lexicon)包含了从单词(words)到音素(phones)之间的映射，作用是用来连接声学模型和语言模型的。发音字典包含系统所能处理的单词的集合，并标明了其发音。通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系，从而把声学模型和语言模型连接起来，组成一个搜索的状态空间用于解码器进行解码工作。

中文词-音素的转换（英文是字母序列到音素序列的转换），也就是G2P（Grapheme-to-Phoneme Conversion）What is G2P，转换的工具有现成的么?，有

The process of converting a sequence of letters into a sequence of phones is called grapheme-to-phoneme conversion, sometimes shortened g2p.

将字母序列转换为音素序列的过程称为字母到音素的转换，有时简称为g2p。

The job of a grapheme-to-phoneme algorithm is thus to convert a letter string like cake into a phone string like [K EY K].

因此，字母到音素算法的工作是将字母串(如cake)转换为音素串(如[K EY K])。

（工具请参考原网址）

The CMU Pronouncing Dictionary–官方网站

Building a phonetic dictionary–官方网站

CMUSphinx:入门

音标与音素的区别？

/question/274228630

声音的基本属性