失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 如何构建语音识别能力?有哪些语音数据集?

如何构建语音识别能力?有哪些语音数据集?

时间:2019-07-19 09:39:40

相关推荐

如何构建语音识别能力?有哪些语音数据集?

语音已经是目前市场上的人工智能产品的主要入口之一,语音识别也是当前人工智能领域的重点研究方向,在家居、汽车、机器人等方面有着广泛的应用,未来也将深入到我们学习、生活、工作的各个环节。

随着人工智能的快速发展,国内外科技巨头不断推出自己的应用产品。百度旗下的DuerOS已经成了国内规模最大、最活跃、生态最繁荣的对话式人工智能操作系统。从驾车时“小度小度,导航回家”到小度在家智能音箱快速进入千家万户。

图片来自网络

语音识别巨头科大讯飞旗下的的讯飞翻译机,可帮助使用者在各语种间快速互译,并且准确识别方言。

图片来自网络

搜狗今年新发布的AI录音笔,不仅内置智能降噪功能,还支持对记录语音转写文本后并提供智能摘要。

图片来自网络

如此之多的人工智能产品,相信有不少其他行业的小伙伴好奇,从零开始,构建基础语音识别能力又该从哪里入手呢? 目前业界公认的语音识别技术能力主要分为基础语音识别、基于不同应用场景特征性语音识别。对于基础语音识别技术来说,只要语音活动检测( Voice Activity Detection,简称VAD)检测到有语音输入,唤醒识别系统,读懂说话者意图并作出回应,即为一个优秀系统。 通过语音识别系统原理,我们不难得知语音数据对于声音及语言模型的建立与优化起着至关重要的作用。

语音识别系统原理

基础语音识别能力的训练数据可分为:朗读语音、自然对话、引导语音、噪音环境、情感语音、声纹识别等六大类语音数据。其中,朗读语音,即说话人参照着预定文本进行朗读或复述,该语音数据的优点是要录制的文本内容可以提前设计,使得话题覆盖领域和音素平衡达到理想状态,同样,朗读语音也是构建基础语音识别能力的最佳数据。

朗读类语音数据

普通话

1505小时普通话手机采集语音数据

849小时普通话家居交互手机语音数据

662小时中文重口音手机采集语音数据

132小时中文重口音手机采集语音数据

1026小时中文重口音手机采集语音数据

203人噪音环境口音普通话手机采集语音数据_朗读

方言:

1044小时闽南语手机采集语音数据

1652小时粤语手机采集语音数据

1032小时上海方言手机采集语音数据

250人苏州方言手机语音采集数据

400人杭州方言手机语音采集数据

1000小时长沙方言手机采集语音数据

794小时四川方言手机采集语音数据

1000小时武汉方言手机采集语音数据

1000小时昆明方言手机采集语音数据

312人东北方言手机采集语音数据

463人河南方言手机采集语音数据

738小时维语手机采集语音数据

1000小时藏语手机采集语音数据

204人台湾普通话手机采集语音数据_朗读

英语:

201小时北美英语手机采集语音数据

215小时美式英语手机采集语音数据_朗读

800小时美式英语手机采集语音数据_交互场景

199小时英式英语手机采集语音数据_朗读

800小时英式英语手机采集语音数据

1000小时印度英语手机采集语音数据

593小时中国人说英语手机采集语音数据

500小时中国人说英语手机采集语音数据

500小时西班牙人说英语手机采集语音数据

520小时法国人说英语手机采集语音数据

535小时德国人说英语手机采集语音数据

200小时意大利人说英语手机采集语音数据

200小时葡萄牙人说英语手机采集语音数据

200小时拉丁美洲人说英语手机采集语音数据

500小时日本人说英语手机采集语音数据

500小时韩国人说英语手机采集语音数据

500小时俄罗斯人说英语手机采集语音数据

200小时巴西人说英语手机采集语音数据

500小时澳大利亚英语手机采集语音数据

500小时加拿大英语手机采集语音数据

300小时新加坡英语手机采集语音数据

200小时马来西亚英语手机采集语音数据

欧洲语系:

211小时德语手机采集数据_朗读

1800小时德语手机采集语音数据

215小时意大利语手机采集语音数据_朗读

347小时意大利语手机采集语音数据

1440小时意大利语手机采集语音数据

232小时法语手机采集语音数据_朗读

768小时法语手机采集语音数据

227小时西班牙语手机采集语音数据_朗读

338小时西班牙语手机采集语音数据

435小时西班牙西班牙语手机采集语音数据

780小时墨西哥哥伦比亚西班牙语手机采集语音

1000小时欧洲葡萄牙语手机采集语音数据

800小时俄语手机采集语音数据

亚洲语系:

241小时印地语手机采集语音数据_朗读

824小时印地语手机采集语音数据

235小时日语手机采集语音数据

265小时日语手机采集语音数据

514小时日语手机采集语音数据

197小时韩语手机采集语音数据_朗读

357小时韩语手机采集语音数据

500小时韩语手机采集语音数据

292小时泰语手机采集数据_朗读

360小时印尼语手机采集语音数据_朗读

640小时印尼语手机采集语音数据

156人马来西亚语手机采集数据_朗读

365小时马来语手机采集语音数据

500小时越南语手机采集语音数据

美洲语系:

1000小时巴西葡萄牙语手机采集语音数据

朗读类语音数据产品优势

l 单人录音时长控制在30分钟左右,同等时长覆盖更多录音人

l 录音文本设计贴合应用,覆盖书面语、通用口语、交互场景、家居及车载命令等日常应用场景l 多设备通道同时录制的数据,只计算单一通道的语音时长,销售时长按单一通道算(其他通道数据赠送)

英式英语朗读类语音数据案例

数据的质量就是语音识别能力的质量

训练数据的匹配度和丰富性是推动语音识别系统性能提升的最重要因素之一,数据的好坏对总体性能的影响甚至超过了算法本身。数据堂的语音数据产品可以做到从市场实际应用场景出发,覆盖不同场景下发音内容的多样性,从而达到训练数据与真实应用场景中的数据高度匹配,帮助快速提升语音识别的性能。

如果觉得《如何构建语音识别能力?有哪些语音数据集?》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。