失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 【智能语音】神经网络如何模拟人耳听觉机制?

【智能语音】神经网络如何模拟人耳听觉机制?

时间:2020-07-04 13:59:53

相关推荐

【智能语音】神经网络如何模拟人耳听觉机制?

人的耳朵是一个非常精巧的声音处理系统。总体来说,声音引起鼓膜振动,经过听小骨传递到耳蜗后,形成神经脉冲传到大脑中形成声音感知。在这一过程中,耳蜗是物理振动转换成神经电信号的核心部件,很多人耳感知的特性就是在这里形成的。例如,当一个声音已经存在且音量较高时,我们将很难感知另一个音高差不多的声音。类似的,当两个强音之间夹杂一个短暂的低音或噪音,我们也很难察觉这些短暂变化的存在。这一现象称为人耳的掩蔽效应。这些感知特性和声音信号在耳蜗中的处理过程相关。声音在耳蜗中的传导是一个“频率选择”的过程,当传导到耳蜗的不同位置时对某一特定频率产生反应,这些反应互相叠加组合,从而形成了复杂的神经信号。

图1:人的内耳[1]

为描述这一感知过程,科学家们提出了一种称为传输线(Transmission Line, TL)的计算模型。这一模型将耳蜗分成若干段,每一段描述为一个差分方程。这一模型可以很精确地描述耳蜗的生理特性,可惜计算量太大,很难用到实际系统中。

近日,自然-机器智能语音杂志刊载了一篇论文[2],用机器学习方法解决了TL模型的计算问题。在这篇论文中,作者将耳蜗分成210段建立TL模型,然后利用一个称为CoNNear的卷积神经网络来近似TL模型的输出(图2)。实验表明,CoNNear可以对TL模型做很好的近似,而计算效率提高了2000倍。

图2:CoNNear训练示意图。给定一段语音,利用TL模型(龟速运行)生成耳蜗响应,这些响应作为目标来训练CoNNear(兔子模拟),使得网络可以模拟TL的输出

图3:CoNNear对TL的近似结果。

图3给出了CoNNear对TL的近似结果,其中第一行为原始声音,第二行为TL的输出(类似人耳的真实响应),第三行为CoNNear的近似结果,最后一行为TL和CoNNear预测的误差。可以看到,速度提高了2000倍的CoNNear在预测结果上和TL非常相似,验证了这一方法的有效性。

CoNNear带来的一个启发是利用机器学习,一些计算很复杂的传统方法有可能用神经网络进行合理的近似,从而极大提高传统方法的应用范围。同时,传统方法的本身理论基础又为神经网络学习提供了约束,从而提高神经网络的可信性。

语音之家助力AI语音开发者的社区

如果觉得《【智能语音】神经网络如何模拟人耳听觉机制?》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。