失眠网 > 【智能语音】神经网络如何模拟人耳听觉机制？

【智能语音】神经网络如何模拟人耳听觉机制？

时间：2020-07-04 13:59:53

人的耳朵是一个非常精巧的声音处理系统。总体来说，声音引起鼓膜振动，经过听小骨传递到耳蜗后，形成神经脉冲传到大脑中形成声音感知。在这一过程中，耳蜗是物理振动转换成神经电信号的核心部件，很多人耳感知的特性就是在这里形成的。例如，当一个声音已经存在且音量较高时，我们将很难感知另一个音高差不多的声音。类似的，当两个强音之间夹杂一个短暂的低音或噪音，我们也很难察觉这些短暂变化的存在。这一现象称为人耳的掩蔽效应。这些感知特性和声音信号在耳蜗中的处理过程相关。声音在耳蜗中的传导是一个“频率选择”的过程，当传导到耳蜗的不同位置时对某一特定频率产生反应，这些反应互相叠加组合，从而形成了复杂的神经信号。

图1：人的内耳[1]

为描述这一感知过程，科学家们提出了一种称为传输线（Transmission Line, TL）的计算模型。这一模型将耳蜗分成若干段，每一段描述为一个差分方程。这一模型可以很精确地描述耳蜗的生理特性，可惜计算量太大，很难用到实际系统中。

近日，自然-机器智能语音杂志刊载了一篇论文[2]，用机器学习方法解决了TL模型的计算问题。在这篇论文中，作者将耳蜗分成210段建立TL模型，然后利用一个称为CoNNear的卷积神经网络来近似TL模型的输出（图2）。实验表明，CoNNear可以对TL模型做很好的近似，而计算效率提高了2000倍。

图2：CoNNear训练示意图。给定一段语音，利用TL模型（龟速运行）生成耳蜗响应，这些响应作为目标来训练CoNNear（兔子模拟），使得网络可以模拟TL的输出

图3：CoNNear对TL的近似结果。

图3给出了CoNNear对TL的近似结果，其中第一行为原始声音，第二行为TL的输出（类似人耳的真实响应），第三行为CoNNear的近似结果，最后一行为TL和CoNNear预测的误差。可以看到，速度提高了2000倍的CoNNear在预测结果上和TL非常相似，验证了这一方法的有效性。

CoNNear带来的一个启发是利用机器学习，一些计算很复杂的传统方法有可能用神经网络进行合理的近似，从而极大提高传统方法的应用范围。同时，传统方法的本身理论基础又为神经网络学习提供了约束，从而提高神经网络的可信性。

语音之家助力AI语音开发者的社区

如果觉得《【智能语音】神经网络如何模拟人耳听觉机制？》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。