AI让失语者重新说话,纽约大学发布全新“神经-语音”解码器
AI让失语者重新说话,纽约大学发布全新“神经-语音”解码器
背景介绍
脑机接口(BCI)技术在科研和应用领域的进展备受关注,特别是在帮助失语症患者恢复交流能力方面。随着深度学习和脑机接口技术的快速发展,科学家们正致力于通过神经语音假肢来辅助失语者重新获得交流能力。
研究进展
最近,纽约大学VideoLab和Flinker Lab联合在《Nature Machine Intelligence》杂志上发表了一项突破性研究。研究团队开发了一个创新的可微分语音合成器,该合成器结合了轻量级卷积神经网络,能够将语音编码为一系列可解释的语音参数,如音高、响度和共振峰频率等,并利用可微分的技术重新合成语音。
研究团队收集了48位受试者的数据,并在这一基础上进行了语音解码的尝试,为高精度脑机接口技术的实际应用和发展打下了坚实的基础。图灵奖得主Yann LeCun也转发了这项研究进展。
主要模型框架
研究团队展示了一种创新的从脑电(ECoG)信号到语音的解码框架。他们构建了一个低维度的潜在表示空间,该空间通过一个轻量级的语音编解码模型,仅使用语音信号来生成。
这一框架包含两个核心部分:首先是ECoG解码器,它负责将ECoG信号转换为一系列可理解的声学语音参数,如音高、是否发声、响度及共振峰频率等;其次是语音合成器部分,负责将这些参数转换为频谱图。
通过构建一个可微分的语音合成器,研究人员实现了在训练ECoG解码器的同时,也对语音合成器进行优化,共同减少频谱图重建的误差。这种低维度潜在空间的可解释性强,结合轻量级的预训练语音编码器生成的参考语音参数,使得整个神经语音解码框架高效且适应性强,有效解决了该领域中数据稀缺的问题。
研究结果
时序因果性语音解码:研究者对不同模型架构(包括ResNet、LSTM和Transformer)进行了直接比较,发现即使是因果版本的ResNet模型,其性能也能与非因果版本相媲美。
左右大脑神经信号语音解码:研究发现右脑半球同样能够有效地进行语音解码,其效果与左脑半球相近。这一发现为那些左脑受损且失去语言功能的患者提供了一种可能的语言恢复方案。
脑区贡献度研究:研究显示,无论在大脑的左半球还是右半球,传感运动皮层特别是腹部区域对语音解码的贡献度都相似。这一发现表明,在右半球植入神经假肢来恢复语音可能是一个可行的方案。
未来展望
尽管取得了显著进展,研究者也指出了模型当前的一些局限性,如解码过程依赖于与ECoG记录配对的语音训练数据,这对于失语症患者可能不适用。未来,研究团队希望建立能够处理非网格数据的模型架构,并更有效地利用多病人、多模态的脑电数据。
随着硬件技术的持续进步和深度学习技术的快速发展,脑机接口领域的研究仍处于早期阶段,但随着时间的推移,科幻电影中的脑机接口设想将逐步成为现实。
参考资料:
- 论文链接:https://www.nature.com/articles/s42256-024-00824-8
- 代码开源地址:https://github.com/flinkerlab/neural_speech_decoding
- 更多生成的语音例子:https://xc1490.github.io/nsd/
本文原文来自澎湃