Nat. Commun.前沿:从实验数据中学习可解释的随机复杂系统动力学
Nat. Commun.前沿:从实验数据中学习可解释的随机复杂系统动力学
具有众多交互节点的复杂系统本质上是随机的,最佳描述方式为随机微分方程。尽管观测数据日益增多,从实验数据中推断这些方程依然充满挑战。近期发表在Nature Communications上的研究提出了一种Langevin图网络方法(LaGNA),用于学习复杂网络系统的隐藏随机微分方程。并将该方法应用于两个实际系统:鸟群运动和大脑中tau病理扩散。推断出的鸟群方程与二阶Vicsek模型高度相似,首次提供了Vicsek模型能够捕捉真实集群动态的证据。此外,该方法揭示了tau蛋白在小鼠大脑中传播的控制方程,使得早期预测各脑区的tau占据情况成为可能,并揭示了突变小鼠的不同病理动态。
论文题目:Learning Interpretable Dynamics of Stochastic Complex Systems from Experimental Data
论文地址:https://www.nature.com/articles/s41467-024-50378-x
1. LaGNA框架
图1展示了LaGNA框架的总体结构。该框架假设每个节点的动力学方程具有特定形式。在LaGNA的第一阶段,设计了消息传递机制,该机制由三个神经网络(NN)模块组成:自动态模拟器、交互动态模拟器和扩散模拟器。这些模块旨在分离隐藏在节点活动数据中的动态源。
由于系统存在随机性,直接最小化预测值与实际值的差值会导致过拟合。因此,研究采用了更稳健的方法,考虑了随机性的影响。具体来说,使用所有节点在时刻t的状态作为输入,基于网络拓扑Aij,通过函数g(xi(t), xj(t))映射节点j到节点i的信息流。估计的信息值随后按元素进行聚合,汇总接收节点在所有相应发送节点上的值。此外,使用函数f(xi(t))映射每个节点i的自动态。节点i的活动分布的估计均值和方差可以分别表示为:
2. 自动力学、交互动力学、扩散过程的推理
在LaGNA模型经过充分训练并分离了自动力学、交互和扩散部分后,研究采用两阶段推断方法的核心思想,以推导每个部分的简明形式。具体来说,使用预先构建的包含常用基本函数的三个广泛的库LF、LG和LΦ,将时间序列数据xi(t)(其中i∈n)引入LF、LG和LΦ,并得到时间变化的矩阵。然后,推理问题可以用如下估计值表示:
图2展示了LaGNA与其他五种主流符号学习方法在随机洛伦兹网络动力系统上的对比结果,显示LaGNA具有最高的准确性。
3. 真实场景数据
3.1 从真实数据中推理鸟群的动力系统
通过在鸽子身上装置GPS,研究人员记录了鸽子回程中的位置数据。利用LaGNA框架分析这些数据,发现其结果与著名的Vicsek模型高度相似。这一发现首次提供了实验证据,证明Vicsek模型不仅是一种简化的理论模型,更有能力捕捉真实集群的动力学过程。
图3展示了二阶Vicsek模型生成的3维轨迹,以及通过LaGNA推断出的扩散、自动态、凝聚和对齐强度等关键参数。此外,还展示了从四个实测数据集推断出的鸟群聚集动力学,包括推断的SDE生成的力场与实测数据的对比,以及使用推断出的SDE生成的鸟群轨迹。
3.2 推理tau病理学在小鼠大脑中的传播动力学
Tau蛋白在维持轴突微管的稳定性方面起着至关重要的作用。研究应用LaGNA方法成功推断了控制tau蛋白扩散的随机微分方程。研究首先获取了tau蛋白在小鼠大脑中扩散的实验数据,捕捉了病理扩散过程中的不同脑区活动。LaGNA将这些扩散数据与神经解剖学连接相匹配,并推断出控制tau病理扩散的方程,能够早期预测每个脑区的tau病理占据情况。研究还揭示了不同突变小鼠的病理动态差异,为理解阿尔茨海默病中tau蛋白的传播机制提供了新的见解。
图4展示了实验数据、神经解剖学连接图,以及实际和预测的tau病理占据面积随时间的对比。此外,还展示了隐式有效模型和显式异质模型之间的预测对比,以及LRRK2G2019S突变小鼠病理数据中推断扩散方程的有效性。
4. 总结
从观测数据中推断复杂系统的控制方程是实现科学发现自动化的重要方向。过去的研究主要集中在对已知模型系统进行算法基准测试,而本文深入研究了两个重要的真实系统(鸟群聚集与tau蛋白病理扩散),成功提取了它们的隐含网络化随机微分方程(SDEs),展示了方法的适用性并带来了新的见解。LaGNA方法只需要一次节点活动序列试验和快照数据(而非连续时间序列),提高了其灵活性和适应性。
尽管LaGNA相较于现有方法展现了优越性能并对真实复杂系统提供了有价值的洞见,但仍存在需要未来研究关注的局限性。首先,在某些场景中,部分节点的时间序列可能无法获得,因此需要确定揭示系统动态的最小子网络结构。其次,真实数据中常包含内在和外在噪声,区分这些噪声类型极具挑战性。在外在噪声较大时,可以通过去噪预处理步骤(如Kalman-Takens滤波器)来增强推断能力。第三,尽管LaGNA的第二阶段使用的预构建库包含大量基本函数项,但仍有可能遗漏某些特征,因此需要进一步提升方法的自动化。最后,近年来对复杂系统中的高阶交互研究兴趣增加,LaGNA可以通过引入第三阶交互项扩展到高阶系统,但这也增加了识别最佳方程的复杂性,为未来的研究提供了有前景的方向。
参考文献
[1] Gao, Ting-Ting, Baruch Barzel, and Gang Yan. “Learning Interpretable Dynamics of Stochastic Complex Systems from Experimental Data.” Nature Communications 15, no. 1 (July 17, 2024): 6029. https://doi.org/10.1038/s41467-024-50378-x.
[2] Gao, Ting-Ting, and Gang Yan. “Autonomous Inference of Complex Network Dynamics from Incomplete and Noisy Data.” Nature Computational Science 2, no. 3 (March 2022): 160–68. https://doi.org/10.1038/s43588-022-00217-0.