资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

一种新的混合大模型架构：TITAN

创作时间:

作者:

@小白创作中心

一种新的混合大模型架构：TITAN

引用

CSDN

https://blog.csdn.net/audyxiao001/article/details/144914262

近年来，随着城市化进程的加快和交通需求的日益增长，交通流预测已成为智能交通管理、城市规划和自动驾驶等领域的重要研究课题。然而，传统的交通流预测方法往往难以有效捕捉交通数据中的复杂时空特性。为了解决这一问题，来自腾讯AI Lab的研究团队提出了一种创新性的异构混合专家模型TITAN，该模型在两个公开数据集上超越了现有最优模型，实现了4.37%至11.53%的性能提升。

研究背景及主要贡献

1.1 交通流预测的挑战

交通流预测是根据历史传感器数据预测未来交通状况的关键任务，其广泛应用于智能交通管理、城市规划和自动驾驶等领域。然而，由于交通数据本身具有显著的时空异质性，传统方法（如支持向量回归、随机森林等）难以有效捕捉这些复杂特性。近年来，图神经网络的引入为非欧几里得空间建模提供了强有力的工具，但现有GNN模型仍存在以下局限：

变量中心建模不足： 多数模型主要关注时间序列中节点的时空关系，忽视了多变量间的动态交互。
路由优化不足： 基于专家选择的模型在早期训练阶段易发生次优路由，影响模型整体性能。

1.2 混合专家模型的潜力

混合专家模型（MoE）自提出以来，已经被应用于多个领域，通过动态选择最相关的专家以分担任务复杂性。然而传统MoE模型结构单一，未能充分利用异构专家的潜力。此外，MoE在时空任务中存在路由初始化不稳定的问题，导致其在交通流预测中的应用受限。

1.3 论文的主要贡献

设计了一种新的异构专家框架：集成序列中心、变量中心和先验知识中心的异构专家。通过多元建模方式捕捉更全面的数据依赖关系。
设计低秩适配矩阵：使用低秩矩阵优化不同专家之间的知识对齐，减少传统MoE的归纳偏差。
专家退火策略：在训练初期引入先验知识中心专家指导路由，逐步减弱干预，提升模型适应性。
显著性能提升：在多个评估指标上均实现提升，相比当前最优模型平均提高约4.37%至11.53%。

方法

图1 TITAN整体框架图

TITAN通过将以变量为中心和以先验知识为中心的方法与传统的以序列为中心的方法结合起来，从而克服以往模型难以训练、次优路由等问题。如图1所示，TITAN集成了这五个专家：三个以序列为中心的专家，一个以变量为中心的专家，以及一个先验知识专家。先验知识专家之外，这些专家都基于稍微修改过的Transformer体系结构，从而降低了训练的复杂性。最终输出通过路由机制进行管理，保证了专家的自适应选择。

2.1 序列中心专家

时间注意力模块：专注于捕捉不同时间步之间的依赖关系，并引入周期性嵌入（如周末与工作日差异）来提升预测的准确性。
时空注意力模块：通过两阶段的多头自注意力机制，分别建模节点间的空间相似性和时间依赖性。
记忆注意力模块：借助外部记忆模块增强对历史事件的捕捉能力，并通过图卷积网络进一步聚合空间特征。

2.2 变量中心专家

将时间序列转化为变量特定的令牌（tokens），通过自注意力机制捕捉变量之间的关系。
使用可训练的低秩矩阵对每一层进行调整，确保变量中心模型生成的隐藏状态与序列中心模型兼容，从而减少归纳偏差。

2.3 先验知识中心专家

基于动态时间规整（Dynamic Time Warping, DTW）矩阵计算节点间的相似性，用于初始化路由过程。
通过高斯核函数调整权重，避免远距离节点对预测结果的负面影响。

2.4 专家路由机制

动态路由：基于门控网络（Gating Network）实现，门控网络计算输入与每个专家的相关性分数，并通过Softmax归一化确定最终路由概率。
退火策略：在训练初期，通过先验知识中心专家指导路由选择，确保路由的合理性；训练后期逐步减少先验知识的干预，使模型更加依赖数据驱动的决策。
融合输出：各专家的输出根据路由概率加权后，生成最终预测结果。

实验及结果

3.1 数据集及对基线模型

数据集：
METR-LA：洛杉矶高速公路的207个传感器数据，覆盖4个月。
PEMB-BAY：加州湾区的325个传感器数据，覆盖6个月。
基线模型：比较了14个基线模型，包括STGCN、DCRNN、Graph-WaveNet、GMAN、MTGNN 等。

3.2 对比试验

论文在两个公开数据集上和十四种基线模型进行了对比，对比结果如表1所示，其中粗体表示最优解，带下划线表示次优解。表中实验结果表明，TITAN优于所有其他模型，与最佳基线相比，在所有预测范围内平均提高了约9%。以序列为中心的建模方法，包括静态图模型（DCRNN、RGDAN、MTGNN、CCRNN）和动态图模型（GMAN、AdpSTGCN），在捕获时空依赖性方面表现出竞争力。然而，STD-MAE通过在顺序和变分两个维度上重构时间序列来捕捉复杂的时空关系，从而取得了更好的性能。相比之下，论文提出的模型TITAN优于所有其他模型，包括那些具有可学习矩阵的模型。

表1 对比实验结果

3.3 消融实验

表2 消融实验结果

论文消融实验部分有两个目标：评估每种方法所取得的实际改进，并检验两个假设：(1)对于异构MOE模型，使用低秩自适应方法组织模型是有益的；(2)通过监督路由的方式组织专家是有效的。为了实现这些目标，论文设计了一组TITAN变体，通过移除或替换不同模块验证了各部分的重要性，变体内容及结果如表2所示，结果表明，移除变量中心专家：性能下降显著，验证了变量间关系建模的关键性。移除先验知识中心专家：早期路由表现不稳定，说明先验知识在训练初期的有效性。通过退火策略和低秩矩阵的引入，显著优化了模型的适应性和泛化能力。

总结与展望

论文提出了一种创新性的异构混合专家模型TITAN，在时空数据建模中表现卓越。其核心创新包括引入变量中心和先验知识中心的建模方式，结合动态路由机制和专家退火策略，有效解决了传统模型在变量关系建模和早期路由稳定性方面的不足。在时空依赖建模的有效性中，通过异构专家写作，分别从时间、时空、记忆注意力角度成功捕获了时空数据中的复杂依赖关系，显著提高了交通流预测的精度。此外，论文通过引入低秩适配矩阵和先验知识，为多样化的建模需求提供了灵活的框架。

在未来的发展中，论文尝试引入启发式算法进一步优化路由机制，并拓展TITAN到更广泛的多变量时间序列预测任务，深入研究异构专家间的协作机制，提升多模态数据处理能力。

论文链接： https://arxiv.org/abs/2409.17440

代码链接： https://github.com/sqlcow/TITAN