评估零样本时间序列预测中系统 1 与系统 2 推理方法:基准与见解
评估零样本时间序列预测中系统 1 与系统 2 推理方法:基准与见解
根据人类认知理论,人类的思考受到两个系统控制:
- System 1:系统 1,速度快,基于直觉。
- System 2:系统 2,速度更慢,更加深思熟虑。
问题背景
推理能力对解决复杂问题至关重要,近年来因基础模型(尤其是LLM)的发展而受到广泛关注。然而,其在时间序列预测(TSF)中的有效性尚未被探索,包括:(1)时序预测是否受益于推理能力? (2)时序预测需要何种推理策略?为此,作者构建了ReC4TS,首个用于评估多种主流推理策略在零样本TSF任务中有效性的基准,覆盖8个领域的数据集,评估单模态与多模态结合短期与长期预测四个场景。
该研究揭示了三点关键见解:
(1)测试时的自我一致性(self-consistency)可稳定提升时序预测表现;
(2)后训练时的相对群体策略优化(Group Relative Policy Incentivizing(GRPO), 以DeepSeek-R1为代表)更契合时序预测需求;
(3)多模态时序预测模型比单模态模型更能从推理能力增强中获益。
此外,作者提供了两项关键工具:
(1)基于self-consistency的测试时scaling-law,在多个时序预测基础模型进行了验证;
(2)Time-Thinking数据集:蒸馏自多个先进LLM的推理过程标注的TSF样本。
ReC4TS: 首个用于评估多种推理策略在零样本时序预测中有效性的基准
ReC4TS(ComparingResoning StrategiesforTimeSeries Forecasting) 由四个核心模块组成:数据集、推理策略、模型和评估。
数据集模块:
ReC4TS的数据集涵盖农业、气候、经济、能源、健康、安全、就业和交通八大领域,提供数值时间序列与对齐的、基于关键词的网络搜索的文本上下文序列,以支持时序预测任务,并确保全面评估推理策略的有效性。
推理策略模块:
ReC4TS 结合三种推理策略:(1)直接使用生成模型的推理(System 1)(2)在推理时增强的System 1推理(如 Chain of Thought, Self-Consistency, Self-Correction),以及(3)post-training优化的推理(System 2)(如 DeepSeek-R1), 其具备内在的长链推理能力。
基础模型模块
ReC4TS 评估了三大系列的基础模型(OpenAI、Google、DeepSeek),涵盖封闭源与开源模型,并提供 对应的System 1(如 DeepSeek-V3)和System 2(如 DeepSeek-R1)版本。由于时间序列基础模型的推理策略仍未被探索且难以直接实现,复用基础语言模型是当前的最佳方案。
评估模块
ReC4TS 评估了四种零样本时序预测场景(单模态/多模态 × 短期/长期),其中多模态任务结合数值数据与文本上下文。长期预测窗口为六个月,短期预测窗口为三个月,采用 MSE 作为评估指标。为避免数据污染,评估数据限定在 2023 年 10 月 (即 LLMs知识截止日期)之后。
实验结果与见解
为了回答之前提出的问题,作者基于ReC4TS架构对比了System1模型和System2模型时序预测效果。所有实验均在ReC4TS提供的数据集模块下进行了三次重复实验防止随机偏差。实验结果如图所示,其中50%代表了推理增强的模型同直接的System 1模型效果相当。
在所有数据集和设置下,推理策略与相应的直接系统 1 相比的平均胜率。观察到自洽性的一致且显著的有效性,以及在系统 2 策略中 DeepSeek-R1 的独特有效性。
问题1:时序预测是否受益于推理能力?
回答:是的!
从预测窗口的长短方面来看,长期预测受益于推理能力更加明显。
从模型模态方面来看,多模态模型收益更显著。
问题2:时序预测需要何种推理策略?
回答:自我一致性(Self-Consistency)方法是目前最好的推理策略对于时序预测。
具体来说,自我一致性方法是指模型平行采样多条推理路径,选取最能代表采样一致性的结果。这契合了时序预测的逻辑:考虑多种未来的可能情况并选择最有大概率的情况进行预测
问题3:System 2是时序预测的答案吗?
回答:或许不是。
从实验结果上看,使用自我一致性方法的System 1模型在预测效果上甚至胜过System 2模型,而大多数System 2模型的提升是负面的,即低于50%的概率优于System 1模型。
这说明在时序预测任务上,单纯的System 2或许不是最有效的。这符合时序预测任务的认知:不是一个纯粹的推理任务,需要结合System 1的典型能力,例如模式识别。
问题4:各种时兴的System 2模型孰优孰劣?
回答:DeepSeek-R1 遥遥领先。 全部的3个System 2 模型中(o1-mini, Gemini-2.0-flash-thinking,DeepSeek-R1),只有DeepSeek-R1是有效的,并且跨场景表现稳定。
作者认为,DeepSeek-R1创新性地使用了Group Relative Policy Optimization (GRPO) 强化学习策略,抛弃了PPO算法中直接对推理路径标注标签的行为更符合时序预测中未来的不确定性。
验证试验
由于GPRO算法仍处于探索阶段,作者将以上发现在两个常用的时序预测基础模型(Chronos,Moirai)上进行了验证试验。实验发现自我一致性方法中推理路径的采样数量和预测效果有着简明的正相关关系,同样印证了自我一致性方法的优势。
在基础时间序列模型Chronos上验证了测试时缩放定律
在基础时间序列模型Moirai上验证了测试时缩放定律
开源工具库
作者将完整的评估套件、实验日志,以及Time-Thinking数据集(蒸馏自多个先进LLM的推理过程标注的TSF样本) 开源在https://github.com/AdityaLab/OpenTimeR。
结论
ReC4TS 是首个针对零样本时序预测任务的推理策略评估基准。作者探讨了两个关键问题:
(RQ1)推理能力是否有助于零样本时序预测?
(RQ2)哪种推理策略最有效?
结果表明: 零样本时序预测确实能从推理能力中受益,并进一步证明使用自我一致性方法的推理策略在零样本时序预测任务中带来了最显著的提升。
作者期待评估结果,洞见和工具库能有助于推理能增强的时序模型研究。
论文标题:Evaluating System 1 vs. 2 Reasoning Approaches for Zero-Shot Time-Series Forecasting: A Benchmark and Insights
作者:Haoxin Liu, Zhiyuan Zhao, Shiduo Li, B. Aditya Prakash
机构:佐治亚理工学院(Gatech)