如何选择时间序列模型?
创作时间:
作者:
@小白创作中心
如何选择时间序列模型?
引用
1
来源
1.
https://www.bilibili.com/read/mobile?id=36654518
我们时常会面临这样的困境:时序算法发展已久,随着时序预测&检测算法模型越来越丰富,当新时序预测需求来临时,应该如何从十几种模型中选择最适合该业务的模型?
本文介绍一篇 VLDB 2023 的论文,研究者来自浙江大学、阿里巴巴等单位。该论文介绍了一种针对时序框架选择问题的解法,名叫SimpleTS。
论文标题:SimpleTS: An Efficient and Universal Model Selection Framework for Time Series Forecasting
论文地址:https://dl.acm.org/doi/abs/10.14778/3611540.3611561
框架设计总的来说,SimpleTS 是一种基于加权表征学习的时序模型选择框架,其思考如何如下几个方面:
- 更先进的算法训练框架(灵活、可自由配置的Baseline与参数等)
- 更智能的特征工程手段(表征学习代替专家经验)
- 更高的精度(如加权表征、平滑标签等手段)
设计出一套可以集成多种 baseline 方法,针对模型选择任务提出一个自动可配置的模型训练系统,且在模型选择的任务中,采用平滑标签、加权表征学习等技术手段,有效提高 SimpleTS 下游子任务的精度。
整体框架主要分为两个部分:离线训练部分和在线预测部分。框架结构如下图所示:
整体的模型选择任务执行流程如下:
离线训练 - 对数据进行预处理(缺失值补充、冗余清洗等)后,均衡采样10%-20%的数据用于模型的线下训练,预先构建时序表征学习 TS2Vec 模型和深度学习模型;
- 基于表征学习抽取的时序数据特征,遍历执行时序任务(如预测、异常检测)baseline 方法,并对采样数据集进行评估&最优方法打标,保存标注结果到数据库中;
- 对标注的数据提取每个 baseline 方法执行结果的量化指标:包括一系列衡量 baseline 方法的有效性和精度的特征,如 y_pred 与 y_true 偏差均值,偏差最大值,偏差方差等,通过这些指标对 baseline 方法进行聚类,将方法按照有效性和精度分成K类,并在配置文件中记录每一类里面表现最好的模型;
- 使用基于 shapelet 的加权表征学习对最初的时序数据进行 embedding,然后根据最终聚类后的的最优方法选择结果,将数据进行分类,由此训练一个分类器。
在线推理
在线上执行时序任务(Online Forecasting)的时候,首先通过表征学习训练的TS2Vec 模型对数据进行向量化,然后加载离线训练好的分类器,预测得到最优方法聚类(簇),最后加载配置文件查找对应类中表现最好的模型,执行下游子时序任务。
在这个框架中主要涉及到比较关键的技术点有以下2点:
加权表征学习
设i为输入时间序列样本 X 的实例索引,t 为时间戳;而设和表示同一时间戳 t,但来自
的两个增强的上下文。第i时间序列在时间戳 t 的时间对比损失函数可以表述为:
其中,Ω 是两个子系列重叠部分的时间戳集合,是指示器函数。
那么此时实例级对比损失函数可以计算为:
其中,B 表示 Batch 大小。它使用时间戳t的其他时间序列的表示作为负样本。
那么其实,这两个损失函数是互补的。例如,假设有一组来自多个用户的电力消耗数据,实例级对比损失函数用于学习各个用户的特定特征,而时间对比损失函数旨在挖掘随时间变化的动态趋势。因此,定义的整体损失为:
其中 NT 表示迭代次数,直到序列长度小于或等于0。
TS2Vec 在时间轴上对学习到的表示进行最大池化操作,并递归地计算损失函数,在层次对比模型中,损失函数应用于所有粒度级别的数据。TS2Vec 在三个与时间序列相关的任务上展示了其通用性和有效性,这包括时间序列分类、预测和异常检测。
02,平滑标签和聚类
随着针对时间序列数据的预测方法数量不断增加,许多方法在相同类型的时间序列上表现出相似性能,这会降低分类器的表现。
为了避免这一问题,研究者引入了平滑标签技术,结合了标签分布的信息,并用加权向量替代传统的 One-Hot 编码标签向量,从而进一步提升了分类质量。
标签的平滑分布等同于对真实分布添加噪声,阻止模型对正确标签过于自信,使得预测正负样本输出值之间的差距减小。研究表明,软标签能够促使训练集中同一类别的实例表示聚集成紧密的簇,从而避免过拟合,使模型更加稳健。
研究者还提出了一种新的加权平滑标签方案作为分类器增强组件,并重新设计了损失函数,该损失函数考虑了标签的相关性。定义的损失函数为:
其中 K 表示标签的数量,等于(所有标签precision的调和平均值) / precision ,其中 i 表示采用独热编码表示的标签索引,而“target”表示目标分类类型的编码。
另外,聚类是一种有效的方法,能够进一步提升分类的准确性。这是因为同类的时间序列数据在不同的模型中表现出相似的行为。例如,在处理周期性时间序列数据时,Transformer 和 DeepAR 模型往往得出较差的结果,而 Prophet 和 Holt-Winters 模型则展现出更为优越的表现。
实验效果
测试方案中挑选了目前业界基于统计与深度学习的不同种类的预测方法与框架,包括DeepAR, ETS,Hot-Winters,Linear,LSTM,ARIMA,NPTS,Period,Prophet,Transformer,DeepState,DeepFactor,GPForecaster,NBeats,Global Best,AutoForecast和AutoAI-TS。数据集选择:选择了阿里云数据库内部、外部公开数据集UCR等50多个综合时间序列数据集。测试指标:主要针对算法方案的执行效率&性能、精度等维度进行验证,因此提出以下五个测试指标:
内部实验结果
上表是基于数据库内部数据集,针对如CPU、磁盘使用率等核心KPIs指标,基于14个时间序列预测模型 + 3个模型选择框架在上述5个测试指标上的实验结果。
外部实验结果
下图是在50个公开数据集UCR上使用14个时间序列预测模型和3个模型选择框架在预测准确度上的排名对比热力图,可以看出SimpleTS总体获得的预测准确率排行也是最优的。
该论文提出了一种高效且通用的时序预测模型选择框架,SimpleTS,其采用聚类和自开发的软标签,使得预测精度几乎不受候选预测模型数量的影响。此外,该论文的研究者还提出了一种加权表示学习策略,以进一步提高分类器的准确性。
热门推荐
商用咖啡豆专业磨豆机挑选及操作指南
公司发加班工资都按最低工资计算,合法吗?
化学小常识:水碱(水垢)的形成与清理方法
胰腺炎恢复期应注意什么
接连突破历史新高!氧化铝期货突破5300元/吨大关 底气何在?
戒烟后咳出了黑痰,是暗示肺在好转还是恶化?
情绪的韧性:家长如何提升青春期孩子的情绪调节与心理韧性
Cell:赵方庆团队提出基于人工智能的空间蛋白质组学新框架——PLATO
杭温高铁开通后沿线旅游升温 民宿老板笑开了花
古树名木数字化:守护绿色遗产,传承自然之魂
美联储降息周期启动:起步即50个基点释放了什么信号,全球资金往哪儿流
高溢价现金收购关联方亏损公司 水晶光电跳入AR/VR“大坑”?
附生兰栽培全攻略:从基质到光照的全方位指南
凯尔特人面临奢侈税增加!怀特续约,塔图姆即将签下史上最大合同
INFP变成ISFP说明什么?探索人格变化的深层含义
从经络体质探讨先天五运六气、五行与后天疾病
软件开发和销售如何分成
考研英语写作评分标准是什么?
告别键盘罢工!教你如何诊断并修复台式电脑键盘问题
沙特阿拉伯预计将以7%增长率引领水资源技术革新
卡特尔十六种人格因素测验报告(16PF)
兽医执业资格证报名全攻略:时间、条件与材料准备详解
胸口堵得慌像噎着东西是肺炎吗
法国公立大学语言学专业详解:课程设置、学校推荐、申请条件与就业前景
上海顾村公园游玩攻略:景点介绍、门票价格、交通指南等实用信息
胃不好的人能喝豆浆吗?专家解读豆浆与胃病的关系
高位横盘的市场信号是什么?这种信号对投资者的操作有何指导意义?
维生素C含量最高的十种水果
“人造太阳”进度再刷新,国产最大尺寸超导磁体动态测试系统建成
二手车车贩子都是怎么卖出去的?如何查询维保记录