ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING
conference: #ICLR 2024
authors: Mingsheng Long
link: https://arxiv.org/abs/2310.06625
code:
Challenge
基于 transformer 的方法往往融合每个时间戳上不同变量的信息,将每个时间戳转为一个 embedding,存在挑战:
- lookback 变大时,计算开销变大
- 不同变量之间存在潜在的 delay 和不同的物理测量。导致单时间戳的表示的接收域过于局部且时间不对其,难以显式有用信息。
Contribution
- 对 transformer 结构反思,指出 transformer 在多变量时序预测上的能力尚未得到充分开发
- 提出 iTransformer,将通道转换为 tokens,然后使用 self-attention 来学习多元相关性。
Related work
作者将先前的工作分为 transformer 的 architecture 和 component 上的修改。
Methodology
Encoder-only 架构。主要改动就是从原来的对 time step 做 embedding 变成了对整条通道 embedding,然后 self-attention 捕获不同通道间关联。Feed-forward 层在不同通道之间共享 MLP(在通道独立方法中已被证实有效),对未来序列进行解码。
Experiments
将对变量建模的方法应用到别的 transformer-based 模型上,提升都很大。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Cloni!