conference: #ICLR 2024
authors: Mingsheng Long
link: https://arxiv.org/abs/2310.06625
code:

Challenge

基于 transformer 的方法往往融合每个时间戳上不同变量的信息,将每个时间戳转为一个 embedding,存在挑战:

  1. lookback 变大时,计算开销变大
  2. 不同变量之间存在潜在的 delay 和不同的物理测量。导致单时间戳的表示的接收域过于局部且时间不对其,难以显式有用信息。

Contribution

  1. 对 transformer 结构反思,指出 transformer 在多变量时序预测上的能力尚未得到充分开发
  2. 提出 iTransformer,将通道转换为 tokens,然后使用 self-attention 来学习多元相关性。

作者将先前的工作分为 transformer 的 architecture 和 component 上的修改。

Methodology


Encoder-only 架构。主要改动就是从原来的对 time step 做 embedding 变成了对整条通道 embedding,然后 self-attention 捕获不同通道间关联。Feed-forward 层在不同通道之间共享 MLP(在通道独立方法中已被证实有效),对未来序列进行解码。

Experiments


将对变量建模的方法应用到别的 transformer-based 模型上,提升都很大。