conference: #ICML 2024
link: https://arxiv.org/abs/2402.02592

Challenge

构建通用时序预测模型,需要在大规模数据集进行预训练,存在几大挑战:

  1. 采样频率不同
  2. 不同数据的通道数不同
  3. 数据分布各异。
  4. 现有时序数据集太小,不足以支撑模型训练

Contribution

  1. 提出适用于任意变量的 MOIRAI
  2. 提出 LOTSA,大规模的时序数据
  3. zero-shot SOTA

Methodology

1. 采样频率

设置多个 patch size,根据数据集的采样频率提前设定好 size,高频数据用大 patch size,低频用小的。为每个 size 单独训练 projection。

2. 通道数

展平 + 变量编码
x_{i,m}表示第 m 个变量的第 i 个 time stemp。R 是 rotary matrix [1]。u12 是可学习的 scalars 来处理同一变量内和不同变量间的 attention。由于时序不同变量顺序无前后关系,这里只关注两个时间点是否来自同一变量。(这里应该不能建模更细的变量间关联,比如 1->2, 2->3 之类的 correlation,因为他只关心是否来自同一变量)

3. 分布各异

使用混合参数分布。预训练任务是最大化似然估计,对于不同的数据集可能有不同的分布偏好(比如有的偏好对称分布,有的非也),作者将多个不同的分布加权求和。

作者给出以下分布的建议,根据应用领域而定。

4. 预训练数据集

整理了 LOTSA 数据集,包含来自不同 domain 和不同采样频率的数据。

Reference

[1] Su, J., Ahmed, M., Lu, Y., Pan, S., Bo, W., and Liu, Y. Roformer: Enhanced transformer with rotary position embedding. Neurocomputing, 568:127063, 2024.