Unified Training of Universal Time Series Forecasting Transformers

conference: #ICML 2024
link: https://arxiv.org/abs/2402.02592

Challenge

构建通用时序预测模型，需要在大规模数据集进行预训练，存在几大挑战：

采样频率不同
不同数据的通道数不同
数据分布各异。
现有时序数据集太小，不足以支撑模型训练

Contribution

提出适用于任意变量的 MOIRAI
提出 LOTSA，大规模的时序数据
zero-shot SOTA

Methodology

1. 采样频率

设置多个 patch size，根据数据集的采样频率提前设定好 size，高频数据用大 patch size，低频用小的。为每个 size 单独训练 projection。

2. 通道数

展平 + 变量编码
x_{i,m}表示第 m 个变量的第 i 个 time stemp。R 是 rotary matrix [1]。u12 是可学习的 scalars 来处理同一变量内和不同变量间的 attention。由于时序不同变量顺序无前后关系，这里只关注两个时间点是否来自同一变量。（这里应该不能建模更细的变量间关联，比如 1->2, 2->3 之类的 correlation，因为他只关心是否来自同一变量）

3. 分布各异

使用混合参数分布。预训练任务是最大化似然估计，对于不同的数据集可能有不同的分布偏好（比如有的偏好对称分布，有的非也），作者将多个不同的分布加权求和。

作者给出以下分布的建议，根据应用领域而定。

4. 预训练数据集

整理了 LOTSA 数据集，包含来自不同 domain 和不同采样频率的数据。

Reference

[1] Su, J., Ahmed, M., Lu, Y., Pan, S., Bo, W., and Liu, Y. Roformer: Enhanced transformer with rotary position embedding. Neurocomputing, 568:127063, 2024.