Unified Training of Universal Time Series Forecasting Transformers
conference: #ICML 2024
link: https://arxiv.org/abs/2402.02592
Challenge
构建通用时序预测模型,需要在大规模数据集进行预训练,存在几大挑战:
- 采样频率不同
- 不同数据的通道数不同
- 数据分布各异。
- 现有时序数据集太小,不足以支撑模型训练
Contribution
- 提出适用于任意变量的 MOIRAI
- 提出 LOTSA,大规模的时序数据
- zero-shot SOTA
Methodology
1. 采样频率
设置多个 patch size,根据数据集的采样频率提前设定好 size,高频数据用大 patch size,低频用小的。为每个 size 单独训练 projection。
2. 通道数
展平 + 变量编码
x_{i,m}表示第 m 个变量的第 i 个 time stemp。R 是 rotary matrix [1]。u12 是可学习的 scalars 来处理同一变量内和不同变量间的 attention。由于时序不同变量顺序无前后关系,这里只关注两个时间点是否来自同一变量。(这里应该不能建模更细的变量间关联,比如 1->2, 2->3 之类的 correlation,因为他只关心是否来自同一变量)
3. 分布各异
使用混合参数分布。预训练任务是最大化似然估计,对于不同的数据集可能有不同的分布偏好(比如有的偏好对称分布,有的非也),作者将多个不同的分布加权求和。
作者给出以下分布的建议,根据应用领域而定。
4. 预训练数据集
整理了 LOTSA 数据集,包含来自不同 domain 和不同采样频率的数据。
Reference
[1] Su, J., Ahmed, M., Lu, Y., Pan, S., Bo, W., and Liu, Y. Roformer: Enhanced transformer with rotary position embedding. Neurocomputing, 568:127063, 2024.
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Cloni!