Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting
conference: #NeurIPS 2021
authors: Haixu Wu, Jiehui Xu, Jianmin Wang, Mingsheng Long
link: (Autoformer)[https://arxiv.org/abs/2106.13008]
之前基于 Transformer 的时间序列预测模型,通过自注意力机制(self-attention)来捕捉时刻间的依赖,在时序预测上取得了一些进展。但是在长期序列预测中,仍存在不足:
- 长序列中的复杂时间模式使得注意力机制难以发现可靠的时序依赖。
- 基于 Transformer 的模型不得不使用稀疏形式的注意力机制来应对二次复杂度的问题,但造成了信息利用的瓶颈。
为突破上述问题,我们全面革新了 Transformer,并提出了名为 Autoformer 的模型,主要包含以下创新:
- 突破将序列分解作为预处理的传统方法,提出深度分解架构(Decomposition Architecture),能够从复杂时间模式中分解出可预测性更强的组分。
- 基于随机过程理论,提出自相关机制(Auto-Correlation Mechanism),代替点向连接的注意力机制,实现序列级(series-wise)连接和复杂度,打破信息利用瓶颈。
在长期预测问题中,Autoformer 在能源、交通、经济、气象、疾病五大时序领域大幅超越之前 SOTA,实现38% 的相对效果提升。
分解
对输入序列进行分解,分解为季节性部分和趋势部分。(趋势,短期波动;季节性:长期)
moving average
Auto-correlation
理解:对于长度为 a 的时延,可以将序列划分为 L/a 个段。对于当前的这个时延段,计算与其他“段”的 R 值。
时延总共有 k 种(Top-k),a in {1, … , L}。a=1 时,等价于当前时间点与其他时间点的 R,要计算 L 次;a=2 时,共划分为 L/2 个“段”,要计算 L/2 次……[L+L/2+…L/a],所以 O(k L),k=c lnL,O(lnL L)。“更有可能是序列周期的 a 值对整个序列贡献大(加权平均)”
而传统的 self-attention,是点对点的。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Cloni!