conference: #ICLR 2023
authors:
link: https://openreview.net/forum?id=vSVLM2j9eie
code:

Challenge

基于 transformer 的模型通常将每个时间戳所有的通道混合为一个 embedding,这类方法并没有显式地挖掘跨维度的依赖关系而限制了他们的预测能力(下图 b)。

Method

Cross-Time Stage

为每个通道的时序切分 segment(patch)后做 linear 得到二维 embedding Z。针对每个时间维度,做普通的 attention。

Cross-Dimension Stage

在 Cross-Time 的时候,针对较长时序,可以通过使用大的 segment 长度来降低复杂度,而对于通道维度不能使用类似的操作,因此作者提出 router 机制来降低较多维度数据集的复杂度。

作者为每个时间戳(segment)设置了一个 router,长度为 c<<D。这些 router 首先聚合来自所有维度的信息。公式中 B 表示聚合的信息,R 是 router,可以看到,这里将 router 作为 q,Cross-Time Stage 得到的 Z 作为 kv。随后,Router 将聚合到的信息作为 kv 分发给每个维度。

最终,两阶段作为一个 TSAlayer:

使用 Router 机制后,Cross-Dimension 的复杂度从 O(D^2L) 降为 O(DL)(c 常数)。因此,两个 Stage 的复杂度为 O(DL^2 + DL)=O(DL^2)。

分层 Encoder-Decoder


Encoder:

M 用于融合相邻两个 segment 的 Z

Decoder:
E(dec)是可学习的 position embedding

最终用 linear 得到预测结果。