Prompt Tuning
参考文章:万字长文 Prompt Tuning!
为什么要引入 Prompt?
Prompt 的经典方法的发展
1. 为什么要引入 prompt?
prompt 旨在解决传统预训练模型(BERT、GPT 等)在 Fine-tune 时的两个痛点:
降低语义差异。 预训练任务主要以 Mask Language Modeling 为主(next prediction 等效果不好,不常用),而下游任务则重新引入新的训练参数,两个阶段的训练目标具有较大差异。因此需要缩小 Pre-train 和 Fine-tune 两个阶段目标差异过大的问题。
避免过拟合。 由于 Fine-tune 需要引入额外的参数以适配相应的任务需要,因此在样本数量有限的情况下容易发生过拟合,模型泛化能力下降。
2. Prompt 的定义
以下游情感分类为例,prompt 希望将分类问题转换为预训练的重构 Mask 问题。给定句子[CLS] I like the Disney films very much.[SEP],传统分类方法是得到 CLS 表征后通过 MLP 进行分类。
Prompt 有一下两个重要概念 ...
CROSSFORMER: TRANSFORMER UTILIZING CROSSDIMENSION DEPENDENCY FOR MULTIVARIATE TIME SERIES FORECASTING
变量内与变量间attention,使用router降低变量间attention复杂度
LoRA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
通过微调外接低秩矩阵来替代全量微调
On the Integration of Self-Attention and Convolution
新的视角来融合CNN和self-attention
Unified Training of Universal Time Series Forecasting Transformers
通用时序预测模型,通过展平加变量embedding处理多元时序;多尺度patch size
CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification
dual-branch 多尺度vision transformer。提出一种基于cross-attention的token fusion scheme
MULTIMODAL REPRESENTATION LEARNING BY ALTERNATING UNIMODAL ADAPTATION
交替优化不同模态;通过正交权值修改避免模态遗忘。
Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting
Autoformer。添加decomposition block提取模型中隐藏状态的内在复杂时序趋势。提出Auto-Correlation机制替代self-attention,其考虑sub-series间的相似度能更好的捕捉到趋势性,不仅保证了O(LlnL)的复杂度,也防止了信息的丢失,做到了又快又好。将点对点的attention改进为sub-series之间。