MULTIMODAL REPRESENTATION LEARNING BY ALTERNATING UNIMODAL ADAPTATION
conference: #CVPR 2024
authors: Xiaohui Zhang, Jaehong Yoon, Mohit Bansal, Huaxiu Yao
link: (MLA)[https://arxiv.org/abs/2311.10707]
Challenge
- 多模态学习方法往往难以在不同模态中充分整合丰富的多模态知识,一个关键因素是模态懒惰(modality laziness)。在多模态表征学习中,一些模态比其他模态更占优势,因此模型针对这些主导模态进行优化,并倾向于忽略其他模态。
- 一些研究已经被引入到平衡多模态优化过程中主导模态与从属模态的影响。然而这些方法需要联合优化不同的模式来同时更新多模态特定的编码器,一定程度上降低了对从属模态的适应,从而限制了整体的多模态性能。
Contribution
作者提出 MLA,通过交替单模态优化,实现相对独立的优化并保持跨模态的相互作用。MLA 同样适用于模态缺失的场景。
Method
Training
每个模态有一个对应的 Encoder,他们共享一个 Shared Head。
为避免 Shared Head 模态遗忘,受正交权值修改(orthogonal weight modification)启发,在每次迭代时确保梯度更新方向与迁移模态编码特征所张成的平面正交。梯度修改矩阵用递推最小二乘计算:
参数更新为:
Inference
为整合不同模态的信息,作者使用每个模态输出的熵来评估模态的重要性,并为之分配权值。第 r 个样本的 m 模态的熵计算为:
则模态 m 的权重计算为:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Cloni!