问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

多模态中的交叉注意力Cross Attention

创作时间:
作者:
@小白创作中心

多模态中的交叉注意力Cross Attention

引用
CSDN
1.
https://blog.csdn.net/qq_34348690/article/details/138368697

交叉注意力(Cross Attention)是多模态模型中一个重要的技术组件,它通过在不同模态之间建立联系,促进了信息的交流和整合,从而提升了模型处理复杂任务的能力。本文将详细介绍交叉注意力的工作原理及其在多模态融合中的应用。

CA作为多模态融合的一个重要组成部分,它通过注意力机制在不同模块之间建立联系,促进信息的交流和整合,从而提升了模型处理复杂任务的能力。

使用它需要明白以下几点要求:

  1. 两个序列必须具有相同的维度。(因为Query和Key要做点积累,)
  2. 两个序列可以是不同的模态(如文本、图像)。
  3. 一个序列作为输入的Query,定义了输出的序列长度,另一个序列作为输入的Key和Value。

具体地说,对于一个文本序列和一个图像序列:

  1. 文本通过一个Transformer编码器处理,输出作为查询向量Query。
  2. 图像通过CNN处理,输出经过线性变换生成键Key和值向量Value。
  3. 计算文本查询向量Query与图像键向量Key的点积,得到注意力分数Attention Score。
  4. 使用这些分数对图像的值向量Value进行加权,生成最终输出。

如上图所示。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号