注意力机制与交叉注意力：理论、公式与实现

创作时间:

作者:

@小白创作中心

注意力机制与交叉注意力：理论、公式与实现

引用

CSDN

https://m.blog.csdn.net/yiqiedouhao11/article/details/136936668

在自然语言处理（NLP）和深度学习领域，注意力机制和交叉注意力是两种强大的技术，它们允许模型在处理序列数据时动态地聚焦于最重要的部分。本文将介绍这两种机制的数学原理，并通过代码示例展示如何在PyTorch中实现它们。

注意力机制（Attention Mechanism）

注意力机制模仿了人类在处理信息时的聚焦行为，它可以帮助模型在处理长序列时关注最相关的信息。

数学公式

给定一个序列 $X = [x_1, x_2, \ldots, x_n]$，其中 $x_i$ 是序列中第 $i$ 个元素的向量表示。注意力机制通过计算每个元素的注意力分数和输出来工作：

注意力分数：
$$
\text{Attention}(Q, K) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)
$$
其中，$d_k$ 是键向量的维度，用于缩放点积。
输出：
输出是所有元素的加权和，权重由注意力分数决定。

代码实现

import torch
import torch.nn.functional as F

def scaled_dot_product_attention(Q, K, V, mask):
    d_k = torch.tensor(Q.size(-1))  # 假设Q, K, V的最后一个维度是d_k
    scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(d_k)
    if mask is not None:
        scores = scores.masked_fill(mask == 0, float('-1e-20'))
    attention = F.softmax(scores, dim=-1)
    return torch.matmul(attention, V)

# 示例输入
Q = torch.randn(1, 10, 64)  # 查询序列 (1个序列, 10个元素, 64维向量)
K = Q  # 在自注意力中，键和值与查询来自同一序列
V = Q  # 同上
# 假设我们没有mask
mask = None
# 计算自注意力
self_attention_output = scaled_dot_product_attention(Q, K, V, mask)

交叉注意力（Cross-Attention）

交叉注意力是注意力机制的一种，它处理两个相关但不同的序列。这在多模态任务中特别有用，如图像和文本的联合处理。

数学公式

对于查询序列 $Q = [q_1, q_2, \ldots, q_m]$ 和键序列 $K = [k_1, k_2, \ldots, k_n]$，以及对应的值序列 $V = [v_1, v_2, \ldots, v_n]$，交叉注意力的计算如下：

注意力分数：
$$
\text{Attention}(Q, K) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)
$$
其中，$d_k$ 是键向量的维度。
输出：
输出是查询序列中每个元素的加权值向量之和，权重由与键序列的注意力分数决定。

代码实现

def cross_attention(query, key, value, key_mask):
    d_k = torch.tensor(key.size(-1))  # 假设key和value的最后一个维度是d_k
    scores = torch.matmul(query, key.transpose(-2, -1)) / torch.sqrt(d_k)
    scores = scores.masked_fill(key_mask == 0, float('-1e-20'))  # 应用mask
    attention = F.softmax(scores, dim=-1)
    return torch.matmul(attention, value)

# 示例输入
query = torch.randn(1, 5, 64)  # 查询序列 (1个序列, 5个元素, 64维向量)
key = torch.randn(1, 10, 64)   # 键序列 (1个序列, 10个元素, 64维向量)
value = key                # 在这个例子中，值序列与键序列相同
key_mask = torch.tensor([
    [0, 0, 1, 1, 0, 0, 0, 0, 0]  # 一个简单的mask，用于忽略特定的键
], dtype=torch.float32)  # 同上
# 计算交叉注意力
cross_attention_output = cross_attention(query, key, value, key_mask)