# Cross Attention

在神经网络和特别是Transformer结构中，Cross Attention机制是连接编码器（encoder）和解码器（decoder）的关键组件。Cross Attention允许解码器在生成输出时基于编码器生成的表示进行信息整合，从而使得生成的输出能够更好地反映输入序列的特性。

以下是关于Cross Attention的详细介绍及其公式：

#### 1. 基础概念

**自注意力机制（Self-Attention）**

自注意力机制中，输入是一个序列，假设它有  $$T$$ 个元素，每个元素可以表示为一个向量。对于输入序列 $$X = \[x\_1, x\_2, \ldots, x\_T]$$，每个 ( x\_i ) 各自转化为三种不同的向量：查询向量 $$q\_i$$ 、键向量 $$k\_i$$ 和值向量  $$v\_i$$ 。

公式如下： $$\[ q\_i = W\_q x\_i ] \[ k\_i = W\_k x\_i ] \[ v\_i = W\_v x\_i ]$$

其中， $$W\_k$$， $$W\_k$$  和 $$W\_v$$ 是可学习的参数矩阵。

**多头机制（Multi-Head Attention）**

注意力机制可以被执行多次（多个头），以捕捉不同的关系： $$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}\_1, \text{head}\_2, \ldots, \text{head}\_h) W\_o$$ \
其中，每个头的计算方式为： $$\text{head}\_i = \text{Attention}(Q W\_q^i, K W\_k^i, V W\_v^i)$$

#### 2. Cross Attention 机制

Cross Attention 也是基于注意力机制的，但与自注意力不同的是，Cross Attention在解码器中，查询来自解码器的上一层，而键和值来自编码器的输出。这允许解码器在生成每个输出时，引用整个输入序列的信息。

**Cross Attention 公式**

假设编码器输出为 $$H = \[h\_1, h\_2, \ldots, h\_T]$$，解码器的输入为 $$S = \[s\_1, s\_2, \ldots, s\_T]$$。

1. **查询、键和值的计算**
   * 解码器的每个元素生成查询向量 $$q$$ ： $$\[ q\_i = W\_q s\_i ]$$
   * 编码器的输出生成键向量  $$k$$  和值向量  $$v$$ ： $$\[ k\_j = W\_k h\_j ] \[ v\_j = W\_v h\_j ]$$
2. **注意力权重的计算** 查询和键点积，生成注意力得分，然后通过Softmax归一化： $$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d\_k}}\right) V$$ 其中，Q  是查询矩阵，K 是键矩阵， V  是值矩阵， $$d\_k$$ 是键向量的维度（归一化因子）。

将公式展开，用于具体的 ( i ) 和 ( j )： $$\alpha\_{ij} = \frac{\exp(q\_i \cdot k\_j /\sqrt{d\_k})}{\sum\_{j'} \exp(q\_i \cdot k\_{j'} /\sqrt{d\_k})} ] \[ a\_i = \sum\_{j} \alpha\_{ij} v\_j$$

这里， $$\alpha\_{ij}$$ 表示第 ( i ) 个解码器状态与第 ( j ) 个编码器状态的注意力权重，而 $$a\_i$$ 则是基于这些权重计算得到的新的解码器状态。

#### 3. 多头 Cross Attention

与自注意力机制一样，Cross Attention 也可以通过多头机制增强表示能力： $$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}\_1, \text{head}\_2, \ldots, \text{head}\_h) W\_o$$\
&#x20;其中，每个头的计算方式为： $$\text{head}\_i = \text{Attention}(Q W\_q^i, K W\_k^i, V W\_v^i)$$

通过这种方式，Cross Attention将在多个子空间计算注意力，以捕捉不同的特征和信息关系。

#### 总结

Cross Attention是连接编码器和解码器的重要组成部分，通过使用来自解码器作为查询，编码器作为键和值，能够有效地将编码器的上下文信息注入到生成过程当中。其核心公式主要涉及注意力权重的计算和基于注意力权重生成新的解码器状态。多头机制进一步增强了Cross Attention的灵活性和表示能力。
