Beam Search Decoding

Beam Search 寻找概率最大的序列的过程，可以分为以下几个步骤，这些步骤包括初始化、逐步扩展、得分排序和剪枝、终止条件等。接下来，详细解释如何通过 Beam Search 找到概率最大的序列。

在每一步，针对每个候选序列，使用解码器生成所有可能的下一个词（或其他单位），并计算其联合概率。
对于每个候选序列 ( c_i )，它扩展后的每个新候选序列将是 ( c_i ) 加上一个新词，例如 ( c_i , w_j )，并计算其联合概率 ( P(c_i , w_j) )。

假设我们有一个简化版的解码任务，当前候选序列为：

假设束宽度 ( B = 2 )。

第一步：

第二步：

对 <start> B 进行扩展：
- <start> B D ( \log P(B D) = -0.3 + (-0.6) = -0.9 )
- <start> B E ( \log P(B E) = -0.3 + (-0.5) = -0.8 )
对 <start> A 进行扩展：
- <start> A D ( \log P(A D) = -0.5 + (-0.4) = -0.9 )
- <start> A E ( \log P(A E) = -0.5 + (-0.3) = -0.8 )
全部新候选序列及其得分：
- <start> B E ( \log P(B E) = -0.8 )
- <start> A E ( \log P(A E) = -0.8 )
- <start> B D ( \log P(B D) = -0.9 )
- <start> A D ( \log P(A D) = -0.9 )
排名前 ( B = 2 ) 的候选序列为：
- <start> B E ( \log P(B E) = -0.8 )
- <start> A E ( \log P(A E) = -0.8 )

依此类推，继续扩展、剪枝，直到满足终止条件。最终，从保留下来的候选序列中选择得分最高的序列作为输出。

通过这种逐步扩展与剪枝的过程，Beam Search 能够有效找到概率最大的序列，同时控制计算复杂度。

最后更新于1年前