负对数似然

负对数似然（Negative Log-Likelihood，NLL）是一种在统计学和机器学习中常用的损失函数，特别是在处理分类问题和回归问题时。它是似然函数取对数后的负数。似然函数衡量的是模型参数在给定数据下的概率，而负对数似然函数则用于衡量模型拟合数据的不好程度。理论上，负对数似然越小，说明模型的拟合度越高。

我们来看一个简单的推导过程：

假设我们有一组独立同分布（IID）的数据样本 ${x_1, x_2, ..., x_n}$ ，以及一个概率模型 $p(x | \theta)$ ，其中 $\theta$ 是模型参数。似然函数 $L(\theta)$ 定义为给定参数 $\theta$ 下，观察到这组数据的概率：

L(\theta) = p(x_1, x_2, ..., x_n | \theta)

对于独立同分布的数据，上述概率可以表示为所有单个数据点概率的乘积：

L(\theta) = \prod_{i=1}^{n} p(x_i | \theta)

取对数似然函数，可以将乘法转化为加法，简化计算：

\ln L(\theta) = \sum_{i=1}^{n} \ln p(x_i | \theta)

负对数似然（NLL）就是上式的负数：

-\ln L(\theta) = -\sum_{i=1}^{n} \ln p(x_i | \theta)

在实际应用中，我们通常会最小化负对数似然函数，来寻找最佳的模型参数 $\theta$ 。这个过程等价于最大化似然函数，即最大似然估计（Maximum Likelihood Estimation，MLE）。

不同的概率模型（比如线性回归、逻辑回归等）会导致不同形式的似然函数，因此负对数似然函数的具体形式也会随之变化。例如，在逻辑回归中，负对数似然函数用于衡量实际观测标签和模型预测标签之间的差异。

上一页参考资料下一页Transformer

最后更新于1年前