大语言模型的终极之路
  • 大语言模型的终极之路
  • 更新计划
  • 大语言模型时代的NLP
    • 任务与评测
    • 参考资料
  • 基础知识
    • 负对数似然
    • Transformer
      • Cross Attention
      • 向量流动视角
      • Layer Normalization
      • Attention Block
    • 优化算法
      • 牛顿法
      • 梯度下降
  • 大语言模型
    • 大模型理论
      • Scaling Law
      • The Bitter Lesson
      • 思考,快与慢
    • 模型结构
      • MLP
      • Rotary Embedding
      • RMSNorm
      • Encoder-decoder
      • Decoder-only
      • MOE
      • 常见大模型
        • T5
        • GPT2
        • LLaMA
        • LLaMA 2
        • Mistral
        • GLM
        • Mixture
    • 如何训练一个ChatGPT
    • 微调
      • Instruction Tuning 指令微调
      • Domain Finetune 领域微调
    • 解码
      • 温度采样
      • Beam Search Decoding
  • Prompt 工程
    • Prompt, 一种技术路线
    • Prompt 写作规范
    • In-Context Learning
    • Chain-of-Thought
    • Generate Rather than Read
    • Program-of-Thought
    • Tree-of-Thought
    • 参考资料
  • 知识与幻觉
    • 知识边界
  • 大规模预训练
    • 计算资源消耗
    • Deepspeed
    • Megatron
    • 大规模数据处理
    • CUDA 算子优化
  • 强化学习
    • RLHF
      • RLHF
  • 大模型轻量化
    • 蒸馏
      • 黑盒蒸馏
      • 白盒蒸馏
        • KL 散度
    • 轻量化微调
      • LoRA
    • 量化
    • 剪枝
    • 推理加速
    • 参考资料
  • RAG-大模型检索
    • Page 3
  • 多智能体
    • Page 6
  • 多模态大模型
    • Page 1
  • 大模型安全与鲁棒
由 GitBook 提供支持
在本页
  1. 基础知识

负对数似然

负对数似然(Negative Log-Likelihood,NLL)是一种在统计学和机器学习中常用的损失函数,特别是在处理分类问题和回归问题时。它是似然函数取对数后的负数。似然函数衡量的是模型参数在给定数据下的概率,而负对数似然函数则用于衡量模型拟合数据的不好程度。理论上,负对数似然越小,说明模型的拟合度越高。

我们来看一个简单的推导过程:

假设我们有一组独立同分布(IID)的数据样本 x1,x2,...,xn{x_1, x_2, ..., x_n}x1​,x2​,...,xn​,以及一个概率模型 p(x∣θ)p(x | \theta)p(x∣θ),其中 θ\thetaθ 是模型参数。似然函数 L(θ)L(\theta)L(θ)定义为给定参数 θ\thetaθ 下,观察到这组数据的概率:

L(θ)=p(x1,x2,...,xn∣θ)L(\theta) = p(x_1, x_2, ..., x_n | \theta)L(θ)=p(x1​,x2​,...,xn​∣θ)

对于独立同分布的数据,上述概率可以表示为所有单个数据点概率的乘积:

L(θ)=∏i=1np(xi∣θ)L(\theta) = \prod_{i=1}^{n} p(x_i | \theta)L(θ)=i=1∏n​p(xi​∣θ)

取对数似然函数,可以将乘法转化为加法,简化计算:

ln⁡L(θ)=∑i=1nln⁡p(xi∣θ)\ln L(\theta) = \sum_{i=1}^{n} \ln p(x_i | \theta)lnL(θ)=i=1∑n​lnp(xi​∣θ)

负对数似然(NLL)就是上式的负数:

−ln⁡L(θ)=−∑i=1nln⁡p(xi∣θ)-\ln L(\theta) = -\sum_{i=1}^{n} \ln p(x_i | \theta)−lnL(θ)=−i=1∑n​lnp(xi​∣θ)

在实际应用中,我们通常会最小化负对数似然函数,来寻找最佳的模型参数 θ\thetaθ。这个过程等价于最大化似然函数,即最大似然估计(Maximum Likelihood Estimation,MLE)。

不同的概率模型(比如线性回归、逻辑回归等)会导致不同形式的似然函数,因此负对数似然函数的具体形式也会随之变化。例如,在逻辑回归中,负对数似然函数用于衡量实际观测标签和模型预测标签之间的差异。

上一页参考资料下一页Transformer

最后更新于1年前