大语言模型的终极之路
  • 大语言模型的终极之路
  • 更新计划
  • 大语言模型时代的NLP
    • 任务与评测
    • 参考资料
  • 基础知识
    • 负对数似然
    • Transformer
      • Cross Attention
      • 向量流动视角
      • Layer Normalization
      • Attention Block
    • 优化算法
      • 牛顿法
      • 梯度下降
  • 大语言模型
    • 大模型理论
      • Scaling Law
      • The Bitter Lesson
      • 思考,快与慢
    • 模型结构
      • MLP
      • Rotary Embedding
      • RMSNorm
      • Encoder-decoder
      • Decoder-only
      • MOE
      • 常见大模型
        • T5
        • GPT2
        • LLaMA
        • LLaMA 2
        • Mistral
        • GLM
        • Mixture
    • 如何训练一个ChatGPT
    • 微调
      • Instruction Tuning 指令微调
      • Domain Finetune 领域微调
    • 解码
      • 温度采样
      • Beam Search Decoding
  • Prompt 工程
    • Prompt, 一种技术路线
    • Prompt 写作规范
    • In-Context Learning
    • Chain-of-Thought
    • Generate Rather than Read
    • Program-of-Thought
    • Tree-of-Thought
    • 参考资料
  • 知识与幻觉
    • 知识边界
  • 大规模预训练
    • 计算资源消耗
    • Deepspeed
    • Megatron
    • 大规模数据处理
    • CUDA 算子优化
  • 强化学习
    • RLHF
      • RLHF
  • 大模型轻量化
    • 蒸馏
      • 黑盒蒸馏
      • 白盒蒸馏
        • KL 散度
    • 轻量化微调
      • LoRA
    • 量化
    • 剪枝
    • 推理加速
    • 参考资料
  • RAG-大模型检索
    • Page 3
  • 多智能体
    • Page 6
  • 多模态大模型
    • Page 1
  • 大模型安全与鲁棒
由 GitBook 提供支持
在本页
  • 问题背景
  • 方法
  • 策略优化(过程1)
  • 偏好标记(过程2)
  • 拟合奖励函数(过程3)
  • 如何选择需要人类反馈的轨迹对
  1. 强化学习
  2. RLHF

RLHF

RLHF

问题背景

强化学习任务本身的复杂性使得复杂问题的奖励函数设计是困难的,这个问题可以通过引入人类反馈进行解决。在此之前的做法是使用比较复杂的人类专家打分机制,而RLHF用人类偏好替代人类专家打分,这样一举两得:

1. 复杂的奖励函数由神经网络自己拟合,不需要人为设计复杂的奖励函数;

2.人工成本大幅度降低,只需要非专家人类给出偏好即可。

方法

基本的3个过程:

  1. policy与environment交互获得一系列trajectories,基于传统强化学习算法优化策略以最大化收获的奖励;

  2. 选择多对trajectories对发送给人类做偏好判断(在一对中选择其中之一);

  3. 基于人类反馈来优化奖励函数。

策略优化(过程1)

三个细节:

  1. 应当选择对奖励函数变化鲁棒的强化学习策略(因为reward 模型是不断根据人类反馈更新的);

  2. 选择了A2C与TRPO两个强化学习算法,由于TRPO算法依赖Trust region来确保充分探索,如果奖励函数发生变化可能导致探索不充分,因此人为调整了超参数entropy bouns;

  3. 对奖励模型输出的奖励值做normalize,确保均值为0且有恒定的标准差。

偏好标记(过程2)

三种情况:

  1. 更喜欢两个轨迹其中之一,就给出更喜欢的轨迹;

  2. 觉得同样好,那两个轨迹每个分配0.5的概率值;

  3. 无法比较的轨迹对被排除,不纳入数据集

拟合奖励函数(过程3)

基本方案是基于交叉熵损失函数拉近两个分布的差距:

  1. 奖励函数输出的分布。

三个细节:

  1. 事实上同时训练多个神经网络模型来预测reward函数,所以对于一个observation action pair,多个网络会分别输出奖励值,然后分别normalize之后求平均值;

  2. 使用一些正则化策略如l2 normalization及dropout;

  3. 假设人类反馈中有10%的概率出错,那实际上奖励函数的分布建模为:

即90%是对的,10%是随机建模。

如何选择需要人类反馈的轨迹对

因为有多个reward model,对于一个轨迹对,多个reward model会预测出多个结果(更偏好哪一个),选择那些预测结果方差最大的轨迹对(说明多个reward model对该轨迹对存在分歧),将这些轨迹对送给人类去寻求偏好反馈。(不确定性越大,熵越高,信息量越大,从而让人类只提供信息量最大的反馈,同样可以缩减人力成本)。

上一页RLHF下一页蒸馏

最后更新于10个月前

人类偏好分布,即,要么是一个确定性分布(人类喜欢其中之一),要么是一个均匀分布(人类都喜欢);