大语言模型的终极之路
  • 大语言模型的终极之路
  • 更新计划
  • 大语言模型时代的NLP
    • 任务与评测
    • 参考资料
  • 基础知识
    • 负对数似然
    • Transformer
      • Cross Attention
      • 向量流动视角
      • Layer Normalization
      • Attention Block
    • 优化算法
      • 牛顿法
      • 梯度下降
  • 大语言模型
    • 大模型理论
      • Scaling Law
      • The Bitter Lesson
      • 思考,快与慢
    • 模型结构
      • MLP
      • Rotary Embedding
      • RMSNorm
      • Encoder-decoder
      • Decoder-only
      • MOE
      • 常见大模型
        • T5
        • GPT2
        • LLaMA
        • LLaMA 2
        • Mistral
        • GLM
        • Mixture
    • 如何训练一个ChatGPT
    • 微调
      • Instruction Tuning 指令微调
      • Domain Finetune 领域微调
    • 解码
      • 温度采样
      • Beam Search Decoding
  • Prompt 工程
    • Prompt, 一种技术路线
    • Prompt 写作规范
    • In-Context Learning
    • Chain-of-Thought
    • Generate Rather than Read
    • Program-of-Thought
    • Tree-of-Thought
    • 参考资料
  • 知识与幻觉
    • 知识边界
  • 大规模预训练
    • 计算资源消耗
    • Deepspeed
    • Megatron
    • 大规模数据处理
    • CUDA 算子优化
  • 强化学习
    • RLHF
      • RLHF
  • 大模型轻量化
    • 蒸馏
      • 黑盒蒸馏
      • 白盒蒸馏
        • KL 散度
    • 轻量化微调
      • LoRA
    • 量化
    • 剪枝
    • 推理加速
    • 参考资料
  • RAG-大模型检索
    • Page 3
  • 多智能体
    • Page 6
  • 多模态大模型
    • Page 1
  • 大模型安全与鲁棒
由 GitBook 提供支持
在本页

大语言模型时代的NLP

在大语言模型时代,自然语言处理(NLP)的处理范式已经发生了革命性的变化。

过去研究人员往往基于文本特点,精心设计出一种网络结构来完成NLP任务,如信息抽取、问答、摘要、翻译等待。而GPT等超大语言模型的出现改变了这些范式,大语言模型用文本到文本的形式统一了各种NLP任务,甚至不限于之前预先定义的任务,可以是任何能被建模为文本到文本的任务。仅仅使用写prompt的方式,GPT在传统任务上的表现就超过了之前精心训练的SOTA模型。

这让研究人员开始研究一些新式的任务,比如推理、代码相关任务。如何用有效的资源训出综合能力尽量强的大语言模型成为了大家追求的核心。而在实践中,大模型也可以是一个系统,研究人员也围绕大语言模型系统展开了很多新的研究话题,比如检索增强、多智能体等。

上一页更新计划下一页任务与评测

最后更新于1年前