系统提示学习:LLM的全新学习范式探索

从人类记笔记中得到的灵感,探索大模型学习新方向

背景与启发

前几天 Cluade 新的系统提示词泄露了,居然有 16,739 个单词,非常长。

Karpathy 从这里得到启发说我们需要一个除了 预训练微调 之外的新的模型训练范式: 系统提示(system prompt)学习

什么是系统提示学习?

  • 目前我们 LLM 主流的两个学习方式是 预训练微调 ——都依赖于 模型参数的更新,但这与人类的某些学习方式并不完全一致。
  • 人类在学习新知识或解决新问题时,往往不是直接“改写大脑参数”,而是通过“记笔记”或“自我提醒”的方式,将经验和策略以显式的形式保留下来。

所以“系统提示学习”是一种介于模型参数外部记忆之间的机制。 他认为,LLM 也应该有类似“记笔记”的能力,把解决问题的策略、经验和通用知识以显式文本的方式存储下来,而不是全部依赖参数更新。

系统提示学习的优势

  • 更高效的数据利用:通过显式的“复盘”或“总结”,模型可以更高效地吸收反馈,比单纯的奖励信号(reward scaler)更高维、更丰富。
  • 更强的泛化能力:显式的策略和经验总结有助于模型在新任务中迁移和应用知识。

他也说“系统提示学习”如果能实现,将成为 LLM 领域 一个全新的、强大的学习范式。

未来挑战与思考

但是也会存在很多的问题需要解决,比如:

  • 如何自动编辑和优化系统提示
  • 是否需要为“编辑系统”本身设计学习机制
  • 如何让显式知识逐步转化为模型的“习惯性”参数