背景与启发
前几天 Cluade 新的系统提示词泄露了,居然有 16,739 个单词,非常长。
Karpathy 从这里得到启发说我们需要一个除了 预训练 和 微调 之外的新的模型训练范式: 系统提示(system prompt)学习
什么是系统提示学习?
- 目前我们 LLM 主流的两个学习方式是 预训练 和 微调 ——都依赖于 模型参数的更新,但这与人类的某些学习方式并不完全一致。
- 人类在学习新知识或解决新问题时,往往不是直接“改写大脑参数”,而是通过“记笔记”或“自我提醒”的方式,将经验和策略以显式的形式保留下来。
所以“系统提示学习”是一种介于模型参数和外部记忆之间的机制。 他认为,LLM 也应该有类似“记笔记”的能力,把解决问题的策略、经验和通用知识以显式文本的方式存储下来,而不是全部依赖参数更新。
系统提示学习的优势
- 更高效的数据利用:通过显式的“复盘”或“总结”,模型可以更高效地吸收反馈,比单纯的奖励信号(reward scaler)更高维、更丰富。
- 更强的泛化能力:显式的策略和经验总结有助于模型在新任务中迁移和应用知识。
他也说“系统提示学习”如果能实现,将成为 LLM 领域 一个全新的、强大的学习范式。
未来挑战与思考
但是也会存在很多的问题需要解决,比如:
- 如何自动编辑和优化系统提示?
- 是否需要为“编辑系统”本身设计学习机制?
- 如何让显式知识逐步转化为模型的“习惯性”参数?