系统提示学习：LLM的全新学习范式探索

从人类记笔记中得到的灵感，探索大模型学习新方向

背景与启发

前几天 Cluade 新的系统提示词泄露了，居然有 16,739 个单词，非常长。

Karpathy 从这里得到启发说我们需要一个除了 预训练 和微调之外的新的模型训练范式：系统提示（system prompt）学习

什么是系统提示学习？

目前我们 LLM 主流的两个学习方式是 预训练 和微调 ——都依赖于模型参数的更新，但这与人类的某些学习方式并不完全一致。
人类在学习新知识或解决新问题时，往往不是直接“改写大脑参数”，而是通过“记笔记”或“自我提醒”的方式，将经验和策略以显式的形式保留下来。

所以“系统提示学习”是一种介于模型参数和外部记忆之间的机制。他认为，LLM 也应该有类似“记笔记”的能力，把解决问题的策略、经验和通用知识以显式文本的方式存储下来，而不是全部依赖参数更新。

系统提示学习的优势

更高效的数据利用：通过显式的“复盘”或“总结”，模型可以更高效地吸收反馈，比单纯的奖励信号（reward scaler）更高维、更丰富。
更强的泛化能力：显式的策略和经验总结有助于模型在新任务中迁移和应用知识。

他也说“系统提示学习”如果能实现，将成为 LLM 领域一个全新的、强大的学习范式。

未来挑战与思考

但是也会存在很多的问题需要解决，比如：

如何自动编辑和优化系统提示？
是否需要为“编辑系统”本身设计学习机制？
如何让显式知识逐步转化为模型的“习惯性”参数？