AI记忆系统设计

如何把长期记忆（Long-term Memory）里的东西，精准、少量、不污染地提取到上下文（短期记忆）中？
这件事是 整个 AI 系统是否可靠的决定性因素。
换句话说：
Agent能不能聪明，除了取决于模型参数，更取决于“有没有把对的东西放进上下文”。

1. 上下文 = 工作记忆（短期）

容量有限
容易被噪音干扰
内容过多会导致幻觉
每轮对话都会刷新或丢失

就像人类的“意识层”。

2. 长期记忆 = 外部知识库（Long-term Memory）

可能包含：

文档
代码
embeddings
Skills（能力型记忆）
用户偏好
历史任务
系统状态
动态数据库数据

容量巨大，可无限扩展，就像人的“潜意识 + 已学习的知识与经验”。

3. 真正的难点：

如何从无限大的长期记忆中，取出最 relevant 的小片段加载到有限上下文中？

这是整个 AI 体系最关键的问题，因为：

太少 → 信息不足，模型做不出好判断
太多 → 上下文爆掉，出现幻觉
提取错了 → 直接跑偏
噪音太多 → 严重干扰 reasoning

“提取什么”比“模型怎么推理”更重要。

AI记忆系统的设计是一个重大课题

研究界和工业界对这个问题有几个不同方向的研究，你可以看到它们非常核心：

① Retrieval（检索）

也就是传统的 RAG。

问题在于：

文档颗粒度怎么切？
如何避免召回噪音？
多轮任务上下文如何保持一致性？
如何做 hierarchical retrieval？

这已经是一个大课题。

② Routing（路由）

即：

给定长期记忆，我们应该让哪个 Agent 或 Skill 上场？

这是 Multi-Agent System 的另一个根本难题。

Routing 不好 → Agent 用不对的信息、做不对的事。

③ Memory Ranking（记忆排序）

系统要决定：

哪些信息最重要？
哪些信息应该遗忘？
哪些技能应该更优先？
哪些历史内容应该合并成总结？

这其实是“AI 大脑的注意力系统”。

④ Context Compression（上下文压缩）

包括：

压缩句子
压缩任务状态
压缩之前 agent 的决策链

比如：

ReAct traces
思维链（CoT）
Agent state

这些不能无限增长，需要压缩，不然会爆。

⑤ Memory Rewriting（记忆重写）

类似人类会“总结成脑内模型”：

动态总结
抽象
合并
提炼为新技能（Skill）

这其实是 AI 的“学习过程”。

未来最强的 AI 可能是：

通过 Memory Rewriting 持续把经验写成 Skills 的系统

⑥ Grounding（事实校验）

避免幻觉最关键的一步：

提取到上下文的内容是否真实？
是否对应正确来源？
是否经过验证？

美国大厂内部都在研究“Retrieval → Grounding → Reasoning”三段式 pipeline。

总结

未来所有强 AI 系统的核心都不是模型本身，而是：

如何管理记忆 → 如何提取记忆 → 如何在短期记忆中构建思考链条。

这就是 AI 的“前额叶皮层 + 海马体”类比。

工作记忆（上下文）= 前额叶皮层 = 推理区
长期记忆（RAG/Skills/知识库）= 海马体 + 大脑皮层
检索模块 = 注意力系统
压缩与抽象模块 = 人类的梦境与学习过程

AI 的智能 = 模型能力 × 上下文质量 × 记忆检索质量

本作品采用知识共享署名 4.0 国际许可协议进行许可。

转载时请注明原文链接：https://blog.hufeifei.cn/2026/03/ai/ai-memory/

鼓励一下

支付宝	微信