聊聊短期记忆与长期记忆

从记不住手机号,到看懂AI的“脑子”:聊聊短期记忆与长期记忆的奥秘

你有没有过这样的经历:刚查到一个验证码,转头输入时就忘了前几位;但自己的手机号、身份证号,却能脱口而出。这背后,其实藏着大脑一套精妙的“记忆分工”机制。今天,我们就从这些日常小事出发,聊聊短期记忆、长期记忆,以及它们和AI大模型的“上下文”之间,那些有趣的关联。

Read More

AI记忆系统设计

如何把长期记忆(Long-term Memory)里的东西,精准、少量、不污染地提取到上下文(短期记忆)中?

这件事是 整个 AI 系统是否可靠的决定性因素

换句话说:

Agent能不能聪明,除了取决于模型参数,更取决于“有没有把对的东西放进上下文”。

1. 上下文 = 工作记忆(短期)

Read More

深度学习进化之旅

这篇文章我想整理一下深度神经网络的进化之旅。从CNN到Transformer,再到GPT,这些模型架构设计过程中是怎么进化的,每个模型解决了什么问题。

深度学习的发展并非一蹴而就,而是在不断解决实际问题的过程中逐步演进的。每一次架构创新,都是针对前一代模型的局限性提出的解决方案。这个过程就像计算机产业的发展一样,遵循着”问题-突破-新问题-新突破”的螺旋上升规律。

Read More

AI大事件

2012 - 2015 年:深度学习大爆炸

时间概念核心内容代表事件链接
2012.09CNN 崛起 (AlexNet)深度卷积神经网络首次在 ImageNet 夺冠,准确率远超传统算法AlexNet 开启深度学习革命AlexNet Paper (NIPS 2012)
2014.06GANs (生成对抗网络)通过“生成器”与“判别器”博弈,开创生成式 AI 先河Ian Goodfellow 提出 GANs 概念GANs Paper (2014)
2015.06YOLO 诞生 (v1)提出“You Only Look Once”,将检测视为回归问题,实现实时目标检测Joseph Redmon 发布 YOLO,改变了视觉检测效率YOLO v1 Paper
2015.12ResNet (残差网络)解决深层网络退化问题,使训练百层甚至千层网络成为可能微软发布 ResNet,斩获 ILSVRC 五项第一ResNet Paper (2015)

Read More

ReAct Agent架构设计模式

2025年结束,过去一年里,AI火爆的一批。从开年梁文峰深度求索的DeepSeek爆火,再到Cursor / Claude Code这种AI编码工具出现,真的颠覆了程序员的三观。AI终于从只会聊天的机器人,变成了能真正赋能工作的生产力工具。而这都归功于AI Agent,所以2025年也被称为AI Agent元年。

年底的时候姚顺雨入职腾讯的事儿爆火了,回国前他写了篇《The Second Half》(中文版:AI进入下半场)。

Read More