【AI今日头条】HF论文热榜:AI智能体时代的“记忆” (Memory)
作者:微信文章每日选择相对更有价值 AI资讯一则,扩展解读(每周一~周五更新)
在 2025 年的当下,构建一个能跑通的 Agent 已经不是难事。但让 Agent 真正“好用”,我们都面临着同一个瓶颈:记忆(Memory)。
目前的智能体往往患有严重的“健忘症”:要么上下文“爆仓”导致降智,要么 RAG 检索出来的东西牛头不对马嘴。我们试图用向量数据库解决所有问题,但这就像试图用一本字典来代替人类的大脑——存得下知识,却存不下用户体验和实际逻辑。
本周,Hugging Face 热度榜首出现了一篇综述 《Memory in the Age of AI Agents》(来自复旦、NUS 等机构)。这篇论文为我们这些智能体编排人群提供了一张系统架构蓝图。
我们就站在智能体编排者的角度,拆解这篇论文,看看如何设计一个真正“有脑子”的智能体。
原文:https://arxiv.org/pdf/2512.13564
一| 认知升级:记忆不仅仅是 RAG
图1 Agent Memory与LLM Memory、RAG及Context Engineering的概念对比。强调智能体记忆的独特性在于其专注于维护一个持久且自我演化的认知状态,该状态整合了事实知识与经验。所列类别及示例仅为说明性质而非严格分类。
在传统的开发思维里,我们常把 Memory 等同于 History(历史对话)或者 Knowledge Base(知识库)。但这篇论文提出了一个更立体的框架,将智能体记忆拆解为三个维度:
Forms(形式): 记忆存在哪里?(物理层)
Functions(功能): 记忆用来解决什么问题?(应用层)
Dynamics(动态): 记忆如何读写和演化?(逻辑层)
理解了这个框架,你就会发现:不仅要解决“存”的问题,更要解决“分”的问题。
二| 架构拆解:给 AI智能体设计“三级缓存”
论文将记忆的形式(Forms)分为了三类,这与计算机体系结构惊人地相似。作为架构师,我们需要根据成本和速度来混合使用它们:
1. 显存/内存(Token-level Memory)
是什么: 直接输入到模型 Prompt 中的文字。
特点: 效果最好,但最贵,长度受限。
开发启示: 不要试图把所有历史记录都塞进 Context。这里只应该放“当前最关键的信息”。
2. 只读记忆 ROM(Parametric Memory)
是什么: 模型经过预训练或微调(SFT)后,固化在权重里的知识。
特点: 响应最快,但极难修改。
开发启示: 适合存储 Agent 的核心人设(Persona)、世界观或极其稳定的领域知识。不要试图用微调来让 Agent 记住今天的汇率,那是 RAG 的事。
3. 潜在记忆(Latent Memory)
是什么: 这是论文提到的前沿方向(如 MemTransformer),利用模型内部的隐藏状态来压缩传递信息。
特点: 比 Token 省钱,比外部数据库连贯。
开发启示: 关注 RecurrentGPT 等技术,未来这可能是解决无限长文本的低成本方案。
三、 功能分层:你的 Agent 需要三种“脑区”
这是论文对我们编排智能体最具指导意义的部分。不要把所有数据混在一起,请在你的代码或工作流中,明确区分以下三种记忆模块:
第一类:事实记忆(Factual Memory)—— 解决“幻觉”
这是我们最熟悉的 RAG。
存什么: 文档、百科、业务手册。
目的: 准确性。
最佳实践: 这里的核心是**“去重”和“更新”**。论文指出,事实记忆必须具备静态准确性。
第二类:情景/用户体验记忆(Experiential Memory)—— 解决“个性化”
这是大多数 Agent 目前最缺少的。
存什么: 用户过去的交互行为、偏好、吐槽、反馈。
目的: 让用户感觉被重视。
最佳实践: 建立独立的 User Profile 数据库。当用户说“我不喜欢太长的回答”时,不要只当成一次对话,要将其提取并写入体验记忆。下次生成回复前,先检索这个偏好。
第三类:工作记忆(Working Memory)—— 解决“推理断层”
这是复杂任务 Agent 的核心。
存什么: 当前任务的中间状态、草稿、待办列表。
目的: 连贯性。
最佳实践: 在 LangGraph 或 Coze 的编排中,专门设立一个变量叫 scratchpad 或 current_plan。在多步推理中,强制 Agent 先读取工作记忆,再执行下一步。
四、 开发者实战清单(Takeaways)
基于这篇论文的理论,我们可以优化现有的 Agent 搭建策略:
拒绝“一把梭”: 马上检查你的向量数据库。如果你把“公司的请假制度”(事实)和“用户的请假历史”(体验)存在同一个 Index 里,请把它们分开。
显性化“工作记忆”: 对于需要调用 Tool 的 Agent,设计一个显性的“思维链缓存区”,不仅能提升成功率,还方便 Debug。
引入“遗忘机制”: 论文提到了 Memory Evolution。真正的智能体需要知道何时删除过时的信息(比如用户三年前的喜好),否则错误的旧记忆会干扰决策。
关注混合检索: 既然记忆有多种形式,检索也应该是混合的。一次生成可能需要:从权重里调取人设 + 从向量库里调取知识 + 从 Prompt 里读取当前指令。
五、 实战推演:构建“不忘事”的智能营销 Agent
我们以“智能营销内容生成系统”为例,根据论文中的观点构建一个企业级智能体(Agent)【重点关注“记忆”】。
假设我们的目标是搭建一个能帮企业写文案、回私信、做策划的 Agent。如果照搬传统的 RAG 模式,它只是一个“搜索+改写”工具;但如果按照《Memory in the Age of AI Agents》的架构,结合当前大厂的最新技术(如 Google Gemini Context Caching, OpenAI Canvas, DeepSeek V3.2 等),我们可以通过“记忆分层”来打造一个金牌营销员。
第一层:事实记忆 (Factual Memory) —— “产品专家”
痛点: 以前我们用向量库(Vector DB)存产品手册,容易在分块时就破坏了产品数据,导致 Agent 经常编造产品参数。新架构方案:
利用 Token-level Memory (长上下文): 对于经常变动的促销政策或季度产品表,不要全部塞进向量库。
操作实例: 将本季度的《全线产品规格书》和《12月促销SOP》(约 50万 token)直接“缓存”在模型的上下文中。
效果: 相比碎片化的 RAG 检索,全量上下文让 Agent 拥有了上帝视角,能准确对比产品 A 和 B 的差异,很难出错。
第二层:情境/用户体验记忆 (Experiential Memory) —— “懂你的销售”
痛点: 很多营销智能体每次对话都像初次见面,记不住客户是“价格敏感型”还是“品质追求型”。新架构方案:
建立动态用户资料: 不要只存对话日志(Log),要存“画像(Persona)”。
技术选型: 可以参考 MemGPT 的设计思路,或者使用类似 OpenAI Assistants API 的 Metadata 存储功能。
操作实例:
当用户说:“别给我推那种花里胡哨的文案,我要干货。”
智能体触发“记忆写入”机制(Memory Formation),在数据库该用户的 preferences 字段下更新:style: concise_professional,negative_tags: ["fancy", "emotional"]。
下次生成文案时,Prompt 自动注入:User Preference: Concise & Professional。
效果: Agent 越用越顺手,仿佛有了“眼力见儿”。
第三层:工作记忆 (Working Memory) —— “逻辑严密的策划”
痛点: 让 Agent 写一个包含“市场调研-痛点分析-文案初稿-渠道分发”的完整方案,它往往写到第三步就忘了第一步的数据。新架构方案:
显性化 Scratchpad(草稿本): 利用推理模型的思维链能力或交互界面的中间态。
技术选型: 结合类似OpenAI o1 的强推理能力进行规划,或者利用类似 Claude Artifacts / OpenAI Canvas 的界面形态。
操作实例:
在系统后台开辟一块工作记忆状态区域。
智能体执行第一步(调研)后,将关键结论(如“竞品价格:$99”)写入这块区域,而不是仅仅输出在对话框里。
执行第三步(文案)时,强制智能体回读这块区域的数据,确保文案里的卖点能打中竞品的痛点。
效果: 保证了长链条任务的逻辑连贯性,避免了“捡了芝麻丢西瓜”。
第四层:参数记忆—— “品牌灵魂”
痛点: 无论怎么写 Prompt,Agent 的语气总像个机器人,缺乏品牌特有的“调性”(比如 Apple 的高冷)。新架构方案:
微调 (SFT): 这是参数记忆的最佳用武之地。
技术选型: 使用企业过去 3 年的高质量营销文案,对选定的模型进行 SFT(监督微调)。
操作实例: 不教知识(产品参数靠第一层解决),只教“说话方式”。
效果: 这种内化在权重里的记忆,让 Agent 一开口就是“老员工”的味道,无需在 Prompt 里写千字长文来规范语气。
一个优秀的 Agent,不在于它那一刻能生成多么惊艳的内容,而在于在漫长的交互中,它能记住你、理解你,并随着时间推移变得越来越默契。
本文编写情况:
选题:人类
一稿:gemini
审稿/定稿:人类
文章配图:自己搭建的配图智能体(基于 n8n+gemini +即梦 AI)
页:
[1]