新闻 发表于 2025-10-31 01:55

AI-ACE主动上下文工程专辑之四:解密硅谷AI Agent项目:为何95%都失败了?

作者:微信文章


## 开场:95%的AI Agent项目为何失败?

在一次硅谷内部的行业交流活动中,一个惊人的数据被提及:95%的AI Agent部署在生产环境中会失败。



这个数字让我深思。我们一直在追求更先进的模型,更复杂的算法。却忽视了支撑体系的重要性。

讨论会中,硅谷知名风险投资人Oana Olteanu与来自Uber、WisdomAI、EvenUp和Datastrato的工程师。探讨了AI Agent在生产环境中成功的关键因素。

他们指出,失败的原因并非模型不够智能。而是因为其周围的支撑体系尚未到位。包括上下文工程、安全性、记忆设计等。

这个发现颠覆了我们的认知。大多数创始人以为自己在打造AI产品。

实际上他们真正在构建的是上下文选择系统。

## 核心观点:模型非关键,支撑体系才是重点

    AI Agent的复杂性远超我们的想象。它们不只是模型,还是包含多个层次的复杂系统。在讨论会上,嘉宾们提到。真正重要的不再是模型本身,而是其支撑体系。



    这包括上下文选取、语义层、记忆编排、治理机制以及多模型的路由策略。我分析了多个AI Agent项目的失败案例。发现它们都有一个共同点:过分关注模型能力。却忽视了支撑系统的设计。

    成功的项目往往把更多精力投入到上下文工程、记忆设计和治理机制上。而失败的项目则相反。他们认为只要模型足够智能,其他问题都会迎刃而解。

## 失败主因一:上下文工程缺失

    在讨论会中,多位嘉宾都表达了相同观点。模型微调通常用不上,把RAG做得到位就足够了。但目前大多数RAG系统设计都太过简单。不够成熟。常见的失败模式包括:

1. 索引过多 → 检索到过多信息 → 混淆模型

2. 索引过少 → 模型缺乏有效信号

3. 混合结构化和非结构化数据 → 破坏嵌入或简化关键架构

真正的高级上下文工程是什么样的?

一位嘉宾将其重新定义为面向LLM的原生特征工程:

- 选择性上下文剪枝 = 特征选择

- 上下文验证 = 模式/类型/时效性检查

- "上下文可观测性" = 跟踪哪些输入提高/降低输出质量

- 带元数据的嵌入增强 = 类型化特征 + 条件

这种框架很重要。我们可以将上下文视为可版本化、可审计、可测试的工件。而不仅仅是一串字符串。

我观察到,失败项目往往没有建立这种系统化的上下文管理机制。

## 失败主因二:记忆设计不当

每个人都希望给AI"加上记忆功能"。但记忆并非简单功能,而是关乎用户体验、隐私和系统设计的决策。

记忆有不同层级:

- 用户级:个人偏好(如图表类型、样式和写作风格)

- 团队级:常见查询、数据看板和运维手册

- 组织级:机构知识、规章制度以及过往决策

大多数初创企业会将记忆功能直接硬编码在应用程序逻辑或本地存储中。

而顶尖团队则会把它抽象成独立的上下文层和行为层。具备版本控制和可组合性。

一位嘉宾形容这种做法:语义记忆+分类体系+操作指南=上下文,个人偏好=记忆。

失败项目的记忆设计往往缺乏层次化和架构思维。导致系统混乱和扩展困难。

## 失败主因三:治理与信任问题

安全、溯源和权限管理一次又一次被提及。它们不是走形式的核对项,而是阻碍部署的关键因素。

在垂直领域构建产品的创始人需要注意:

- 必须追踪哪些输入导致了哪些输出(溯源/谱系)

- 必须尊重行级别、基于角色的访问(策略门控)

- 即使提示词相同,也必须为不同用户定制特定的输出

一位嘉宾说:"如果两个员工问同一个问题。模型的输出应该不同,因为他们的权限不同。"

没有这些控制,Agent在功能上可能是正确的。但在组织层面是错误的。

会泄露访问权限或违反合规。当前主流解决方案是针对结构化和非结构化数据构建统一的元数据目录。

并在索引和查询时嵌入访问策略。

## 解决方案:正确实施上下文工程

从失败中学习,我能找出正确的路径。

成功项目都以"human-in-the-loop"的方式设计。把AI定位为助理,而非自主决策者。

整个系统能通过人为纠正形成反馈回路并不断学习。

同时让人类能够方便地核查并更改AI的决定。

上下文工程需要采用双层架构:

- 语义层 → 经典向量搜索

- 元数据层 → 根据文档类型、时间戳、访问权限或垂直领域本体进行过滤控制

这一混合层有助于对杂乱的输入格式进行标准化处理。

确保检索到的不仅是"相似内容",而是相关的结构化知识。

对于文本转SQL这类挑战,成功团队不会简单地把SQL结构丢给模型。

而是主动构建体系:

- 业务词汇表及术语对应关系

- 具有约束条件的查询模板

- 能够执行前捕获语义错误的验证机制

- 能够随时间推移不断优化理解能力的反馈循环



## 结论:从失败中学习

那些5%在生产环境中真正可用的AI-Agent都有一个共同点。重视支撑体系的建设。它们关注上下文质量、记忆设计、编排稳定性和信任的用户体验。

生成式AI领域真正的壁垒,将不在于模型的获取。而在于:

1. 上下文的质量

2. 记忆设计

3. 编排的稳定性

4. 信任的用户体验

创始人需要自问几个关键问题:

- 应用程序的上下文容量是多少?

- 记忆边界在哪里?

- 能否追踪输出结果的来源?

- 使用的是单一模型还是多模型?

- 用户会放心把资金或医疗数据交给系统管理吗?



    从95%的失败中,能得出:AI Agent的成功不在于模型本身。而在于整个生态系统的设计。
页: [1]
查看完整版本: AI-ACE主动上下文工程专辑之四:解密硅谷AI Agent项目:为何95%都失败了?