新闻 发表于 2025-6-10 08:48

AI工程师世界博览会:一位志愿者观察到的10个AI运用变化

作者:微信文章
来源:Oana Olteanu



本周的AI工程师世界博览会在旧金山万豪侯爵酒店占据了两层楼。

聚集了约3000名开发者、财富500强CTO,以及整个"LLM-OS"供应链的参与者,从最大的AI实验室到最小的插件开发者。

我作为志愿者参与其中,扫描了318个胸卡,得以结识了最有趣的创始人们。

一边盯着扫描仪,一边聆听会议内容,以下是我在主题演讲入口处值守时总结出的10个核心要点。
1. 工程流程成为新的产品护城河

一切模板化。产品需求文档(PRD)、设计文档(ADR)、根因分析报告(RCA)、季度路线图,以及定期会议议程,都应该存储在带有自动转录功能的共享模板中。

标准化能够保持工程和产品团队的协调一致,加速新人入职,并及早发现最佳实践中的缺失。

与AI协作规划,而非让AI代为规划。利用模型来挖掘背景信息、发现制约因素、起草备选方案——然后由人类做出决策。

三阶段循环,收集背景信息 → 协作式发现 → 润色与可视化。AI减少了开销,但战略意图仍需人类判断。

将文档作为智能体的上下文。最新的技术规范能够释放智能体编码和自动化文档检查的潜力(检测文档不同步、缺失需求、不一致性)。

当向编码智能体提供实时系统上下文时,它们的表现会明显提升。
2. 质量经济学本质未变——变的只是工具

质量更高 = 缺陷更少。经典的缺陷成本曲线依然有效:在生产环境修复的bug,其成本是在需求阶段发现同样问题的30-100倍。

AI生成代码的预防性技术栈:
1. 学习现有解决方案和模式2. 先规划,再提示3. 编写规范和严格的风格指南4. 检测机制:静态检查工具 → 单元/集成测试 → 基于LLM的代码审查

测试指导原则:编写正常和异常路径测试,重视集成测试,在沙箱环境中运行,衡量测试覆盖率。

结论:必须将LLM的快速生产力与经典的软件工艺相结合,否则你只是在更快地交付缺陷。


3. LLM技术栈的四个变化

演讲者将每个模型决策都描述为跨四个维度的实时权衡:
1. 推理型 vs 非推理型:更深入的思考会增加约9倍的延迟。2. 开放权重 vs 专有模型:自2024年末以来,开放模型已经缩小了与专有模型在智能水平上的大部分差距;中国实验室(DeepSeek、阿里巴巴)目前在开放模型前沿领跑。3. 成本:运行相同基准测试的成本差异目前超过500倍。4. 速度:通过稀疏化技术、更小的模型和推理优化软件,每秒输出令牌数持续攀升。

要点:获胜的平台会,将模型选择视为持续的供应链优化过程,而非一次性的供应商押注。
4. 效率提升与运行时需求的博弈

GPT-4级别的智能现在比2023年首次发布时便宜了约100倍(更小的模型 × FlashAttention × 新一代GPU)。

然而,每个用户请求的计算量却增长了20倍。

原因包括:更大的上下文窗口、推理模型产生约10倍更多的令牌,以及智能体工作流需要链式调用多个接口。

基础设施机遇,能够实时权衡价格/性能折中方案,并向应用团队屏蔽复杂性的产品。


5. 开发者如何定制模型(调研数据)

让我感到震惊的是,人们进行了如此大量的微调工作。

如果你想了解所有不同方法的详细回顾,请参阅我的文章:微调LLM - 来自DeepLearning SF聚会的学习心得。

在所有模态中,音频模型显示出最高的采用意向,这预示着语音和声音产品的新兴浪潮即将到来。
6. 自主性 ≠ 替代 — 来自Claude-at-Work的经验教训

三分之一的首次成功。

完全自主的PR大约有33%的时间能够顺利合并;其余的需要人类介入推进。

设置护栏,而非全权交接。

每个代码库都配备一个Claude.md文件(包含API和领域词汇);在生成代码前先搭建测试框架;提交采用小批量、高频检查点的方式,便于即时回滚。

实用建议:将模型视为初级结对编程伙伴,速度来自于编码化的上下文加上快速撤销能力,而不是追求100%的自主性。

结论:自主性是一个增强工具,而非直接替代品;应该投资于上下文构建和恢复路径。
7. 杰文斯悖论冲击AI计算

单位成本急剧下降,GPT-4级别的推理能力比2023年便宜了约100倍(更小的模型 × FlashAttention × 新芯片)。

但总需求却大幅攀升。智能体进行链式调用,上下文窗口不断扩大,令牌输出量增长10倍,导致每个工作流的总计算量增长约20倍。

战略意义:持久的护城河在于语义层,本体论和知识图谱,它们能将廉价的通用令牌转化为特定领域的价值。

结论:令牌价格的下降并不会降低总体费用;谁掌握了语义上下文,谁就能捕获剩余价值。
8. 评估成为新的CI/CD — 起初感觉很奇怪

为什么违反直觉?经验丰富的工程师习惯于避免为确定性API构建繁重的评估套件。

手动的笔记本电脑测试能够发现几乎所有问题,而且"在生产环境中测试"通常成本更低。这种习惯培养了对评估的本能抗拒。

为什么LLM系统颠覆了这一逻辑?生成式管道具有随机性和高维度特征;手动探测无法近似真实世界的变化复杂性。

对LLM的评估扮演了手动冒烟测试曾经对REST端点的角色:它们是防止用户看到无意义内容的唯一理智屏障。

分步骤评估器。借鉴Hex的模式:为每一步都附加通过/失败检查,检索、规划、工具调用、最终答案。这样错误会被局部化而不是复合累积(每步30%的失误率会在末端变成90%)。



执行原则:如果你不会在没有单元测试的情况下合并代码,那就不要在没有分步评估和漂移监控面板的情况下部署LLM链。

结论:对于从确定性软件起步的人来说,评估感觉像是额外开销。

但对生成式系统而言,它们是认知的单元测试,跳过它们,你的智能体就变成了一张彩票。
9. 语义层 — 上下文才是真正的计算力

重要性何在?正如我所论证的,精心策划的本体论(表格、API、领域词汇)是令牌输出和任务完成之间的区别所在。

一旦开放权重模型的智能水平趋于收敛,将模型输出映射到业务真相的这一层就成为了护城河。

来自现场的信号包括:
1)"一切模板化"和Claude.md文件就是迷你语义层——它们编码了Claude必须遵守的函数、对象和风格规则。

2)DeepSeek和阿里巴巴缩小了模型质量差距,证明上下文胜过专有权重。

3)Hex的分步评估器之所以有效,是因为DAG中的每个节点都有类型化契约;没有这种语义脚手架,评估就只是在给噪声打分。

现实世界的利害关系。在医疗保健领域,我们将提示词植根于RxNorm标准,这样智能体就能识别所有他汀类药物,而不仅仅是立普妥这一个品牌。



自动驾驶团队将多个低概率检测结果(儿童、自行车、箱子)融合成单一的规避类别——这是本体论的另一个实际应用。

投资视角来看,语义层工具(版本控制词汇表、向量友好连接、RAG就绪图谱)和拥有专有上下文的垂直应用,将比又一个通用智能体捕获更多价值。

结论:廉价令牌随处可得;结构化意义却很稀缺。掌握语义层,你就为其上的每个模型、评估和智能体制定了游戏规则。
10. 对投资者、LP和创始人的启示

围绕文档、根因分析和规划的流程成熟度正在成为企业买家尽职调查的考查项目。

成本工程(延迟、费用、碳排放)是一个可投资的层面:预计面向LLM的FinOps工具将大量涌现。

随着开放权重智能向专有领先者靠拢,数据+工作流集成而非模型知识产权,将成为防御性的锚点。



参数高效定制(RAG、LoRA)在当下赢得了实际采用;对全栈预训练的投资应该考虑更长的回报周期。

模态扩展(音频、视频)是下一个需求增长曲线,在这个领域构建基础设施或原语的创始人看起来入场较早但时机恰当。

正在这个方向上创业?我们聊聊吧。

也请告诉我你希望看到哪个话题的深度分析。在评论区留言!
页: [1]
查看完整版本: AI工程师世界博览会:一位志愿者观察到的10个AI运用变化