AI编程阶段性研判2025.1.20

新闻 · 发表于 2025-1-20 20:01

作者：微信文章

AI编程阶段性研判

摘要：

- 目前模型生成的代码采用率不高，只有不到 40%。架构创新或是提升采用率最关键的点。

- 初创编程企业的自研模型超越（或者明显超越）大公司的模型概率较小。调用已有模型会在很长一段时间更有利于产品表现。

- 短期之内，各 AI 编程产品因为模型能力的限制而提效差异不明显，随着采用率的提高，未来产品竞争的核心或是产品交互设计。

风险提示：

主观推断，或存谬误，非常欢迎讨论、指正。

01#

模型的代码能力目前尚不成熟，小公司的代码模型反超概率小

目前国内外做AI编程初创企业如雨后春笋，根据产品的自动化程度可以大致分为Copliot类和Autopilot类，前者可以理解为L1级别辅助驾驶，后者可以理解为L3级别的自动驾驶。

Copilot类又可以大致分为两种，一是插件类（如：通义灵码、github copliot、marscode等）；第二种是AI驱动IDE类（如：Cursor、Windsurf、Replit等）。Autopilot 主要代表就是Devin。

本文主要对AI编程的现状和未来一年的发展做一下简单的研判。

目前AI生成代码采用率普遍偏低

当前编程模型的采纳率不高，只有不到 40%，国内大约在 25%，最好的模型大约在 35%（采纳率来源于 AIG 创始人公开发言）。在较低的采纳率下，产品形式（插件形式、copilot 和 autopilot ）对效率影响区别不大，因为时间的大头还是在程序员验收修改上。

根据 Aider 的多语言基准测试（https://blog.csdn.net/weixin_46074689/article/details/144948232）的结果也表明在生成代码任务中（下图的 whole format）模型成功率不到 40%，在代码修改任务中（下图的 diff-like format）成功率会高一些。

（Aider 的多语言基准测试是为了更全面地评估 LLM 在代码编辑和多语言编程中的表现而设计的。与之前的单一 Python 基准测试相比，新测试涵盖了 C++、Go、Java、JavaScript、Python 和 Rust 六种流行编程语言。）

目前编程模型的对比

在模型编程的评价中，最关键的两个指标是： HumanEval 和 Elo 分数。

HumanEval。这是一个由人工编写的编码问题组成的基准数据集，用于评估模型根据指定要求生成正确且功能性代码的能力。

Elo 评级是一种用于评估竞技者相对实力水平的系统。它在国际象棋等众多竞技项目中被广泛应用。通过比赛结果，对实力进行量化评估，并随着比赛的进行不断更新和调整评级分数。较高的 Elo 评级通常意味着竞技者具有更强的实力。

目前OpenAI 的模型在编程领域是最好的，在两个指标中都名列前茅。

顶级 OpenAI 模型比最佳非OpenAI 模型（Anthropic 的 Claude Sonnet 3.5）高出 46 个 Elo 点，在面对面编码任务中的预期胜率为 56.6%，在 HumanEval 中的差异为 3.9%。虽然这种差异并不明显，但它表明 OpenAI 仍然具有优势。

需要一提的是，最好的模型是 o1-mini，它的得分比更大的 o1 高出 10 个 Elo 点，在 HumanEval 中的得分高出 2.5%。（个人判断这个是因为 o1-mini 是由 o1 蒸馏出来，在专项任务中拥有更优秀的表现是正常的，但并不代表小公司训练的小模型会比大公司的大模型表现优异，这是因为一个优秀的小模型背后多半是有优秀的同源大模型的。）

提高代码采用率需要架构上的创新，PLE>MOE>transformer

代码采用率低主要还是 Transformer 架构本身无法胜任高难度的逻辑推理和长尾任务。所以针对模型架构的创新，针对高质量代码数据的预训练是非常有必要的。

目前大家都在往 MOE、MMOE 架构去开发，deepseek 低成本高表现的核心也是使用了新的MOE架构。之前李开复接受采访也是在说MOE。OPEN AI 虽没有公开，但据传也是使用了 MOE。

从论文上来看，PLE 是在 MOE 和 MMOE 基础上发展来的。MOE 是将密集层分成一个个专家，需要什么能力调用什么专家，MMOE 是通过多个控制门针对不同任务选择专家，比 MOE 能更好的适应不同任务。PLE则是有两层“专家”，一层通用专家，一层专用专家，比 MOE 只有一层专家效果来得好。

（MOE将密集层替换为多个专家块，不同的任务下只激活特定的专家块。能够大大减少计算量和计算成本。MMOE是在MOE的基础上加更多的用于调度不同专家的总控，从而能够更好地适应不同任务的特点，是MOE的小升级）

（对比 MOE 和 MMOE的一层专家架构，PLE架构使用了两层专家层架构，一层是通用的专家，一层是真对任务的专用专家，相当于是把通用技能和专用技能配合使用。理论上比一层结构的MOE效果好。）

02#

产品设计或是未来 AI 编程企业的竞争的核心

从模型的训练上来说，即使在编程这个专有领域，个人认为小公司还是很难在模型表现上与大公司拉开差距。

这是因为小公司的自研模型多半也是基于已有基座模型的继续预训练、微调、蒸馏、架构创新。但是这些工作也是其他编程模型企业和大模型企业的基础操作，同时小公司的模型进步还受限于开源模型的进步。即使在微调、架构创新等工作上小公司做得更好，对效果的提升是否比基座模型本身的进步更大还不太清楚。

目前的结果上来看，o1 和 Claude 3.5 在编程领域以及处于领先地位，但他们是闭源的，如果未来开源模型与闭源模型差距扩大，那么像初创企业自研的编程模型与Openai的差距越来越大也是非常有可能的。

总而言之，AI 编程企业很难在模型能力上实现护城河，短期之内（或者中短期），调用通用模型的编程产品会比使用自研模型的初创产品要更好。

所以通过更合理的产品交互设计和工作流设计以实现更高的自动化是初创AI编程企业的竞争的核心。虽然产品设计的差距在短期之内可能体现不出来（这是因为如前面说的，当前模型的采纳率不高，只有不到 40%，这时候插件也好、copilot 也好，autopilot 也好，程序员时间的大头还是在验收修改上），但如果随着模型能力的提升，代码的采用率逐渐达到了如 90%，更高的自动化设计比如 autopilot 这样的形式对提升效率就很有帮助。

结论：短期之内，各 AI 编程产品因为模型能力的限制而提效差异不明显，未来产品竞争的核心是产品交互设计。初创编程企业的自研模型超越（或者明显超越）大公司的模型概率较小，调用已有模型会在很长一段时间更有利于产品表现。

抛砖引玉，欢迎讨论、批评、指点～

邮箱：954601208@qq.com

账号		自动登录	找回密码
密码			注册

萍聚头条

AI编程阶段性研判2025.1.20

本帖子中包含更多资源