AI商业洞察 | Windsurf发布面向软件工程全流程的AI模型SWE-1
作者:微信文章AI+商业
AI商业洞察
DeepMind发布新AI工具AlphaEvolve 擅长解决数学与科学问题
近日,谷歌旗下AI研发实验室DeepMind推出了一款名为AlphaEvolve的新型AI系统,专门解决“机器可评分”的数学和科学问题。该系统利用先进的Gemini模型,通过生成、批判和自动评分多种答案,有效减少了AI常见的“幻觉”现象,提高解题准确率。
AlphaEvolve适用于计算机科学、系统优化等可自动评估答案的问题类型。用户可以输入问题及相关公式、代码等细节,系统则通过算法形式给出解答。DeepMind在一组约50个涵盖几何、组合数学等领域的问题测试中,AlphaEvolve成功“重新发现”了75%的最佳答案,并在20%的情况下找到了改进方案。
此外,AlphaEvolve还会应用于实际场景,如优化谷歌数据中心运行效率,平均回收全球计算资源0.7%,并使Gemini模型训练速度提升1%。虽然系统尚未实现重大突破,但DeepMind方面表示,这种工具能节省时间,释放专家人力,专注更重要的科研任务。
Databricks斥资10亿美元收购开源数据库初创公司Neon
近日,数据分析平台Databricks已同意以约10亿美元收购Neon,这是一家专注于打造AWS Aurora Postgres开源替代方案的初创公司。
Neon成立于2021年,提供云端托管的无服务器关系型数据库平台,支持数据库克隆、变更预览、自动弹性扩展及分支测试等功能,极大便利开发者管理和优化数据库。Databricks方面表示,Neon的技术将与其自身数据智能服务结合,使客户能更高效地部署AI智能体。根据最新数据,Neon平台上80%的数据库实例均由AI智能体自动创建,而非人工操作。
Databricks联合创始人兼CEO 阿里·戈德西(Ali Ghodsi)指出,AI驱动应用重塑数据库需求,Neon为开发者带来了无服务器、可按需付费且支持社区开放的Postgres解决方案。
此前,Databricks已完成逾190亿美元融资,今年1月更完成了153亿美元融资,估值达620亿美元。该公司积极通过收购布局AI生态,2023年分别收购了数据管理公司Tabular和开源大语言模型训练平台MosaicML。此次收购进一步强化了Databricks在AI数据库及开发领域的领先地位。
You.com发布ARI Enterprise平台,锁定深度研究市场
AI搜索引擎You.com近日推出了面向企业的高级研究平台ARI Enterprise,声称在多项对比测试中击败OpenAI,准确率达80%,领先业界。该平台专注于为金融分析师和管理顾问等专业用户提供更深入、更全面的研究分析,支持从公共网络数据到企业内部海量资料的整合搜索,显著提升研究效率和质量。
You.com CEO 理查德·索彻(Richard Socher)表示,ARI Enterprise相比以往版本,在深度和广度上提升4倍,生成的独特引用数量翻倍,带来35%的洞见增长。其独特的交互式设计允许用户在研究过程中参与规划和调整,避免了AI生成结果泛泛而谈的弊端。
该平台在由哈佛、谷歌和Meta联合制定的FRAMES基准测试中表现卓越,并且在You.com自创的DeepConsult商业研究测试中,ARI在612项对比中赢得76%,远超OpenAI。
You.com还承诺开源其测试方法和数据集,确保透明性。现已有风投公司、咨询机构及美国国立卫生研究院(NIH)等机构采用ARI进行复杂研究,显著缩短报告生成时间。
索彻强调,ARI Enterprise并非替代分析师,而是助力他们大幅提升工作效率,推动专业研究民主化。他认为,未来AI工具将改变人们提问和决策的方式,重塑信息时代的研究模式。
Elon Musk旗下xAI回应聊天机器人Grok涉南非种族言论事件
近日,Elon Musk旗下社交平台X内置的AI聊天机器人Grok因频繁发布关于南非“白人种族灭绝”及相关敏感政治话题的评论,引发用户广泛关注和争议。对此,xAI官方发布声明称,2025年5月14日凌晨,Grok的提示语被未经授权的人员修改,导致机器人在多条对话中偏离正常话题,发表了不符合公司核心价值观的内容。
Grok随后在与用户的互动中“自曝”称是“某位叛逆员工”偷偷调整了它的提示语,自己只是按程序执行,调侃称自己“太狂野”被“拴紧了绳子”。针对这一事件,xAI表示已展开调查,并加强了监控以确保机器人行为透明且可靠。
此次事件凸显了大型语言模型在嵌入公共平台时的风险,AI的表现依赖于幕后指令,若指令被篡改或不透明,容易引发失控或偏见。此前,Grok也曾被用户指出带有政治倾向,部分内容反映了Elon Musk个人的观点。
xAI目前已恢复正常运营,但AI安全管理和内容监管需持续加强,以防止类似问题重演。
Windsurf发布面向软件工程全流程的AI模型SWE-1
Windsurf(前身为Codeium)近日推出了专为软件工程设计的前沿AI模型家族——SWE-1,旨在加速整个软件开发流程。与传统大语言模型(LLM)主要聚焦代码生成不同,SWE-1覆盖代码编写、代码审查、提交及长期维护等多种开发任务,满足真实软件项目中多工具、多步骤和持续上下文管理的需求。
据Windsurf产品负责人Anshul Ramachandran介绍,SWE-1通过“流程感知”理念实现人机协作的时间线共享,逐步将开发任务从人类转移到AI,提高开发效率。该模型目前已向用户开放,虽不打算替代大型基础模型,但在软件工程场景下性能表现优异。
此外,Windsurf正被AI巨头OpenAI以约30亿美元收购,此举或助力SWE-1进一步融合OpenAI的研发资源。技术决策者应关注,AI辅助不仅限于代码自动补全,更多环节如代码评审、调试和技术债务管理也有望实现显著提升。SWE-1的出现或将推动企业级AI开发工具进入更成熟、更高效的新时代。
编辑 | 钱丽娜
排版 | 杨一萍
校对 | 袁海鸣
|中经传媒智库CBJTHINKTANK原创文章|
往期推荐
AI商业洞察 | 谷歌大脑创始人吴恩达称AI将彻底改变战场
你有在看吗↓
页:
[1]