新闻 发表于 2025-7-20 01:51

OpenAI 透露 GPT-5 即将发布;OpenAI 实验性模型在 IMO 中取得金牌表现【AI 早报 2025-07-20】

作者:微信文章


橘鸦 AI 早报 2025-07-20

概览

OpenAI 实验性模型在国际数学奥林匹克(IMO)竞赛中取得金牌表现OpenAI 透露 GPT-5 即将发布NVIDIA 开源多模态音频模型 Audio Flamingo 3Manus 分享 AI Agent的上下文工程经验谷歌发布 Gemini CLI v0.1.13 版本更新
OpenAI 实验性模型在国际数学奥林匹克(IMO)竞赛中取得金牌表现


OpenAI的最新实验性推理模型在国际数学奥林匹克竞赛中取得了金牌级成绩,无需形式化代码,完全使用自然语言解决了6个问题中的5个。

OpenAI 宣布其最新的实验性推理大语言模型在2025年国际数学奥林匹克(IMO)竞赛中达到了金牌水平。在评估过程中,该模型遵循与人类参赛者完全相同的规则,进行了两场各4.5小时的考试,期间无任何工具或互联网接入。

该模型成功解决了6个问题中的5个,总共获得42分中的35分,这一成绩足以确保获得金牌。评分由三位前IMO奖牌得主独立进行,并在达成一致共识后最终确定。值得注意的是,该模型完全使用自然语言(plain-English)来思考和撰写证明,无需任何形式化的代码。OpenAI 已在 GitHub 上公开了模型生成的证明。

OpenAI CEO Sam Altman 表示,这是一个通用的推理系统,是公司迈向通用人工智能(AGI)核心努力的一部分,也是过去十年AI领域取得巨大进展的重要标志。OpenAI 团队成员 Alexander Wei、Sheryl Hsu 和 Noam Brown 强调,这一成就并非通过狭隘的、针对特定任务的方法论实现的,而是在通用的强化学习和测试时计算扩展 (test-time compute scaling)方面取得了新的突破。

与此同时,来自Ai2 的 Nathan Lambert 对 OpenAI 的发布评论称,Google DeepMind 实际上也获得了 IMO 金牌,并提醒大家警惕“含糊的炒作式宣传”。


https://x.com/alexwei_/status/1946477742855532918
https://x.com/sama/status/1946569252296929727
https://x.com/natolambert/status/1946561482877002212
OpenAI 透露 GPT-5 即将发布


OpenAI CEO Sam Altman 透露 GPT-5 即将发布,但明确表示其数学能力不会达到在IMO竞赛中获奖的实验性模型水平。

在宣布其模型获得国际数学奥林匹克竞赛金牌的同时,OpenAI CEO Sam Altman 和研究科学家 Alexander Wei 透露,GPT-5 即将发布。

然而,他们均明确设定了市场预期:即将发布的 GPT-5 并非在IMO竞赛中获奖的模型。Altman 强调,获得金牌的IMO模型是一个实验性的研究成果,整合了未来将用于其他模型的新研究技术,而即将面世的 GPT-5 不会具备同等级别的数学能力。他表示,用户会喜欢 GPT-5,但具有IMO金牌级能力的模型在未来数月内不会发布。

与此同时,社区发现在一个公开的基准测试 GitHub 仓库中出现了一个名为 gpt-5-reasoning-alpha-2025-07-13 的模型标识符,进一步引发了关于新模型的讨论。


https://x.com/sama/status/1946569252296929727
NVIDIA 开源多模态音频模型 Audio Flamingo 3


NVIDIA 开源了其先进的多模态音频语言模型 Audio Flamingo 3,该模型在超过20个音频任务上设立了新基准,但仅限非商业研究使用。

NVIDIA 发布了 **Audio Flamingo 3 (AF3)**,这是一款完全开源的、先进的大型音频语言模型 (LALM)。该模型旨在推动音频、语音和音乐领域的AI研究,但仅限用于非商业研究目的,并依据 NVIDIA OneWay 非商业许可证发布。

AF3 在多个方面进行了创新,能够对语音、声音和音乐进行统一的表示学习,支持灵活的、按需的思维链推理,并能理解长达10分钟的音频上下文。其聊天版本 AF3-Chat 还支持多轮、多音频的对话以及直接的语音对语音交互。NVIDIA 表示,AF3 在超过20个公开的音频理解和推理任务上设立了新的基准。

该模型的架构基于 NVILA 和 Qwen-2.5-7B,核心组件包括一个 AF-Whisper 统一音频编码器、一个基于 MLP 的音频适配器、一个 Qwen2.5-7B 解码器 LLM 主干,以及用于聊天版本的流式文本转语音 (TTS)模块。AF3 完全使用开源音频数据进行训练,其中包括NVIDIA创建的四个新的大规模数据集:AudioSkills-XL、LongAudio-XL、AF-Think 和 AF-Chat。

模型支持 WAV、MP3、FLAC 等音频格式和文本作为输入,最大音频长度为10分钟,最大输入文本长度为16000个token。其输出为文本,并可选地生成流式语音波形。该模型针对 NVIDIA A100 和 H100 GPU 进行了优化,以实现更快的训练和推理。Audio Flamingo 3 于2025年7月10日发布,已在 Hugging Face 和 GitHub 上提供。


https://huggingface.co/nvidia/audio-flamingo-3
https://github.com/NVIDIA/audio-flamingo
https://research.nvidia.com/labs/adlr/AF3/
https://x.com/huggingface/status/1946354015568052228
Manus 分享 AI Agent的上下文工程经验


AIAgent公司 Manus 分享了其“上下文工程”实践,通过六项核心原则(如围绕KV缓存设计和遮蔽工具)来构建更高效、稳健的AIAgent。

AI Agent公司 Manus 的 Yichao 'Peak' Ji 发表了一篇博文,详细分享了其在构建 AI Agent过程中的经验教训,重点介绍了一种他们称为上下文工程的实践。作者将他们历经四次框架重建的迭代过程戏称为随机研究生下降 (Stochastic Graduate Descent),并总结了六项核心原则,旨在帮助构建更高效、更稳健的 AI Agent。

文章强调了两个关键原则:围绕 KV 缓存 进行设计以及遮蔽而非移除工具。作者认为 KV 缓存 命中率是生产环境中 AI Agent最重要的单一指标,直接影响延迟和成本。为优化此指标,应保持提示词前缀稳定并使用仅追加的上下文。其次,为了避免因动态增删工具而导致 KV 缓存 失效,Manus 采用状态机在解码时通过遮蔽(masking)logits 来管理工具的可用性,而不是直接从上下文中移除工具定义。

另外两个原则涉及上下文管理和注意力操控。文章提出将文件系统视为终极的、无限大小的上下文,让Agent学会按需读写文件,将其作为结构化的外部记忆,从而绕过 LLM 的上下文窗口限制。同时,为了解决长对话中“迷失在中间”的问题,Manus Agent会通过不断重写一个 todo.md 文件的方式,将其全局目标“复述”到上下文的末尾,从而操控模型的注意力。

最后两个原则关注错误处理和多样性。文章建议将错误的尝试和堆栈跟踪保留在上下文中,而不是清理它们。这能让模型从失败中学习,减少重复犯错的可能,这也是真正Agent行为的标志之一。此外,为了防止Agent因模仿上下文中的重复模式而变得脆弱,应在行动和观察的序列化中引入少量结构化的变化或噪声,以增加多样性,调整模型的注意力。


https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
Gemini CLI 发布每周更新总结


谷歌更新了其 Gemini 命令行工具至 v0.1.13 版本,新增了多项实用功能,并发布了 v1 版本路线图。

谷歌更新了其 Gemini 命令行工具 (CLI) 至 v0.1.13 版本,并发布了该工具的 v1 版本路线图。此次更新带来了一系列功能增强和体验优化。
功能/优化描述取消操作提示在取消操作时显示被修改的内容。确认快捷键使用数字键作为确认快捷方式。认知循环缓解引入对认知循环的检测与缓解机制。MCP 服务器管理允许用户指定允许或排除特定的 MCP 服务器。默认身份验证为频繁切换的用户设置默认身份验证类型。隐藏启动横幅提供隐藏启动横幅的选项。终端换行支持通过 \ 字符为不支持 Shift+Enter 的终端提供换行支持。代理支持新增 --proxy 标志以通过代理路由所有请求。MCP 调试输出在 ctrl+o 窗格中查看 MCP 工具调试输出。https://github.com/google-gemini/gemini-cli/discussions/4516

作者橘鸦Juya,视频版在同名哔哩哔哩。如果对你有所帮助,欢迎点赞、关注、分享。
页: [1]
查看完整版本: OpenAI 透露 GPT-5 即将发布;OpenAI 实验性模型在 IMO 中取得金牌表现【AI 早报 2025-07-20】