新闻 发表于 2025-9-2 18:09

AI 日报(2025.9.2)

作者:微信文章

1. 谷歌推出 Gemini API 的 URL Context 功能 —— 网页理解更精准

新功能允许模型直接解析网页(含 PDF、图片等)并提取结构化信息,支持处理多达 ~34MB 的页面内容,极大简化基于网页的检索与抽取工作流。

2. 腾讯开源 HunyuanWorld-Voyager —— 单图生成世界一致的 3D 点云

该视频扩散框架可从单张图片生成对齐的深度与 RGB 视频与世界一致的 3D 点云,支持沉浸式场景重建,适合 VR、游戏与仿真应用。



3. 通义实验室发布 AgentScope 1.0 —— 面向多智能体的全流程框架

AgentScope 提供核心框架、Runtime 与 Studio 三层架构,支持实时介入、智能上下文管理和安全沙箱部署,覆盖智能体的开发、部署与监控全生命周期。



4. 苹果 FastVLM 上线 —— 在本地体验极速视觉语义能力

FastVLM 在 Apple Silicon 上实现极高推理效率(视频字幕处理提速约 85 倍且体积更小),并支持浏览器轻量版,本地运行确保数据不出设备,隐私与体验兼顾。

5. 腾讯优图开源 Youtu-Agent 框架 —— 构建自主智能体更便捷

Youtu-Agent 提供模块化智能体构建与评估工具,支持多任务(数据分析、文件处理等),面向生产环境优化并鼓励社区生态扩展。



6. 苹果发布 STARFlow —— 以流式变换器挑战 DALL·E 与 Midjourney

STARFlow 结合正则化流与自回归变换器优化高分辨率图像生成,通过潜在空间操作与深浅设计在图像质量与生成效率上实现技术突破。



7. 即梦AI 开放图像与视频生成 API —— 企业级一站式服务可用

即梦AI(通过火山引擎)开放文生图3.x、视频生成 3.0pro 与动作模仿模型的 API,帮助企业把创意快速转化为图像与长镜头视频内容。

8. 腾讯 Hunyuan-MT-7B 在 WMT2025 横扫多语种冠军,开源推动翻译普及

Hunyuan-MT-7B(开源)在 WMT2025 拿下多语种第一名,覆盖 31 种语言并以 MoE 架构获得高效推理与优异基准表现,面向实际翻译场景具有强竞争力。

9. CoMPaSS-FLUX.1:提升 FLUX 模型的空间理解能力

作为 FLUX.1 的 LoRA 适配器,CoMPaSS-FLUX.1 在处理物体间空间关系与场景一致性上显著改进,适合需要精确空间推理的文本到图像任务。



10. Cherry Studio 与合作方免费放出 Qwen38B —— 多模型生态更丰富

Cherry Studio 携硅基流动深度合作免费提供 Qwen38B 模型,扩充了平台的多模型选项,便于开发者快速接入大型语言模型能力。
页: [1]
查看完整版本: AI 日报(2025.9.2)