【OpenAI发布GPT Image1.5/小米开源MiMo-V2-Flash/谷歌推出AI助手CC/腾讯发布混元世界模型1.5】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2025-12-17 15:10

OpenAI发布GPT Image1.5/小米开源MiMo-V2-Flash/谷歌推出AI助手CC/腾讯发布混元世界模型1.5

作者：微信文章

🤖 赛博速递2025-12-17

✨ 字节跳动发布Seedance1.5Pro：音视频视听同步升级
🕶️ Meta推出新款AI眼镜，增强对话听感并调整Messenger策略
🖼️ OpenAI发布GPT Image1.5，图像生成与编辑能力提升
🔊 谷歌发布Gemini2.5Flash Native Audio，语音助手表现改进
🎬 Adobe Firefly视频功能大升级，支持局部提示编辑与多模型整合
🗓️ 谷歌实验室推出AI助手CC，深度整合日程与Gmail生态
⚡ 小米开源MiMo-V2-Flash，3090亿参数稀疏激活架构
🌍 腾讯发布混元世界模型1.5，实时交互虚拟世界并开源训练体系
🤝 Meta允许员工调用竞品AI工具，办公套件迁移并游戏化AI使用
💰 OpenAI拟与亚马逊洽谈融资并考虑采用Trainium3芯片

✨ 字节跳动发布Seedance1.5Pro：音视频创作进入视听同步时代

字节跳动在北京发布了Seedance1.5pro，这是面向音视频创作的全新多模态生成模型，强调音视频联合生成与更高精度的视听同步。该模型支持通过文本输入或图像引导生成音视频，并在口型、语调与表演节奏的拟合上做了显著优化。

发布会上展示的能力包括高级镜头调度（如长镜头跟随、希区柯克式变焦）和对叙事语境的语义理解，从而提升段落间的叙事协调性。Seedance1.5pro还支持多语种与方言，便于在喜剧或戏曲等风格化表演中保留地域特色与语音细节。

该模型已在即梦AI和豆包平台上线供用户体验，适用场景覆盖影视创作、短剧生成、广告制作与戏曲演绎等。字节跳动强调，这一版本在视觉冲击力、运动效果与音频同步方面均有提升，旨在为创作者提供更高效的视听一体化工具.
🕶️ Meta推出新款AI眼镜：放大对话声音并调整Messenger策略

Meta发布了一款新型AI眼镜，采用开放式扬声器设计，目标是在嘈杂环境中放大与用户交谈者的声音，提升面对面交流的清晰度。该设备面向日常场景优化，适用于咖啡馆、街道等噪声环境，旨在让用户更轻松参与对话。

与此同时，Meta宣布其Messenger桌面应用将于2025年12月15日停止服务，并将Messenger功能逐步整合回Facebook主应用。公司建议用户转向网页端或Facebook应用继续使用Messenger，并提供PIN设置以保存聊天记录。Meta此前在桌面端采用过Catalyst、Electron与React Native等技术，整合举措反映出其在产品线与体验上的调整。

这次硬件与产品策略的并行调整，显示Meta在硬件体验与软件整合两端同时发力：一方面推出面向现实交流的AI硬件，另一方面优化社交产品的分发与维护路径，以提升整体用户体验与运营效率.
🖼️ OpenAI发布GPT Image1.5：图像生成与编辑能力显著提升

OpenAI正式推出GPT Image1.5，这是面向图像生成与编辑的最新模型，强调高保真生成与提示词遵循能力。新模型既能从零开始生成图像，也能在用户上传照片基础上进行精确编辑，并保留原图关键要素，减少以往生成中常见的面貌或细节偏差问题。

在细节处理上，GPT Image1.5对光线、构图与人物外观的掌控更强，文本渲染能力也得到改善，能更准确地将文字嵌入图像而避免乱码。OpenAI还升级了ChatGPT的编辑工具，新增“Images”标签页，支持网页端与移动端操作，用户可通过内置滤镜与提示词进行快速创作与编辑。

项目由Gabriel Goh与Adele Li主导，OpenAI同时成立了专门的安全与合规团队以应对伦理与法律问题。整体来看，GPT Image1.5将图像生成从实验性功能进一步推向消费级、可编辑的创作工具链.
🔊 谷歌升级Gemini2.5Flash Native Audio：语音助手理解与执行更准确

谷歌发布了Gemini2.5Flash Native Audio更新，目标是提升语音助手在复杂工作流中的表现与多步骤对话的连贯性。官方数据显示，开发者指令的遵循率从84%提升至90%，表明模型在理解并执行用户请求方面有明显进步。

在基准测试方面，Gemini2.5在ComplexFuncBench上的函数调用准确率达到71.5%，高于文中提及的部分竞品测试结果。该更新已在Google AI Studio、Vertex AI、Gemini Live与Search Live等平台上线，Google Cloud客户也可开始使用，开发者可通过Gemini API进行测试与集成。

此次更新不仅提升了语音交互的准确性，也改善了多轮对话的自然度，为需要语音驱动复杂任务的应用场景（如助理型工具、车载系统）提供了更可靠的底层能力.
🎬 Adobe Firefly视频功能大升级：支持局部提示编辑与多模型整合

Adobe对Firefly的视频功能进行了重大升级，推出全新视频编辑器，首次支持基于文本提示的局部修改，用户无需重做整段视频即可对特定元素（如天空、主体大小）进行精细调整。新编辑器还提供可视化时间轴，支持逐帧调整画面、音频与转场，提升剪辑效率。

在模型整合方面，Firefly引入了FLUX.2（Black Forest Labs）、Astra（Topaz Labs）与Runway Aleph等第三方模型，分别增强图像生成、视频超分与复杂编辑指令理解能力。Adobe还实现了相机运动迁移功能，用户可上传起始帧与参考运镜视频，AI复现相同镜头语言，便于短视频创作者实现电影级运镜。

为鼓励使用，Adobe对Pro与Premium订阅用户提供限时无限生成福利。此次更新将Firefly从单一生成工具向视频创作工作站转型，强调专业工作流与生态整合，以应对Runway、Pika等竞争对手的挑战.
🗓️ 谷歌实验室推出AI助手CC：深度整合日程与谷歌生态

谷歌实验室发布了实验性生产力助手CC，基于Gemini技术构建，定位为智能“日程管家”。注册并授权后，CC可无缝连接用户的Gmail、谷歌日历、云端硬盘等，提供每天早晨的“您的一天预览”简报，将日程、关键任务与最新动态整合为可执行摘要。

CC还能根据指令预先准备邮件草稿与日历链接，用户可通过回复或自定义请求来更新待办事项或记录灵感。作为早期实验，CC已在美国与加拿大对部分Google AI Ultra用户与付费订阅用户开放早期访问，符合条件的用户可通过官网加入候补名单体验。

该项目展示了谷歌将大模型能力与个人生产力工具深度结合的方向，强调通过生态整合提升日常工作效率与自动化水平.
⚡ 小米开源MiMo-V2-Flash：3090亿参数稀疏激活，高速低成本推理

小米发布并以MIT协议开源了大模型MiMo-V2-Flash，总参数量约3090亿，但采用稀疏激活架构，每次推理仅激活约150亿参数，从而在保持能力的同时显著降低计算开销。实测显示，该模型在推理速度上优于多款国产竞品，尤其在多轮对话与复杂逻辑推理场景中表现突出。

小米同时公布了极具竞争力的API定价：每百万输入Token 0.1美元，输出Token 0.3美元，并提供限时免费试用，旨在降低中小企业与独立开发者的接入门槛。MiMo-V2-Flash适配手机、智能家居与车载系统，计划在小米“人车家全生态”中推广端云协同与设备端部署。

该模型采用稀疏激活与MoE设计，兼顾性能与成本，开源策略可能推动社区快速迭代并形成更广泛的生态应用场景.
🌍 腾讯发布混元世界模型1.5：实时交互虚拟世界并开源训练体系

腾讯发布了混元世界模型1.5（HY WorldPlay），这是一个面向实时交互虚拟世界的生成平台。用户可通过文字或图片快速生成可探索的场景，并以键盘、鼠标或手柄实时控制虚拟相机，实现像玩游戏一样的自由探索体验。模型支持24帧/秒720P的实时生成，并保证长范围的3D一致性，即用户返回已探索区域时场景结构保持连贯。

技术上，混元世界1.5采用了Context Forcing蒸馏与流式推理优化，并在训练报告中披露了预训练、持续训练及自回归视频模型的强化学习细节。腾讯首次开源了实时世界模型训练体系，包括数据、训练与推理部署流程，便于研究者与开发者复现与扩展。

该模型在游戏开发、影视制作与虚拟现实等领域具有广泛应用潜力，在线体验与代码仓库已对外开放，便于社区试用与二次开发.
🤝 Meta全面拥抱竞品AI：员工可调用ChatGPT-5、Gemini 3 Pro与Midjourney

Meta宣布在内部允许员工广泛使用竞争对手的AI工具，包括OpenAI的ChatGPT-5、谷歌的Gemini 3 Pro与Anthropic的Claude，并将Midjourney纳入视觉设计工作流。公司内部文件显示，Meta正构建“混合智能”生态，既保留自研的Llama系列，也允许外部顶级模型在日常工作中被调用。

为支持这一策略，Meta将办公套件迁移至Google Workspace以便与Gemini等工具无缝集成，并推出“能力进阶”游戏化系统，鼓励员工使用AI完成任务以获取徽章，未来绩效考核将纳入“AI创造价值”指标。内部工具矩阵包括Agentic Auto、iLlama、Llama 4 Maverick、Devmate与Metamate等，形成多模型协作的工作流。

这一转变反映出Meta在追求实际生产力提升时，选择开放技术栈以获取最优工具组合，而非仅依赖自研模型，从组织管理与效率角度看具有明显意义.
💰 OpenAI拟融资100亿美元并考虑采用亚马逊Trainium3：算力格局或生变

据报道，OpenAI正在与亚马逊洽谈至少100亿美元的融资，并考虑在训练基础设施中引入亚马逊自研的Trainium3芯片，以实现算力供应多元化。Trainium3在性能与能效上相较前代有显著提升，亚马逊的UltraServer系统可在单机柜内集成大量芯片，支持大规模集群部署，满足大模型训练对海量算力的需求。

对OpenAI而言，引入Trainium3既是技术备份也是战略对冲，可降低对单一供应商的依赖并增强议价能力。对亚马逊而言，若能将OpenAI纳入Trainium生态，将推动其芯片从内部自用向外部商业化转型，吸引更多大模型公司跟进。

若交易达成，这一合作可能改变全球AI算力供应链的格局，推动英伟达之外的算力选项加速成熟，从而影响大模型训练成本与供应安全性.

end

🍚 以上是今日AI动态，Claude-sonnet-4.5对本文亦有贡献。

🍙 如果觉得有帮助，欢迎点赞、在看、转发～

🍤 关注博主，每天获取最新AI资讯！

Grok妙用：我用grok的一些小技巧

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

OpenAI发布GPT Image1.5/小米开源MiMo-V2-Flash/谷歌推出AI助手CC/腾讯发布混元世界模型1.5