多客科技 发表于 2025-12-17 15:10

OpenAI发布GPT Image1.5/小米开源MiMo-V2-Flash/谷歌推出AI助手CC/腾讯发布混元世界模型1.5

作者:微信文章


🤖 赛博速递2025-12-17

✨ 字节跳动发布Seedance1.5Pro:音视频视听同步升级
🕶️ Meta推出新款AI眼镜,增强对话听感并调整Messenger策略
🖼️ OpenAI发布GPT Image1.5,图像生成与编辑能力提升
🔊 谷歌发布Gemini2.5Flash Native Audio,语音助手表现改进
🎬 Adobe Firefly视频功能大升级,支持局部提示编辑与多模型整合
🗓️ 谷歌实验室推出AI助手CC,深度整合日程与Gmail生态
⚡ 小米开源MiMo-V2-Flash,3090亿参数稀疏激活架构
🌍 腾讯发布混元世界模型1.5,实时交互虚拟世界并开源训练体系
🤝 Meta允许员工调用竞品AI工具,办公套件迁移并游戏化AI使用
💰 OpenAI拟与亚马逊洽谈融资并考虑采用Trainium3芯片


✨ 字节跳动发布Seedance1.5Pro:音视频创作进入视听同步时代

字节跳动在北京发布了Seedance1.5pro,这是面向音视频创作的全新多模态生成模型,强调音视频联合生成与更高精度的视听同步。该模型支持通过文本输入或图像引导生成音视频,并在口型、语调与表演节奏的拟合上做了显著优化。

发布会上展示的能力包括高级镜头调度(如长镜头跟随、希区柯克式变焦)和对叙事语境的语义理解,从而提升段落间的叙事协调性。Seedance1.5pro还支持多语种与方言,便于在喜剧或戏曲等风格化表演中保留地域特色与语音细节。

该模型已在即梦AI和豆包平台上线供用户体验,适用场景覆盖影视创作、短剧生成、广告制作与戏曲演绎等。字节跳动强调,这一版本在视觉冲击力、运动效果与音频同步方面均有提升,旨在为创作者提供更高效的视听一体化工具.
🕶️ Meta推出新款AI眼镜:放大对话声音并调整Messenger策略

Meta发布了一款新型AI眼镜,采用开放式扬声器设计,目标是在嘈杂环境中放大与用户交谈者的声音,提升面对面交流的清晰度。该设备面向日常场景优化,适用于咖啡馆、街道等噪声环境,旨在让用户更轻松参与对话。

与此同时,Meta宣布其Messenger桌面应用将于2025年12月15日停止服务,并将Messenger功能逐步整合回Facebook主应用。公司建议用户转向网页端或Facebook应用继续使用Messenger,并提供PIN设置以保存聊天记录。Meta此前在桌面端采用过Catalyst、Electron与React Native等技术,整合举措反映出其在产品线与体验上的调整。

这次硬件与产品策略的并行调整,显示Meta在硬件体验与软件整合两端同时发力:一方面推出面向现实交流的AI硬件,另一方面优化社交产品的分发与维护路径,以提升整体用户体验与运营效率.
🖼️ OpenAI发布GPT Image1.5:图像生成与编辑能力显著提升

OpenAI正式推出GPT Image1.5,这是面向图像生成与编辑的最新模型,强调高保真生成与提示词遵循能力。新模型既能从零开始生成图像,也能在用户上传照片基础上进行精确编辑,并保留原图关键要素,减少以往生成中常见的面貌或细节偏差问题。

在细节处理上,GPT Image1.5对光线、构图与人物外观的掌控更强,文本渲染能力也得到改善,能更准确地将文字嵌入图像而避免乱码。OpenAI还升级了ChatGPT的编辑工具,新增“Images”标签页,支持网页端与移动端操作,用户可通过内置滤镜与提示词进行快速创作与编辑。

项目由Gabriel Goh与Adele Li主导,OpenAI同时成立了专门的安全与合规团队以应对伦理与法律问题。整体来看,GPT Image1.5将图像生成从实验性功能进一步推向消费级、可编辑的创作工具链.
🔊 谷歌升级Gemini2.5Flash Native Audio:语音助手理解与执行更准确

谷歌发布了Gemini2.5Flash Native Audio更新,目标是提升语音助手在复杂工作流中的表现与多步骤对话的连贯性。官方数据显示,开发者指令的遵循率从84%提升至90%,表明模型在理解并执行用户请求方面有明显进步。

在基准测试方面,Gemini2.5在ComplexFuncBench上的函数调用准确率达到71.5%,高于文中提及的部分竞品测试结果。该更新已在Google AI Studio、Vertex AI、Gemini Live与Search Live等平台上线,Google Cloud客户也可开始使用,开发者可通过Gemini API进行测试与集成。

此次更新不仅提升了语音交互的准确性,也改善了多轮对话的自然度,为需要语音驱动复杂任务的应用场景(如助理型工具、车载系统)提供了更可靠的底层能力.
🎬 Adobe Firefly视频功能大升级:支持局部提示编辑与多模型整合

Adobe对Firefly的视频功能进行了重大升级,推出全新视频编辑器,首次支持基于文本提示的局部修改,用户无需重做整段视频即可对特定元素(如天空、主体大小)进行精细调整。新编辑器还提供可视化时间轴,支持逐帧调整画面、音频与转场,提升剪辑效率。

在模型整合方面,Firefly引入了FLUX.2(Black Forest Labs)、Astra(Topaz Labs)与Runway Aleph等第三方模型,分别增强图像生成、视频超分与复杂编辑指令理解能力。Adobe还实现了相机运动迁移功能,用户可上传起始帧与参考运镜视频,AI复现相同镜头语言,便于短视频创作者实现电影级运镜。

为鼓励使用,Adobe对Pro与Premium订阅用户提供限时无限生成福利。此次更新将Firefly从单一生成工具向视频创作工作站转型,强调专业工作流与生态整合,以应对Runway、Pika等竞争对手的挑战.
🗓️ 谷歌实验室推出AI助手CC:深度整合日程与谷歌生态

谷歌实验室发布了实验性生产力助手CC,基于Gemini技术构建,定位为智能“日程管家”。注册并授权后,CC可无缝连接用户的Gmail、谷歌日历、云端硬盘等,提供每天早晨的“您的一天预览”简报,将日程、关键任务与最新动态整合为可执行摘要。

CC还能根据指令预先准备邮件草稿与日历链接,用户可通过回复或自定义请求来更新待办事项或记录灵感。作为早期实验,CC已在美国与加拿大对部分Google AI Ultra用户与付费订阅用户开放早期访问,符合条件的用户可通过官网加入候补名单体验。

该项目展示了谷歌将大模型能力与个人生产力工具深度结合的方向,强调通过生态整合提升日常工作效率与自动化水平.
⚡ 小米开源MiMo-V2-Flash:3090亿参数稀疏激活,高速低成本推理

小米发布并以MIT协议开源了大模型MiMo-V2-Flash,总参数量约3090亿,但采用稀疏激活架构,每次推理仅激活约150亿参数,从而在保持能力的同时显著降低计算开销。实测显示,该模型在推理速度上优于多款国产竞品,尤其在多轮对话与复杂逻辑推理场景中表现突出。

小米同时公布了极具竞争力的API定价:每百万输入Token 0.1美元,输出Token 0.3美元,并提供限时免费试用,旨在降低中小企业与独立开发者的接入门槛。MiMo-V2-Flash适配手机、智能家居与车载系统,计划在小米“人车家全生态”中推广端云协同与设备端部署。

该模型采用稀疏激活与MoE设计,兼顾性能与成本,开源策略可能推动社区快速迭代并形成更广泛的生态应用场景.
🌍 腾讯发布混元世界模型1.5:实时交互虚拟世界并开源训练体系

腾讯发布了混元世界模型1.5(HY WorldPlay),这是一个面向实时交互虚拟世界的生成平台。用户可通过文字或图片快速生成可探索的场景,并以键盘、鼠标或手柄实时控制虚拟相机,实现像玩游戏一样的自由探索体验。模型支持24帧/秒720P的实时生成,并保证长范围的3D一致性,即用户返回已探索区域时场景结构保持连贯。

技术上,混元世界1.5采用了Context Forcing蒸馏与流式推理优化,并在训练报告中披露了预训练、持续训练及自回归视频模型的强化学习细节。腾讯首次开源了实时世界模型训练体系,包括数据、训练与推理部署流程,便于研究者与开发者复现与扩展。

该模型在游戏开发、影视制作与虚拟现实等领域具有广泛应用潜力,在线体验与代码仓库已对外开放,便于社区试用与二次开发.
🤝 Meta全面拥抱竞品AI:员工可调用ChatGPT-5、Gemini 3 Pro与Midjourney

Meta宣布在内部允许员工广泛使用竞争对手的AI工具,包括OpenAI的ChatGPT-5、谷歌的Gemini 3 Pro与Anthropic的Claude,并将Midjourney纳入视觉设计工作流。公司内部文件显示,Meta正构建“混合智能”生态,既保留自研的Llama系列,也允许外部顶级模型在日常工作中被调用。

为支持这一策略,Meta将办公套件迁移至Google Workspace以便与Gemini等工具无缝集成,并推出“能力进阶”游戏化系统,鼓励员工使用AI完成任务以获取徽章,未来绩效考核将纳入“AI创造价值”指标。内部工具矩阵包括Agentic Auto、iLlama、Llama 4 Maverick、Devmate与Metamate等,形成多模型协作的工作流。

这一转变反映出Meta在追求实际生产力提升时,选择开放技术栈以获取最优工具组合,而非仅依赖自研模型,从组织管理与效率角度看具有明显意义.
💰 OpenAI拟融资100亿美元并考虑采用亚马逊Trainium3:算力格局或生变

据报道,OpenAI正在与亚马逊洽谈至少100亿美元的融资,并考虑在训练基础设施中引入亚马逊自研的Trainium3芯片,以实现算力供应多元化。Trainium3在性能与能效上相较前代有显著提升,亚马逊的UltraServer系统可在单机柜内集成大量芯片,支持大规模集群部署,满足大模型训练对海量算力的需求。

对OpenAI而言,引入Trainium3既是技术备份也是战略对冲,可降低对单一供应商的依赖并增强议价能力。对亚马逊而言,若能将OpenAI纳入Trainium生态,将推动其芯片从内部自用向外部商业化转型,吸引更多大模型公司跟进。

若交易达成,这一合作可能改变全球AI算力供应链的格局,推动英伟达之外的算力选项加速成熟,从而影响大模型训练成本与供应安全性.

end

🍚 以上是今日AI动态,Claude-sonnet-4.5对本文亦有贡献。

🍙 如果觉得有帮助,欢迎点赞、在看、转发~

🍤 关注博主,每天获取最新AI资讯!

Grok妙用:我用grok的一些小技巧
页: [1]
查看完整版本: OpenAI发布GPT Image1.5/小米开源MiMo-V2-Flash/谷歌推出AI助手CC/腾讯发布混元世界模型1.5