【调研前线183-AI大厂的AI大模型进度(Open AI新推出的Sora2视频AI)】萍聚社区-德国热线-德国实用信息网人工智能

我爱免费 发表于 2025-10-7 17:23

调研前线183-AI大厂的AI大模型进度(Open AI新推出的Sora2视频AI)

作者：微信文章

1、2025/10/1，Open AI发布sora2，带来电影级品质。全新的Sora 2，是一个原生的视频和音频生成模型。比之前的系统更加物理上准确、逼真，可控性更强，还具备同步对话和音效功能。

Sora2可能是视频领域的 GPT-3.5 时刻。2024 年 2 月发布的原始 Sora 模型在很多方面是视频领域的 GPT-1 时刻——这是视频生成开始显现出有效性的第一次，并且从扩大预训练计算规模中出现了简单的行为，如物体恒存性。这一进程的主要里程碑是掌握大规模视频数据的预训练和后训练，与语言相比，当时还处于起步阶段。然而，Sora 2 能够完成先前视频生成模型难以甚至不可能做到的事情，Sora2生成的视频本质是由成千上万张AI图像构成，其中一张图像所需Token数至少是一段文字的几十倍。

据统计，目前AI在1.5年里生成的图片已经>人类150年拍照的总和，而Sora2的出现有望将这种增长带到视频领域，对AI算力提出更高要求。

在此背景下，OpenAI近日预测2025年底将实现超2GW的计算容量，并计划大幅提升算力，目标是在2033年增至250GW，所需投入或超过12.5万亿美元。

和早期版本相比，Sora 2 在物理运动上更加精准，人物表演也达到了以假乱真的程度，而且可控性有了质的飞跃。如果说初代 Sora 让大众看到了 AI 生成视频的潜力，那么 Sora 2 则用四大核心升级，将这种潜力转化为 “可落地、高实用” 的创作能力，每一项都精准击中当下创作者的痛点。具体来看：

1、复杂场景生成能力

以往AI生成视频，面对奥运体操的空中转体、滑水板的后空翻等复杂物理交互场景时，常出现动作卡顿、逻辑断裂的问题。而 Sora 2 在这一领域实现了显著突破 —— 它能精准捕捉物体运动轨迹与物理受力逻辑，让高难度动态场景呈现得流畅自然。同时，支持 “更长、更连贯的故事生成”。不再是碎片化的 10 秒短片，创作者可以围绕一个核心主题，生成多镜头衔接、情节完整的长视频；

2、视听一体

打破了 “先做视频、后配声音” 的传统创作流程，实现了 “画面与声音同步诞生”。其音频能力涵盖三大场景：

多语言对话：支持不同语言的自然对话生成，角色语音语调贴合场景情绪，避免机械感；

环境音效：能根据视频场景（如雨天、咖啡馆、户外操场）自动匹配沉浸式音效，增强画面代入感；

沉浸式音景：针对自然风光、城市夜景等场景，生成符合氛围的背景音，让视频 “有声有色”。

3、动态范围：告别 “审美疲劳”

初代模型常因审美单一。Sora 2 则通过拓宽动态范围，让输出内容更具多样性 —— 无论是画面色调、人物风格，还是场景细节，都能根据用户需求灵活调整。

4、底层技术革新：三大关键优化

物理交互更智能：除了复杂动作，日常场景中的物体碰撞、液体流动等细节也能精准模拟；

可控性大幅提升：创作者可通过简单指令，调整视频中的关键元素（如人物动作、场景光线），不再是 “生成后只能接受”；

长故事多镜头：支持一次生成包含多个镜头的长视频，镜头切换自然，符合人类观影逻辑，运动物理效果达到行业领先水平。

综合来看：

一方面，Sora 2的视频生成带来更大算力需求，token消耗量指数级提升，利好算力板块；

另一方面，Sora 2是人工智能产业AI视频的ChatGPT时刻，有力促进文生视频行业的发展，同时重大利好多模态相关人工智能企业。

同时，Sora 2将催生大量推理服务、模型托管等需求，利好云厂商。

建议关注：

算力：寒武纪、海光信息、中科曙光、宏景科技、协创数据等；

多模态：海康威视、阜博科技、万兴科技、当虹科技、虹软科技等；

云服务：阿里巴巴、腾讯控股、深桑达、数据港等

关注AI应用工具型产品、内容社区生态、IP内容生产及版权保护领域。相关公司有快手、腾讯、B站、美图、万兴等；IP版权方关注视觉中国等。

2、腾讯AI战略推进

·腾讯AI三条线进展：腾讯AI推进围绕三条主线。一是会员大模型，市场期待姚舜禹入职后推动底层大模型升级；二是C端产品元宝，其工具化能力统一，已与腾讯会议、文档、输入法、艾玛等融合，并在更多工具化产品中延展能力；三是元宝定位转型，从简单AI应用向底层聚合性产品发展，以副信息流形式带动商业化变化。整体上，腾讯AI战略稳步推进，姚舜禹加入有望推动底层大模型发展。

3、字节与快手AI生视频进展

·字节C Dream 4.0与快手可灵2.0 Turbo：字节C Dream 4.0对图片编辑较好，包括多图创作，主题一致性增强，高清输出更自然，具备更随心的与AI协作方式。快手可灵2.0 Turbo视频生成模型进一步升级，内容感和整体效果飞跃，成本下降约30%。国内仍在AI生视频领域推进发展，许多创作者评估可灵、吉梦、Biu 3、海螺等应用，部分优秀作品超原有理解。建议关注腾讯AI入口级流量优势，以及内容生成式平台（如快手、B站）、技术性平台（如美图、外星）和IP版权保护产业链的交易机会。

4、阿里巴巴AI产品最新进展

·通义模型家族更新：近期，阿里对通义模型家族进行集体更新，包含7款产品，覆盖语言、语音等垂类领域，在多方面实现突破。重点更新的Queen Anne Max模型，激活30亿参数可实现与320亿稠密模型相近性能，训练成本大幅下降。该架构促进阿里云吸引模型训练需求及自身开发，受其推动，三四季度后，阿里云AI业务将高速增长，助力云业务拓展与技术竞争。

·淘天集团AI应用：淘天集团围绕淘宝探索新方向。ToC端有两款测试产品：AI帮我挑处于灰度测试，通过多轮对话精准筛选商品，支持自然语言输入，交互路径直线、入口深，仍在测试；AI万能搜全量上线，定位生活助手，整合知识解答与商品推荐，支持多轮对话。当前淘宝商品曝光逻辑保守，与传统搜索差异小。未来AI导购或成智慧购物入口，革新“人找货”体验，提升用户留存、开发新客群。

·阿里与1688 AI工具：阿里双十一提升AI能力，万象台AI无界从人群、货品、操作三维度降本增效，解决商户问题，提升ROI及GMV。内部测试显示，AI智能选品提升成交，AI投放ROI优，AI Agent高效建设营销计划。1688展示全流程AI矩阵，启动敖虾内测（预计2025年11月上线），支持匹配国内货源。买家端APP新增功能，诚信通AI版承担超50%运营任务，降低成本、增加询盘，AI数字员工助力商家智能化增长。

·夸克与钉钉AI场景拓展：夸克发布“造点”平台，定位内容创作，集成AI生图与视频能力，接入万象万2.5和Midjourney B7，支持音画同步高清视频。特色聚焦亚洲市场人像、中文文字及国风元素，适用于多场景，标志夸克拓展领域。钉钉One通过四个专属Agent优化办公流程，解决办公痛点，拓展使用场景，提升企业工作流渗透度。

5、美团与京东AI产品动态

·美团小美AI助手：美团近期上线AI助手小美，核心定位是聚焦本地生活垂直领域的Agent，区别于通用聊天机器人。其采用独立应用程序，摆脱复杂界面干扰，提供简洁对话界面，降低使用门槛。目标是帮用户解决问题，而非仅回答或优化端内动线。功能上，支持自然语言交互完成交易，形成闭环，继承美团本地生活全链条服务。目前测试显示，少量业务衔接有障碍，但问题不大。

·京东AI产品布局：京东在云栖大会同期更新AI全景战略，推出京西、“它”、Jovi Inside三款C端AI产品。京西定位下一代购物和生活服务超级入口，未上线但已列入日程。将AI融入购物流程，理解用户需求选品，优化结算下单，集成点餐、酒旅等服务，支持语音操作。“它”含数字人“万能博士”，可问答陪聊，支持用户创建智能体互动，还能装入智能设备。Jovi Inside侧重智能软硬一体，面向智能设备场景，支持拟人化对话，接入后用户对话次数提升，已与超10家机器人品牌合作。京东AI布局覆盖电商、生态和硬件领域。当前互联网电商平台争抢战略及研发优先位，未来将带来更多数据需求。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

调研前线183-AI大厂的AI大模型进度(Open AI新推出的Sora2视频AI)