调研前线183-AI大厂的AI大模型进度(Open AI新推出的Sora2视频AI)
作者:微信文章1、2025/10/1,Open AI发布sora2,带来电影级品质。全新的Sora 2,是一个原生的视频和音频生成模型。比之前的系统更加物理上准确、逼真,可控性更强,还具备同步对话和音效功能。
Sora2可能是视频领域的 GPT-3.5 时刻。2024 年 2 月发布的原始 Sora 模型在很多方面是视频领域的 GPT-1 时刻——这是视频生成开始显现出有效性的第一次,并且从扩大预训练计算规模中出现了简单的行为,如物体恒存性。这一进程的主要里程碑是掌握大规模视频数据的预训练和后训练,与语言相比,当时还处于起步阶段。然而,Sora 2 能够完成先前视频生成模型难以甚至不可能做到的事情,Sora2生成的视频本质是由成千上万张AI图像构成,其中一张图像所需Token数至少是一段文字的几十倍。
据统计,目前AI在1.5年里生成的图片已经>人类150年拍照的总和,而Sora2的出现有望将这种增长带到视频领域,对AI算力提出更高要求。
在此背景下,OpenAI近日预测2025年底将实现超2GW的计算容量,并计划大幅提升算力,目标是在2033年增至250GW,所需投入或超过12.5万亿美元。
和早期版本相比,Sora 2 在物理运动上更加精准,人物表演也达到了以假乱真的程度,而且可控性有了质的飞跃。如果说初代 Sora 让大众看到了 AI 生成视频的潜力,那么 Sora 2 则用四大核心升级,将这种潜力转化为 “可落地、高实用” 的创作能力,每一项都精准击中当下创作者的痛点。具体来看:
1、复杂场景生成能力
以往AI生成视频,面对奥运体操的空中转体、滑水板的后空翻等复杂物理交互场景时,常出现动作卡顿、逻辑断裂的问题。而 Sora 2 在这一领域实现了显著突破 —— 它能精准捕捉物体运动轨迹与物理受力逻辑,让高难度动态场景呈现得流畅自然。同时,支持 “更长、更连贯的故事生成”。不再是碎片化的 10 秒短片,创作者可以围绕一个核心主题,生成多镜头衔接、情节完整的长视频;
2、视听一体
打破了 “先做视频、后配声音” 的传统创作流程,实现了 “画面与声音同步诞生”。其音频能力涵盖三大场景:
多语言对话:支持不同语言的自然对话生成,角色语音语调贴合场景情绪,避免机械感;
环境音效:能根据视频场景(如雨天、咖啡馆、户外操场)自动匹配沉浸式音效,增强画面代入感;
沉浸式音景:针对自然风光、城市夜景等场景,生成符合氛围的背景音,让视频 “有声有色”。
3、动态范围:告别 “审美疲劳”
初代模型常因审美单一。Sora 2 则通过拓宽动态范围,让输出内容更具多样性 —— 无论是画面色调、人物风格,还是场景细节,都能根据用户需求灵活调整。
4、底层技术革新:三大关键优化
物理交互更智能:除了复杂动作,日常场景中的物体碰撞、液体流动等细节也能精准模拟;
可控性大幅提升:创作者可通过简单指令,调整视频中的关键元素(如人物动作、场景光线),不再是 “生成后只能接受”;
长故事多镜头:支持一次生成包含多个镜头的长视频,镜头切换自然,符合人类观影逻辑,运动物理效果达到行业领先水平。
综合来看:
一方面,Sora 2的视频生成带来更大算力需求,token消耗量指数级提升,利好算力板块;
另一方面,Sora 2是人工智能产业AI视频的ChatGPT时刻,有力促进文生视频行业的发展,同时重大利好多模态相关人工智能企业。
同时,Sora 2将催生大量推理服务、模型托管等需求,利好云厂商。
建议关注:
算力:寒武纪、海光信息、中科曙光、宏景科技、协创数据等;
多模态:海康威视、阜博科技、万兴科技、当虹科技、虹软科技等;
云服务:阿里巴巴、腾讯控股、深桑达、数据港等
关注AI应用工具型产品、内容社区生态、IP内容生产及版权保护领域。相关公司有快手、腾讯、B站、美图、万兴等;IP版权方关注视觉中国等。
2、腾讯AI战略推进
·腾讯AI三条线进展:腾讯AI推进围绕三条主线。一是会员大模型,市场期待姚舜禹入职后推动底层大模型升级;二是C端产品元宝,其工具化能力统一,已与腾讯会议、文档、输入法、艾玛等融合,并在更多工具化产品中延展能力;三是元宝定位转型,从简单AI应用向底层聚合性产品发展,以副信息流形式带动商业化变化。整体上,腾讯AI战略稳步推进,姚舜禹加入有望推动底层大模型发展。
3、字节与快手AI生视频进展
·字节C Dream 4.0与快手可灵2.0 Turbo:字节C Dream 4.0对图片编辑较好,包括多图创作,主题一致性增强,高清输出更自然,具备更随心的与AI协作方式。快手可灵2.0 Turbo视频生成模型进一步升级,内容感和整体效果飞跃,成本下降约30%。国内仍在AI生视频领域推进发展,许多创作者评估可灵、吉梦、Biu 3、海螺等应用,部分优秀作品超原有理解。建议关注腾讯AI入口级流量优势,以及内容生成式平台(如快手、B站)、技术性平台(如美图、外星)和IP版权保护产业链的交易机会。
4、阿里巴巴AI产品最新进展
·通义模型家族更新:近期,阿里对通义模型家族进行集体更新,包含7款产品,覆盖语言、语音等垂类领域,在多方面实现突破。重点更新的Queen Anne Max模型,激活30亿参数可实现与320亿稠密模型相近性能,训练成本大幅下降。该架构促进阿里云吸引模型训练需求及自身开发,受其推动,三四季度后,阿里云AI业务将高速增长,助力云业务拓展与技术竞争。
·淘天集团AI应用:淘天集团围绕淘宝探索新方向。ToC端有两款测试产品:AI帮我挑处于灰度测试,通过多轮对话精准筛选商品,支持自然语言输入,交互路径直线、入口深,仍在测试;AI万能搜全量上线,定位生活助手,整合知识解答与商品推荐,支持多轮对话。当前淘宝商品曝光逻辑保守,与传统搜索差异小。未来AI导购或成智慧购物入口,革新“人找货”体验,提升用户留存、开发新客群。
·阿里与1688 AI工具:阿里双十一提升AI能力,万象台AI无界从人群、货品、操作三维度降本增效,解决商户问题,提升ROI及GMV。内部测试显示,AI智能选品提升成交,AI投放ROI优,AI Agent高效建设营销计划。1688展示全流程AI矩阵,启动敖虾内测(预计2025年11月上线),支持匹配国内货源。买家端APP新增功能,诚信通AI版承担超50%运营任务,降低成本、增加询盘,AI数字员工助力商家智能化增长。
·夸克与钉钉AI场景拓展:夸克发布“造点”平台,定位内容创作,集成AI生图与视频能力,接入万象万2.5和Midjourney B7,支持音画同步高清视频。特色聚焦亚洲市场人像、中文文字及国风元素,适用于多场景,标志夸克拓展领域。钉钉One通过四个专属Agent优化办公流程,解决办公痛点,拓展使用场景,提升企业工作流渗透度。
5、美团与京东AI产品动态
·美团小美AI助手:美团近期上线AI助手小美,核心定位是聚焦本地生活垂直领域的Agent,区别于通用聊天机器人。其采用独立应用程序,摆脱复杂界面干扰,提供简洁对话界面,降低使用门槛。目标是帮用户解决问题,而非仅回答或优化端内动线。功能上,支持自然语言交互完成交易,形成闭环,继承美团本地生活全链条服务。目前测试显示,少量业务衔接有障碍,但问题不大。
·京东AI产品布局:京东在云栖大会同期更新AI全景战略,推出京西、“它”、Jovi Inside三款C端AI产品。京西定位下一代购物和生活服务超级入口,未上线但已列入日程。将AI融入购物流程,理解用户需求选品,优化结算下单,集成点餐、酒旅等服务,支持语音操作。“它”含数字人“万能博士”,可问答陪聊,支持用户创建智能体互动,还能装入智能设备。Jovi Inside侧重智能软硬一体,面向智能设备场景,支持拟人化对话,接入后用户对话次数提升,已与超10家机器人品牌合作。京东AI布局覆盖电商、生态和硬件领域。当前互联网电商平台争抢战略及研发优先位,未来将带来更多数据需求。
页:
[1]