新闻 发表于 2025-10-9 23:50

“AI版抖音”将如何演绎?

作者:微信文章
关于Sora 2的几个关键问题思考




Sora 2

当所有人的目光还聚焦于文生图的快速迭代时,OpenAI再次投下重磅炸弹,正式推出了其最新一代的视频与音频生成模型——Sora 2。

这并非一次简单的升级。相较于前代,Sora 2在物理模拟的精确性、画面的真实感、音画同步的契合度、可控性以及风格多样性上,都实现了颠覆性的突破。它所展示的,已不再是单纯的“视频剪辑”,而更像是在“构建一个虚拟的平行世界”。

问题1:Sora 2如此强大,为何还要开放给大众?其背后有何商业考量?

PART ONE

很多人会疑惑,如此强大的技术,OpenAI为何不“藏”起来,而是选择通过吸引海量用户互动的方式逐步开放?这背后其实是极其清晰的商业战略。

答案至少有两点:

1.以“成瘾性”换取海量“人类反馈数据”

Sora 2的生成内容具有高度的审美普适性,它似乎总能精准地戳中大众的“爽点”。这种“简单的成瘾性”设计,其核心目的并非单纯为了娱乐,而是为了获取模型训练和迭代中最宝贵的资源——大规模、高质量的人类反馈数据。正如OpenAI官方所述,他们将根据用户的使用情况持续学习和调整系统。每一次用户的点赞、分享、重试,都在为Sora 2的进化提供养料。

2.向市场展示商业潜力,加速融资进程

惊艳的技术演示是吸引投资最有效的“肌肉秀”。通过向公众展示Sora 2的强大能力和广泛应用前景,OpenAI能够极大地提振市场信心,为其后续的研发和扩张吸引更多资金支持,形成“技术突破 -> 市场震撼 -> 巨额融资 -> 加速研发”的正向飞轮。因此sora2的商业化不应该单独思考,而应该作为整体openai来看,可能你就能明白为什么要消耗这么多算力,让这么多C端用户免费使用了。

问题2:Sora 2后续的商业化走势?

PART TWO

对于Sora 2的商业模式,OpenAI的规划也已初见端倪,展现出其“沿途下蛋”的务实风格。

开放API,直接变现:最直接的盈利方式已经启动。Sora 2推出了自己的API收费服务,这意味着开发者和企业可以付费将Sora 2的视频生成能力集成到自己的产品或工作流中,这为其带来了稳定且可观的现金流。官网Sora-2 API的定价是标准版每秒0.1美金,Pro版本相对像素较低的是每秒0.3美金,较高版本0.5s美金。Sora-2 API定价的标准版和高级版比Kling的两个版本略高一些。



Source:OpenAI官网



Source:各公司官网及公开数据

构建生态,探索分润共享机制: 相关信息显示,OpenAI提及了对创作者生态的思考,暗示了未来可能建立的分润共享机制。这意味着Sora 2的目标可能不仅仅是一个工具,更会是一个平台。创作者利用Sora 2创造出优质内容后,平台可以帮助其分发和变现,并从中抽取分成,从而构建一个庞大而富有活力的内容生态系统。

问题3:面对“以假乱真”的内容,OpenAI如何应对潜在的版权风险?

PART THREE

技术的每一次跃进,都伴随着对伦理和安全的拷问。Sora 2生成内容的逼真度,使其在“未经同意使用他人肖像”或“生成误导性信息”等方面的风险急剧增加。

对此,OpenAI表现出了高度的警惕,并采取了被称为“迭代部署”(Iterative Deployment)的审慎策略:

初期有限邀请:在初期阶段,仅通过有限邀请的方式向部分研究人员、艺术家和安全专家提供访问权限,以便在可控范围内评估风险、收集反馈。

严格的内容上传限制:为防止滥用,目前严格限制用户上传任何包含真实人物面部的图片,并禁止上传所有视频文件作为生成参考。

对未成年人的特殊保护:对涉及未成年人的内容施加了极其严格的保护措施,从源头上杜绝相关风险。

另外,Sam在2025年10月4日的博客里也提到了将进行的下列两个方面的调整:

调整一:给予版权方对其角色(IP)更精细的控制权

OpenAI将为版权方提供一个更精细的控制系统,让他们可以自主决定自己的角色(如动漫、电影中的人物)能如何被用户使用,包括具体的使用场景,甚至完全禁止使用。

许多版权方对这种“互动式同人小说”的新模式感到兴奋,认为这能为他们带来巨大价值,但他们需要掌控权。OpenAI的目标是建立一个统一标准,把决定权交给版权方。(公司特别注意到了日本内容的巨大创造力和影响力)。

调整二:商业化并与版权方分享收益

目前用户的视频生成量远超OpenAI的预期,成本高昂,因此必须进行商业化。将尝试与那些允许用户使用其角色的版权方分享一部分收入。具体的分成模式还需要反复试验,但计划很快开始。这种新的互动模式本身就很有价值,同时收入分成也很有吸引力。

问题4:Sora 2的技术核心是什么?它为何被视为一次“技术跃迁”?

PART FOUR

Sora 2最令人震撼的,并非仅仅是画质的提升,而是它所展现出的“构建虚拟世界”的能力。这标志着AI视频生成领域的一次重大技术跃迁,其核心正是DiT(Diffusion in Transformers)架构的成功应用。

基于DiT架构,Sora 2实现了以下关键性技术突破:

集成了可微分的物理引擎:与以往模型“猜”物理规律不同,Sora 2的视频中,物体的运动、碰撞、流体效果等都更遵循真实的物理逻辑。这得益于其内置的可微分物理建模,让虚拟世界有了“物理法则”。

实现了多模态同步生成:Sora 2能够同时生成视频和音频,实现了画面与声音在毫秒级别的精准同步和深度融合,极大地提升了内容的沉浸感。

显著提升的长时序连贯性:Sora 2将单次连贯视频的生成时长从前代的5-8秒调整至10-15秒,且分辨率高达约1080p,解决了AI视频领域长期存在的“短片”和“模糊”痛点。

问题5:DiT是OpenAI的原创技术吗?Sora 2的真正突破点在哪?

PART FIVE

DiT并非OpenAI的原创。

这一创新架构,全称为Diffusion in Transformers,最早由加州大学伯克利分校与Meta AI的研究人员在2022年底的论文《Scalable Diffusion Models with Transformers》中提出。

当时,这篇论文的核心是:在Stable Diffusion等主流AI绘画模型中,将原本用于处理图像生成的U-Net网络结构,替换为支撑ChatGPT等大语言模型的Transformer结构后,模型会展现出惊人的可扩展性。这意味着,只要投入更多的算力和数据,模型的性能就会持续、可预测地增强。

那么,OpenAI的真正突破点在哪里?

在Sora 2出现之前,学术界和Meta已经证明了DiT在静态图片生成领域的巨大潜力。但是,几乎没有人能够成功地将DiT架构大规模、且有效地应用在视频生成这一更复杂的任务上。

这正是OpenAI的颠覆性贡献:他们第一个向世界证明,DiT不仅能画出好画,更能“导演”出好戏。他们解决了将DiT从二维图像扩展到三维视频的诸多工程和算法难题,成功地将一个已有的学术思想,转化为了一个震撼行业的超级产品。这不仅是工程能力的胜利,更是对技术路线一次极具远见的判断和押注。

- END -

页: [1]
查看完整版本: “AI版抖音”将如何演绎?