【AI视频3.0时代,商业化落地真的来了吗?】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2025-10-17 20:52

AI视频3.0时代,商业化落地真的来了吗?

作者：微信文章
朋友们又好久不见！我带着好几个老片和新片来了哈哈。大家可以先看看我最新的AI短片作品《一种希望》，《一种希望》全片使用的都是具有多模态能力的视频模型和全新的创作流程。第三代AI视频模型的能力已经非常接近真正的商业化落地应用，真正落地的爆发点，可能很快就会来了。先说结论，参考+文生视频确实可能会成为AI视频3.0阶段的主要制作手段了，我体验各家产品下来的感受是，新的创作高峰点很快就会涌现。完全地商业落地还需要再有1-2个更迭时间点，但目前这个阶段已经非常接近，且随时可能到来。根据自己过去两年多的创作情况，梳理了一些比较有代表性节点的作品，或多或少可以根据画面和完成度看到到AI视频技术的演变与进化。我一共分成三个AI视频时代，分别呈现案例和制作方法，并在每个阶段后去总结该阶段的视频模型特点。一、AI视频1.0时代1、《月夜行》2023年的AI视频主要用的还是特别早期的diffusion架构，技术太局限，所以没有做太多片子。从24年1月开始，AI视频技术初见雏形，那时因为拿到了Pika的内测名额，做了温暖治愈的《月夜行》，登上了Pika官方的Discord展示，收获了100万Pika创作积分，从此开启了多个AI视频平台的超创之路，还有很多全世界各地好友的私信。AI动画短片制作全流程--《月夜行》森林篇

2、《奇遇书屋》2023年3到4月，我主要做了同是治愈向的《奇遇书屋》，还有我非常喜欢的犯罪/科幻题材《镜花酒店》，这两部片子现在看来还是有很大的局限性，特别是《镜花酒店》的唇型同步，包括AI配音，都相对比较生硬，但那确实是当初我和AI能做到的尽量好的呈现了。前Sora时代我最想做的AI短片——使用Pika、Pixverse、Runway、SVD四大AI视频工具

《奇遇书屋》源自于我的真实经历，你到底想成为什么样的人？过什么样的生活？这是我青春期最困扰我的问题，可能这个问题到现在都还没有答案，但追寻问题的过程，让我收获许多。3、《镜花酒店》

我真的很喜欢犯罪题材。在硕士时期有一个阶段，我会看各种犯罪电影，拉着片看，也找了很多犯罪小说，对照着改编的电影看。当然了，《镜花酒店》不算常规犯罪片，它更像科幻轻喜剧。4、《当咪咕AI遇上欧洲杯》《当咪咕AI遇上欧洲杯》这个项目，刚好处于第一代视频模型和第二代视频模型的交界点。我们接下这个项目的时候，DIT技术还没有厂家正式公测。第一代视频模型要做运动片，在当时就是极度不可能实现的情况。但我们克服了很多困难，测试生成了非常多的生成角度。AI厂家可以永远相信创作者的耐心和恒心，我们会为了一个画面不断去调试，去探索工具本身的极限。

还是那句话，不论工具如何发展，创作和内容才是核心。当然了，技术更迭也很重要，这两者不是打架的，如何能把内容和技术平衡好，是相当考验创作者的综合能力的。分镜拆解教程｜商业级AIGC广告片《当咪咕AI遇上欧洲杯》5、《Deja Vu》

《Deja Vu》因为商业版权的原因无法发布视频号，但b站上有视频，大家感兴趣可以去b站上康康！
https://www.bilibili.com/video/BV1ws3bezE2M/
这个片子是叙事类预告片的形式，整体制作会比较复杂，需要在前期做比较多的准备工作。这个阶段的工作可以对标传统影视制作流程里的找对标影片的部分。我们当时不仅找了很多犯罪片的预告片来看，比如《美国恐怖故事》，也找了很多与犯罪有关的纪录片来看，去搜罗一些能在观感上带给观众真实感的呈现形式：比如加上电视采访的内容，让预告片看起来更像是一个伪纪录片等等。
这个预告片的美术方案也是花了我们很多功夫的。特别是在前期策划的时候，对于整体影片最后的呈现质感，做了非常多美术方案的测试。
时间周期比较紧，在前期部分，我们的美术方案和脚本创作几乎是同时进行的。因为这个片子比较偏专业影视制作流程，所以在故事脚本部分我们提供了中英双版。
不太方便展示所有，就给大家看一下大概的格式和局部内容。

总结AI视频1.0时代，最主要的问题就是动态效果不如人意，分镜内容极度不可控，非常依赖创作者本身的传统制作能力，需要精细化的脚本和对视觉内容的高难度把控，做起来确实还是比较费劲的。二、AI视频2.0时代1、《海灵》AI视频2.0时代制作流程与动画风格测评——以Vidu AI公益短片《海灵》为例《海灵》是我第一个全部使用DIT模型制作的片子，距离现在也有一年多时间了，当时的Vidu用来制作动画效果非常好，包括后来Vidu提出的多图参考生视频功能，现在看来也是非常超前的。

2、《新世界》

在正式开始进行制作前，董老师及董老师的团队、可灵AI团队、我们的AI制作团队就进行了非常正式的线下会面。主要沟通当下AI影像制作技术的实现能力，为董老师即将导演的故事提供兼具可操作性和艺术性的技术解决方案。前期工作里有非常重要的一环就是技术方案的测试环节。我们对主要人物、主要场景、整体的画面风格都做了多轮修改和反复调整，最终确定下偏暗调的末世写实风格、短发红帽衫的主角形象以及异形人的“陶瓷皮肤”质感，为中期的生成打下了很好的制作基础。传统电影制作，为了使各部门能更直观地理解导演的画面需求，会专门有一个找参考画面的环节。把每个分镜头的画面都找出对应的画面参考，比较繁琐，但能保持在具体制作时，即使有不同部门的人接手，也可以尽可能去制作符合导演设想的有效标准画面。多沟通技术的制作边界，寻找合适的对标，让我们跟董润年导演以及可灵AI团队十分顺利地完成了影片的制作。3、《2025宁波春晚》

有幸受邀制作2025年宁波春节联欢晚会的现场AI视频，当时邀请时间紧、任务重、制作难度艰巨，但好在我们最后都顺利完成了。电视台有着非常明确的复杂人物形象和场景一致性的制作需求，同时还需要保持高要求的画面审美，这三个需求都必须在同一个画面里实现，这对于25年年初的AI视频制作技术来说，简直就是天方夜谭。所以我们在制作上选择了分层制作的方案。什么是分层制作呢？顾名思义，就是把，AI人物和AI场景分开做，分别出AI人物和场景的图，分别进行AI图生视频，再将其分别抠像合成到一起。相当于以前制作AI视频的时候，一个镜头只需要出一张图、一个图层，但这次，我们做一个镜头可能要出到2-5层图片。

实际成片是1分12秒，但真正实际制作的内容至少是3-4分钟的量。因为涉及到不同镜头之前的合成、抠像、打光和修改。后期工作量剧增。当时要进行真实建筑的高质量风格化转换也是其中一个制作难点，因为需要在保持美感的情况下还需保持建筑外观的一致，现在这个功能就很好实现了。下面是一些当时制作的实拍图与转换图的对比。

4、《约定照相馆》

《约定照相馆》这个片子我其实做了很多版，当时还没有Nano Banana，所以在人物一致性和场景一致性的控制上还是做得比较痛苦的。城市奇幻的风格控制起来也是相对困难的，特别要兼具写实和不让人觉得突兀的奇幻感，“怪物”的形象设计做了好多版都没太能找到满意的版本。这个故事后续的内容其实都已经写完了，因为没有找到太合适的呈现方式，所以还没将完整的故事讲完。我其实很喜欢生命中转局这个概念和场景，也喜欢照片直达回忆的概念，也喜欢主角作为打工人的身份，希望后面能试出合适的工作流和画面，把片子做长。这个片子也拿了一些小奖项，感谢新片场的认可。

总结AI视频2.0时代，DIT架构下的视频模型已经能较好地去实现人物或者物体的动态效果，但涉及到多主体的交互，还是会出现问题，以及尚未能解决场景一致性的问题。但GPT4o、Nano Banana、Seedream4.0等图片修改模型的出现，已经能解决一部分一致性的问题，AI制作的可控性比起1.0时代已有很大提升。三、AI视频3.0时代1、《一种希望》

《一种希望》的制作时间不超过48小时，灵感来源于我非常喜欢的文学作品《撒旦探戈》，情节和风雪的部分内容可能跟原著不太一样，主要表达的是我对作品本身的理解，也不清楚是不是对的，只是制作出我的感受。我很久没有这么强烈的做片子的兴奋感了，因为视频模型能力上确实给了我全新的体验。从Google的Veo3到OpenAI的产品，国内的有Vidu的Q2多参、Wan2.5、其他厂家可灵、拍我等平台也都有多参功能。第三代的AI视频其实拼的是视频模型本身的综合能力。我曾经是坚定的图生视频工作流，并且在第一代和第二代视频模型的时候，都有对模型极强的“控制欲”，控制人物、控制场景，但在我冲了200美刀，开始全参考+文生视频的方式之后，我似乎开始在AI创作中找到了一种新体验。这次制作我几乎是没有写脚本和剧本的，我只有一个大致的故事节奏，然后就开始试跑风格，在风格测试的过程中，找到模型能力能呈现的最好的风格。原来我是想做相对潮湿下雨的环境，但这个风格模型表现不是很好，所以我才换了暴雪的场景。影片中的老妇人、小孩、马夫、甚至是带领的村民，都不是我提前就设定好的，而是我做了一个大致情节的设定，让AI给我推荐角色，通过将提示词放进软件去测试角色，我选出了表现较好的人物。我的提示词写作方式也很简单，就是根据官网的提示词内容来的。这个是官网的提示词链接：https://cookbook.openai.com/examples/sora/sora2_prompting_guide

这是官网给出的提示词框架，你需要写清楚人物、环境、景别、动作、对白等内容。我的经验是你可以写3-5个镜头的内容作为一组镜头，可以在15秒能去做到人物和场景的一致。另外，如果你能限定时间场景，比如1980年代的美国好莱坞，限定具体的镜头，比如35毫米镜头，用一些更专业和具体的词汇，能够出更好的效果！总结AI视频3.0时代，有极大的创作者与AI交互的空间，准确的参考生功能可以增加视频的运镜能力，不同主体的交互效果比上一代要好很多，数字人驱动视频较为自然，但完全的场景和表演交互，即场景一致性目前还不是完全可控，可能还需要一个新的爆发点。最后，感谢快手可灵AI、字节即梦AI、PIKA、爱诗科技PixVerse、生数科技Vidu AI、稀宇科技Hailuo、阿里万相Wan、腾讯混元、Lovart、gaga等多个AI平台不断更新视频模型，我的作品里均使用到了各家AI视频工具，以后有机会再多写一些更详细的教程！AI视频3.0时代已开启，非常期待国内厂家们后续的AI视频模型更新，这是一个对创作者非常友好的时代，希望大家能一起做出好玩的、有趣的作品！

最后的最后，如果你喜欢我的分享的话，感谢你的点赞、转发、评论、一键三连！你的鼓励将会成为我创作的动力，笔芯！

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI视频3.0时代,商业化落地真的来了吗?