资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

等待Sora上线的8个月，AI 视频到底什么水平了？

创作时间:

作者:

@小白创作中心

等待Sora上线的8个月，AI 视频到底什么水平了？

引用

澎湃

https://www.thepaper.cn/newsDetail_forward_28849425

2024年10月22日，AI圈迎来了一次重大更新。Claude 3.5模型升级，Runway推出生成式角色表演工具Act-One，Midjourney准备发布支持ControlNet功能的V7版本，Stable Diffusion 3.5发布，ComfyUI即将支持桌面版，还有更多开源视频模型工具在路上。在Sora被调侃为"期货"的8个月里，国内外已经涌现出了一批可圈可点的AI视频大模型和工具产品，各家轮流登上AI视频王座。

AI视频技术的最新发展

在Sora被调侃为"期货"的8个月里，国内外已经涌现出了一批可圈可点的AI视频大模型和工具产品，各家轮流登上AI视频王座。目前，MiniMax海螺和快手可灵等国产AI产品，凭借高质量、稳定性、影视级的特性，在海外迅速走红。

AI视频在影视领域的探索

AI技术的不断发展，也推动了AI视频开始往影视领域探索。快手可灵AI联手李少红、贾樟柯、俞白眉等9位知名导演，尝试制作AIGC电影短片。而Runway CEO在采访中表示，"明年或将见证首部AI主导创作的电影诞生，并赢得奥斯卡奖。"

在此之际，澎湃新闻对齐Lab栏目上线了首部以马兰基地"核二代"为原型的AI非虚构微电影《马兰花开》。影片前40秒除航拍镜头使用垫图外，其余画面均使用前沿AI技术生成，实现了影视级的画面效果，AI辅助完成了包括360°旋转镜头等在内的多个复杂运镜。

以360°旋转镜头为例，大致有两种思路，最直接的就是"文生视频"，在最初的尝试里，体验了这种路径的效果：生成画面也挺有味道的，但是不是想要的。

为了画面的可控性，选择了"文生图——图生视频"的思路：增加一个中间环节，以确保最终画面的调性。如果需要控制角色，这种思路也可能效果更好。

首先，借助目前stable diffusion里面超强的图像生成模型——Flux，通过输入提示词和提供参考图生成理想的电影感画面。

有了第一张图，视频的基本风格就定下来了，接下来就是最关键的运镜环节了。综合考量了制作需求、效果以及成本等因素后，最终选择了目前"图生视频"中相对简单可控的方法——利用现成视频工具，依靠一张图、一句话来生成360°镜头。

当前大多数视频工具一次最长能做10-12秒的视频，但AI未必能在短时间内完成复杂的镜头调度。为此，可以结合AI视频工具的"拓展延长"功能，将360°的镜头分成几个小部分（比如180°、270°）一步步实现。

值得一提的是，以上操作思路都是基于9月中旬的调研得出的。但AI的发展实在太快了，截至10月21日，各大视频工具的功能又做了很多的迭代升级。海螺推出了"图生视频"功能，即梦开启了S2.0和P2.0版本的内测......这些更新使得360°旋转镜头的制作有了更多的可能性。

遇到的挑战

虽然AI视频已经具备影视化能力，但在细节的表现上仍旧充满难题。在制作《马兰花开》的过程中，最崩溃和头疼的，莫过于小孩跳皮筋和数飞机这两个画面。

比如，AI并不能很好地理解，什么是"跳皮筋"。用"跳皮筋"的提示词描述直接生成图片，会出现语义理解偏差。最终，给AI喂经过高清修复、PS处理后的正确照片，让AI图片里面的人物动作和姿态更加接近理想效果。

在视频生成中也有同样的问题，直接输入"跳皮筋"的提示词，AI反馈的是活蹦乱跳的小孩、奇怪飘起的扬沙……只好退而求其次，用简化提示词的方式，让小孩原地轻轻跳一跳、动一动，完成跳皮筋的动势。

AI视频的有趣玩法

除了正儿八经的影视化方向，AI视频现在还能做很多开脑洞的效果。对于没有任何影视后期制作经验的人来说，AI确实能花小钱办大事。

最近一口气上线了10种AI影视特效，包括溶解、挤压、消失、爆炸等。推特上的一位可视化爱好者，用AI特效实现了真·用手抠图，给人一种打破次元壁的感觉。

Runway则在近期上线了视频生视频（video to video）的转绘功能。能够根据提示词改变用户上传视频的场景、风格，并保留视频的主体框架。

除了这些闭源工具推出的彩蛋功能，开源社区中也有很多对AI视频形式的探索，比如用运动视频驱动植物跳舞、用人物肖像视频驱动小动物说话等。

AI视频创作的困境

在9月22日举行的Runway Meetup Shanghai创作者分享会上，AI Talk创始人汗青表示，"AI没问题，建议有一些局部调整：视频的困境在于，不同于互联网和移动时代，AI视频尚未等到一个适配其特性的新媒介。"

汗青还强调，许多人觉得AI视频能降本增效，但看视频的人其实并不关心。在微短剧、短视频、直播当道的今天，AI视频靠什么去获得受众的注意力，是AI视频创作者值得去深思的问题。

而对于新闻机构从业者来说，AI视频创作的主要顾虑是新闻真实性和AI虚构能力之间存在一定的矛盾。但如果用到非虚构领域，就能让AI肆意发挥他的创意。

在构思《马兰开花》的故事时，抛弃了用AI视频来还原历史事件的创作方向，一方面是因为公开的资料有限，生成AI视频缺乏依据；另一方面，AI视频在细节还原的准确性上还存在不足，在重要的历史事件中容易造成误读和偏差。

海外主流AI视频工具流量对比，源自Similarweb

随着AI视频产品逐渐进入"祛魅"期，许多主流AI视频产品的热度也出现了下滑的趋势。流量分析工具Similarweb的数据显示，Luma AI于9月初上线了1.6版本，但当月访问量环比下降了38.49%。作为全球AI视频的第一梯队产品，Luma AI每月的访问量大约只有ChatGPT的1/413。

AI视频产品的升级迭代，往往伴随着"尝鲜"式的挤兑体验和漫长的排队，反而会给用户带来负面的体验。从主流AI视频工具近年来的迭代变化来看，还并没有出现真正改变游戏规则的模型和产品。

信达证券在今年7月发布的一份研报中指出，AI视频行业的风险因素包括：AI底层大模型发展、AI视频技术迭代和AI视频产品付费渗透率提升均不及预期。

但是人人都是导演的愿景，或许本来就需要更多等待的耐心。

本文原文来自澎湃新闻