问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

等待Sora上线的8个月,AI 视频到底什么水平了?

创作时间:
作者:
@小白创作中心

等待Sora上线的8个月,AI 视频到底什么水平了?

引用
澎湃
1.
https://www.thepaper.cn/newsDetail_forward_28849425

2024年10月22日,AI圈迎来了一次重大更新。Claude 3.5模型升级,Runway推出生成式角色表演工具Act-One,Midjourney准备发布支持ControlNet功能的V7版本,Stable Diffusion 3.5发布,ComfyUI即将支持桌面版,还有更多开源视频模型工具在路上。在Sora被调侃为"期货"的8个月里,国内外已经涌现出了一批可圈可点的AI视频大模型和工具产品,各家轮流登上AI视频王座。

AI视频技术的最新发展

在Sora被调侃为"期货"的8个月里,国内外已经涌现出了一批可圈可点的AI视频大模型和工具产品,各家轮流登上AI视频王座。目前,MiniMax海螺和快手可灵等国产AI产品,凭借高质量、稳定性、影视级的特性,在海外迅速走红。

AI视频在影视领域的探索

AI技术的不断发展,也推动了AI视频开始往影视领域探索。快手可灵AI联手李少红、贾樟柯、俞白眉等9位知名导演,尝试制作AIGC电影短片。而Runway CEO在采访中表示,"明年或将见证首部AI主导创作的电影诞生,并赢得奥斯卡奖。"

在此之际,澎湃新闻对齐Lab栏目上线了首部以马兰基地"核二代"为原型的AI非虚构微电影《马兰花开》。影片前40秒除航拍镜头使用垫图外,其余画面均使用前沿AI技术生成,实现了影视级的画面效果,AI辅助完成了包括360°旋转镜头等在内的多个复杂运镜。

以360°旋转镜头为例,大致有两种思路,最直接的就是"文生视频",在最初的尝试里,体验了这种路径的效果:生成画面也挺有味道的,但是不是想要的。

为了画面的可控性,选择了"文生图——图生视频"的思路:增加一个中间环节,以确保最终画面的调性。如果需要控制角色,这种思路也可能效果更好。

首先,借助目前stable diffusion里面超强的图像生成模型——Flux,通过输入提示词和提供参考图生成理想的电影感画面。

有了第一张图,视频的基本风格就定下来了,接下来就是最关键的运镜环节了。综合考量了制作需求、效果以及成本等因素后,最终选择了目前"图生视频"中相对简单可控的方法——利用现成视频工具,依靠一张图、一句话来生成360°镜头。

当前大多数视频工具一次最长能做10-12秒的视频,但AI未必能在短时间内完成复杂的镜头调度。为此,可以结合AI视频工具的"拓展延长"功能,将360°的镜头分成几个小部分(比如180°、270°)一步步实现。

值得一提的是,以上操作思路都是基于9月中旬的调研得出的。但AI的发展实在太快了,截至10月21日,各大视频工具的功能又做了很多的迭代升级。海螺推出了"图生视频"功能,即梦开启了S2.0和P2.0版本的内测......这些更新使得360°旋转镜头的制作有了更多的可能性。

遇到的挑战

虽然AI视频已经具备影视化能力,但在细节的表现上仍旧充满难题。在制作《马兰花开》的过程中,最崩溃和头疼的,莫过于小孩跳皮筋和数飞机这两个画面。

比如,AI并不能很好地理解,什么是"跳皮筋"。用"跳皮筋"的提示词描述直接生成图片,会出现语义理解偏差。最终,给AI喂经过高清修复、PS处理后的正确照片,让AI图片里面的人物动作和姿态更加接近理想效果。

在视频生成中也有同样的问题,直接输入"跳皮筋"的提示词,AI反馈的是活蹦乱跳的小孩、奇怪飘起的扬沙……只好退而求其次,用简化提示词的方式,让小孩原地轻轻跳一跳、动一动,完成跳皮筋的动势。

AI视频的有趣玩法

除了正儿八经的影视化方向,AI视频现在还能做很多开脑洞的效果。对于没有任何影视后期制作经验的人来说,AI确实能花小钱办大事。

最近一口气上线了10种AI影视特效,包括溶解、挤压、消失、爆炸等。推特上的一位可视化爱好者,用AI特效实现了真·用手抠图,给人一种打破次元壁的感觉。

Runway则在近期上线了视频生视频(video to video)的转绘功能。能够根据提示词改变用户上传视频的场景、风格,并保留视频的主体框架。

除了这些闭源工具推出的彩蛋功能,开源社区中也有很多对AI视频形式的探索,比如用运动视频驱动植物跳舞、用人物肖像视频驱动小动物说话等。

AI视频创作的困境

在9月22日举行的Runway Meetup Shanghai创作者分享会上,AI Talk创始人汗青表示,"AI没问题,建议有一些局部调整:视频的困境在于,不同于互联网和移动时代,AI视频尚未等到一个适配其特性的新媒介。"

汗青还强调,许多人觉得AI视频能降本增效,但看视频的人其实并不关心。在微短剧、短视频、直播当道的今天,AI视频靠什么去获得受众的注意力,是AI视频创作者值得去深思的问题。

而对于新闻机构从业者来说,AI视频创作的主要顾虑是新闻真实性和AI虚构能力之间存在一定的矛盾。但如果用到非虚构领域,就能让AI肆意发挥他的创意。

在构思《马兰开花》的故事时,抛弃了用AI视频来还原历史事件的创作方向,一方面是因为公开的资料有限,生成AI视频缺乏依据;另一方面,AI视频在细节还原的准确性上还存在不足,在重要的历史事件中容易造成误读和偏差。

海外主流AI视频工具流量对比,源自Similarweb

随着AI视频产品逐渐进入"祛魅"期,许多主流AI视频产品的热度也出现了下滑的趋势。流量分析工具Similarweb的数据显示,Luma AI于9月初上线了1.6版本,但当月访问量环比下降了38.49%。作为全球AI视频的第一梯队产品,Luma AI每月的访问量大约只有ChatGPT的1/413。

AI视频产品的升级迭代,往往伴随着"尝鲜"式的挤兑体验和漫长的排队,反而会给用户带来负面的体验。从主流AI视频工具近年来的迭代变化来看,还并没有出现真正改变游戏规则的模型和产品。

信达证券在今年7月发布的一份研报中指出,AI视频行业的风险因素包括:AI底层大模型发展、AI视频技术迭代和AI视频产品付费渗透率提升均不及预期。

但是人人都是导演的愿景,或许本来就需要更多等待的耐心。

本文原文来自澎湃新闻

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号