问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

等待Sora上线的8个月,AI 视频到底什么水平了?

创作时间:
作者:
@小白创作中心

等待Sora上线的8个月,AI 视频到底什么水平了?

引用
澎湃
1.
https://m.thepaper.cn/newsDetail_forward_28849425

在等待Sora上线的8个月里,AI视频技术取得了突破性进展。从Claude 3.5到Runway的Act-One,从Midjourney V7到Stable Diffusion 3.5,各大AI产品纷纷推出新版本和新功能。与此同时,MiniMax海螺和快手可灵等国产AI产品也在海外迅速走红。本文将为您详细介绍AI视频技术的最新发展、实际应用案例以及面临的挑战。

2024年10月22日,AI圈迎来了一轮重大更新:Claude 3.5模型升级,Runway推出生成式角色表演工具Act-One,Midjourney准备发布支持ControlNet功能的V7版本,Stable Diffusion 3.5正式发布,ComfyUI即将支持桌面版,还有更多开源视频模型工具在路上。

在Sora被调侃为“期货”的8个月里,国内外已经涌现出一批可圈可点的AI视频大模型和工具产品,各家轮流登上AI视频王座。目前,MiniMax海螺和快手可灵等国产AI产品,凭借高质量、稳定性、影视级的特性,在海外迅速走红。

AI视频技术如何实现影视级效果?

AI技术的不断发展,推动了AI视频开始往影视领域探索。快手可灵AI联手李少红、贾樟柯、俞白眉等9位知名导演,尝试制作AIGC电影短片。Runway CEO在接受专访时放言,“明年或将见证首部AI主导创作的电影诞生,并赢得奥斯卡奖。”

在此之际,澎湃新闻对齐Lab栏目上线了首部以马兰基地“核二代”为原型的AI非虚构微电影《马兰花开》。影片前40秒除航拍镜头使用垫图外,其余画面均使用前沿AI技术生成,实现了影视级的画面效果,AI辅助完成了包括360°旋转镜头等在内的多个复杂运镜。

AI微电影《马兰花开》(02:11)

在这部片子中,我们把当下最新的AI功能,都摸了个透。AI功能千千万,怎么样才能搞定大师级电影镜头呢?

以360°旋转镜头为例,大致有两种思路,最直接的就是“文生视频”,我们在最初的尝试里,体验了这种路径的效果:生成画面也挺有味道的,但是不是我们想要的。

直接文生视频效果,源自澎湃对齐Lab

为了画面的可控性,我们选择了“文生图——图生视频”的思路:增加一个中间环节,以确保最终画面的调性。如果需要控制角色,这种思路也可能效果更好。

首先,我们借助目前stable diffusion里面超强的图像生成模型——Flux,通过输入提示词和提供参考图生成理想的电影感画面。

360旋转镜头的第一张图,源自澎湃对齐Lab

有了第一张图,视频的基本风格就定下来了,接下来就是最关键的运镜环节了。综合考量了制作需求、效果以及成本等因素后,我们最终选择了目前“图生视频”中相对简单可控的方法——利用现成视频工具,依靠一张图、一句话来生成360°镜头。

当前大多数视频工具一次最长能做10-12秒的视频,但AI未必能在短时间内完成复杂的镜头调度。为此,我们可以结合AI视频工具的“拓展延长”功能,将360°的镜头分成几个小部分(比如180°、270°)一步步实现。

值得一提的是,以上操作思路都是我们基于9月中旬的调研得出的。但AI的发展实在太快了,截至10月21日,各大视频工具的功能又做了很多的迭代升级。海螺推出了“图生视频”功能,即梦开启了S2.0和P2.0版本的内测......这些更新使得360°旋转镜头的制作有了更多的可能性。

AI视频创作面临的挑战

虽然AI视频已经具备影视化能力,但在细节的表现上仍旧充满难题。在制作《马兰花开》的过程中,最让我们崩溃和头疼的,莫过于小孩跳皮筋和数飞机这两个画面。

比如,AI并不能很好地理解,什么是“跳皮筋”。我们用“跳皮筋”的提示词描述直接生成图片,会出现语义理解偏差。最终,我们给AI喂经过高清修复、PS处理后的正确照片,让AI图片里面的人物动作和姿态更加接近理想效果。

在视频生成中也有同样的问题,直接输入“跳皮筋”的提示词,AI反馈的是活蹦乱跳的小孩、奇怪飘起的扬沙……我们只好退而求其次,用简化提示词的方式,让小孩原地轻轻跳一跳、动一动,完成跳皮筋的动势。

AI视频的创新玩法

除了正儿八经的影视化方向,AI视频现在还能做很多开脑洞的效果。对于没有任何影视后期制作经验的人来说,AI确实能花小钱办大事。

Pika AI影视特效,源自X @Ethan Mollick

最近一口气上线了10种AI影视特效,包括溶解、挤压、消失、爆炸等。推特上的一位可视化爱好者,用AI特效实现了真·用手抠图,给人一种打破次元壁的感觉。

Runway视频转绘效果,源自X @oFaleco

Runway则在近期上线了视频生视频(video to video)的转绘功能。能够根据提示词改变用户上传视频的场景、风格,并保留视频的主体框架。

除了这些闭源工具推出的彩蛋功能,开源社区中也有很多对AI视频形式的探索,比如用运动视频驱动植物跳舞、用人物肖像视频驱动小动物说话等。

全民健身日|AI一下,“早C晚A”都陪你动起来(01:00)

AI街采|假如动物会说话,它们会怎么说城市生态(02:55)

今年的全民健身日,我们使用ComfyUI让十款甜品、饮料开始了自己的“运动表演”。这套开源工作流的本质是对运动视频进行抠像后,再根据物体形态、场景两种参考图对抠像视频进行视频转绘。在全国生态日,我们使用开源技术Liveportrait,把人的面部表情“移植”到了小动物身上,完成了一次野生动物的“街头采访”。

AI视频创作的未来方向

在9月22日举行的Runway Meetup Shanghai创作者分享会上,AI Talk创始人汗青表示,“AI没问题,我建议有一些局部调整:视频的困境在于,不同于互联网和移动时代,AI视频尚未等到一个适配其特性的新媒介”。

汗青还强调,许多人觉得AI视频能降本增效,但看视频的人其实并不关心。在微短剧、短视频、直播当道的今天,AI视频靠什么去获得受众的注意力,是AI视频创作者值得去深思的问题。

而对于新闻机构从业者来说,AI视频创作的主要顾虑是新闻真实性和AI虚构能力之间存在一定的矛盾。但如果用到非虚构领域,就能让AI肆意发挥他的创意。

在构思《马兰开花》的故事时,我们抛弃了用AI视频来还原历史事件的创作方向,一方面是因为公开的资料有限,生成AI视频缺乏依据;另一方面,AI视频在细节还原的准确性上还存在不足,在重要的历史事件中容易造成误读和偏差。

海外主流AI视频工具流量对比,源自Similarweb

随着AI视频产品逐渐进入“祛魅”期,许多主流AI视频产品的热度也出现了下滑的趋势。流量分析工具Similarweb的数据显示,Luma AI于9月初上线了1.6版本,但当月访问量环比下降了38.49%。作为全球AI视频的第一梯队产品,Luma AI每月的访问量大约只有ChatGPT的1/413。

AI视频产品的升级迭代,往往伴随着“尝鲜”式的挤兑体验和漫长的排队,反而会给用户带来负面的体验。从主流AI视频工具近年来的迭代变化来看,还并没有出现真正改变游戏规则的模型和产品。

信达证券在今年7月发布的一份研报中指出,AI视频行业的风险因素包括:AI底层大模型发展、AI视频技术迭代和AI视频产品付费渗透率提升均不及预期。

但是人人都是导演的愿景,或许本来就需要更多等待的耐心。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号