问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

FlagEval 8月榜 | 文生视频大模型主观评测结果揭晓,新增6款新发布模型

创作时间:
作者:
@小白创作中心

FlagEval 8月榜 | 文生视频大模型主观评测结果揭晓,新增6款新发布模型

引用
腾讯
1.
https://new.qq.com/rain/a/20240826A07EAV00?media_id=&openApp=false&suid=&web_channel=wap

近日,智源研究院联合中国传媒大学发布了最新一期的文生视频大模型主观评测榜单。在对Sora、Runway Gen-2等原有模型进行升级版本对比评测的同时,还引入了即梦、Luma等6款新近发布的模型进行评测。结果显示,尽管文生视频模型在物体运动表现上有所提升,但仍存在画面质量、活动主体真实性、复杂行为刻画等方面的共性问题。

评测方法

本次评测采用的数据集和主观评价方法与今年5月开展的文生视频模型评测高度一致,并沿用了部分评测结果作为参考基准,以保持新旧模型评测标准的一致性,使两次评测结果具有可比性。

评测发现

当前的文生视频大模型在以下方面仍然存在共性问题:

1. 画面质量问题

许多模型生成的视频存在画质问题,如分辨率不高、马赛克效应、噪点、摩尔纹等。这些问题在剧烈运动的场景中尤为明显,在静态场景中则相对缓解。

Prompt:Step-printing scene of a person running, cinematic film shot in 35mm.

问题:人物模糊,跑步动作失真

2. 活动主体真实性较差

许多模型在生成活动的主体对象时表现不佳,尤其是在生成运动幅度较大的动物或人物时,常出现躯干结构缺失、形变或面部崩坏等问题。

3. 难以刻画复杂行为

当主体与环境有交互行为或操纵工具、设备时,生成效果往往较差。当存在多个主体有交互行为时,常常出现主体融合、消失或分身等现象。

Prompt:A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.

问题:难以刻画复杂场景,出现变形人物

4. 对超现实场景表现不足

对于高度抽象场景,尤其是对于反物理规律或反常识的提示词,如物体漂浮、雨水逆流等,大多数模型难以生成准确画面。

Prompt: Basketball through hoop then explodes.

问题:篮球未爆炸,球网的摆动不符合物理规律

5. 文化特色相关场景生成困难

多个模型在生成具有文化特色的场景或标志性建筑时容易出错,尤其是在生成中国特色场景时问题较为突出。

Prompt: A Chinese Lunar New Year celebration video with Chinese Dragon.

问题:不符合中国传统文化龙的形象

6. 时间和因果关系容易出错

Prompt:A grandmother with neatly combed grey hair stands behind a colorful birthday cake with numerous candles at a wood dining room table, expression is one of pure joy and happiness, with a happy glow in her eye. She leans forward and blows out the candles with a gentle puff, the cake has pink frosting and sprinkles and the candles cease to flicker, the grandmother wears a light blue blouse adorned with floral patterns, several happy friends and family sitting at the table can be seen celebrating, out of focus. The scene is beautifully captured, cinematic, showing a 3/4 view of the grandmother and the dining room. Warm color tones and soft lighting enhance the mood.

问题:因果出错,吹蜡烛但是没有灭,同时不符合物理规律

这些问题表明,尽管当前文生视频模型在很多方面已经取得了显著进步,但在实际应用中仍面临诸多挑战,有待解决。

评测结果

1. 榜单排名

从综合性能排名来看,Sora的排名依然处于领先位置。Runway Gen-3紧随其后,综合总分为0.634,在本次参评模型中排名第一。即梦和可灵的综合得分分别为0.591和0.565,也具备一定的竞争力。而Vega Ai、Pika 2.0、Open-Sora 1.2的综合性能排名相对靠后。

在CUC T2V Prompts数据集上,Runway Gen-3在总体印象分、图文一致性、视频质量三个维度上均排名第一,显示出强大的综合性能。即梦在美学质量上领先,同时在其他多个维度上位列第二,表现出全面的竞争力,是Runway Gen-3的强劲对手。此外,可灵在真实性方面也有不错的表现。

在Sora T2V Prompts数据集上,Runway Gen-3在总体印象分、图文一致性、真实性、视频质量和美学质量五个维度上均表现优异,除Sora外位居第一,再次证明其强大的综合实力。即梦在总体印象分、视频质量和美学质量上表现突出,是有力的竞争者。而可灵则在图文一致性和真实性方面取得了不错的成绩。

2. 新增模型特点

新增的即梦、可灵、Luma、Vega Ai、星火绘镜和Pixeling六个模型展示了各自特的优势与不足:

  • 即梦:在动态表现、美学表现和精细动作生成方面表现卓越,尤其是在动画风格的生成上具有较高美感。然而,随着视频长度的增加,其真实性和前后内容一致性会有一定的下降。

  • Luma:在生成日常生活场景时表现相对出色,画面质感贴近现实。此外,Luma的镜头移动和场景切换频率较高,能够生成动态画面。但在生成文化特色场景、人与物体交互场景(如操作器材)和超现实场景时表现欠佳。

  • 可灵:在真实性上表现尤为出色,尤其是在动物毛发细节和质感的处理上。当人物运动幅度较小时,可灵能够生成皮肤细节清晰、人体比例真实的形象。不过,可灵生成的部分视频画面清晰度有所欠缺。

  • Vega Ai:在动态表现上较为突出,但在人物生成的真实性、视频质量和镜头布局方面存在不足,限制了其在高质量视频生成中的应用。

  • 星火绘镜:擅长生成长视频和处理多镜头拼接,适合生成包含转场和多视角的视频内容。但在图文一致性和风格多样性上仍有改进空间。

  • Pixeling:在色彩搭配和图文一致性上表现较好。然而,在视频画面稳定性和一致性上存在不足,生成视频常出现前后内容不一致的现象。

3. 不同版本对比

本次评测还对部分模型的升级版本进行了性能对比。

  • Runway Gen-3 vs. Runway Gen-2:Runway Gen-3在图文一致性、动态表现和风格多样性等方面有显著提升。

  • PixVerse V2 vs. PixVerse V1:PixVerse V2 在总体印象和图文一致性上超越了PixVerse V1,但前后内容一致性和面部崩坏的情况还有待改善。

  • Pika 2.0 vs. Pika 1.0:Pika 2.0在画面稳定性和细节表现上有所提升,但在生成超现实场景和提高人物真实性方面仍需进一步优化。

  • Open-Sora 1.2 vs. Open-Sora 1.0:Open-Sora 1.2在视频时长、分辨率和画面稳定性上较Open-Sora 1.0有显著进步,但在实体对象呈现和前后内容一致性上仍有不足。

由于评测数据集的规模及类别限制,评测结果会存在一定局限性。未来,智源研究院将携手中国传媒大学继续推动文生视频评测技术与主观评价方法体系的迭代与完善。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号