问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Nature:生成式AI模型如何用于辅助人类创意设计

创作时间:
作者:
@小白创作中心

Nature:生成式AI模型如何用于辅助人类创意设计

引用
澎湃
1.
https://www.thepaper.cn/newsDetail_forward_30560070

生成式人工智能(AI)已经在文本、图像和视频等多个领域展现出惊人的能力,但如何将其应用于创意设计领域,特别是游戏设计,仍然是一个充满挑战的问题。近期发表在《自然》期刊上的一项研究提出了一种新的生成式AI模型——世界与人类动作模型(WHAM),该模型具备一致性、多样性和用户修改保持性三大特性,为生成式AI在创意设计领域的应用开辟了新的可能性。

研究背景与意义

生成式AI技术正在推动创意产业的变革,特别是在支持人类创意构想方面展现出巨大潜力。然而,目前的AI模型在支持迭代调整和发散思维方面仍存在不足,这些能力对于创意实践至关重要。以游戏开发为例,研究团队通过理解用户需求来驱动AI模型的开发和评估,提出了实现AI与创意实践对齐的关键能力。

用户需求分析

研究团队通过半结构化访谈,深入了解了游戏开发领域创意人员的需求。通过主题分析方法,研究团队确定了两个关键主题:一是创意人员需要将发散性思维融入一致的游戏世界中;二是创意人员需要对迭代过程拥有控制权,包括直接修改和指导模型演化的能力。

WHAM模型的设计与评估

基于用户研究的结果,研究团队开发了WHAM模型,并从一致性、多样性和持续性三个方面对其进行了评估。

一致性

一致性是确保创意工作者能够有效迭代的基础。研究团队使用Fréchet视频距离(FVD)来评估生成内容与真实数据的一致性。结果显示,随着模型规模和计算预算的增加,FVD评分逐步提升。


图3. 一致性结果。a, 不同规模的WHAM模型在训练计算预算(以浮点运算次数/FLOPS表示)下的FVD评分趋势。随着模型规模和计算预算的增加,FVD评分逐步提升(越小越好)。b, 展示了1.6B WHAM生成的两组示例(每行一个示例,每个示例时长2分钟),关键帧显示该模型具备生成长期一致游戏过程的能力。

多样性

多样性对于激发新想法至关重要。研究团队采用Wasserstein距离来评估模型生成行动与人类行动的分布差异。结果显示,通过增加行动损失的权重,可以进一步提升模型的多样性表现。


图4 多样性结果,a, 三个WHAM变体的多样性(以Wasserstein距离衡量),即与人类行动的差异。在102,400个总行动数(1,024条轨迹,每条轨迹包含100个行动)中,我们采样了10,000个人类和模型行动,并计算它们之间的距离。这一过程重复了十次,并绘制了均值±1的标准差。越接近人类间基线越好。均匀随机行动的距离为5.3。所有模型在训练中均有所改善,并且通过增加行动损失的权重可以进一步提升性能。b, 从相同初始上下文中生成的1.6B WHAM的三个示例。我们可以看到行为上的多样性(玩家角色绕着刷新点打转 vs. 直接朝着加速板移动)和视觉上的多样性(玩家角色驾驶的悬浮板拥有不同的外观)。

持续性

持续性确保用户能够对生成输出进行控制和迭代优化。研究团队通过在游戏图像中手动插入不同元素来测试模型的持续性。结果显示,当模型基于五张编辑后的图像进行条件设置时,所有元素类型的持续性均达到85%及以上。


表1:定量的持久性分析结果。当WHAM基于一张用户编辑后的图像进行条件设置时,每个元素的持久性低于60%。然而,当基于五张用户编辑的图像进行条件设置时,每个元素的持久性显著提升至85%或以上(经过Bonferroni校正的二项检验,显著性水平为0.008)。

WHAM演示器

为了展示WHAM模型在创意应用中的潜力,研究团队开发了一个概念原型——WHAM演示器。该演示器提供了一个可视化界面,支持用户通过视觉提示与模型交互,实现发散性思维和迭代优化。


图1: 模型能力的辨识
通过与游戏开发创意人员进行的用户研究(“用户需求”部分),我们确定了三项关键的模型能力,这些能力可以通过WHAM生成的游戏玩法序列来体现(“WHAM”节),并在WHAM演示器(“WHAM演示器”部分)中展示。a. 一致性(Consistency)能力:生成的序列应在时间上保持一致,并符合游戏机制。图中展示的为玩家角色按照游戏世界已建立的物理规律爬上了楼梯。b. 多样性(Diversity)能力:模型应生成大量多样化的序列,以反映不同的潜在结果,从而支持发散式思维。图中所示的模型生成了三种合理的序列,这些序列展示了角色可能遵循的不同路径。c. 持续性 (Persistency) 能力:模型应保留用户对游戏视觉效果和控制器所做的修改,并将其整合到生成的游戏玩法序列中。在这张图中,右侧图中由用户添加的角色(修改)已被纳入到左侧所展示的生成图像中。d, WHAM演示器的截图。这是一个概念原型,提供了一个可视化的界面,以便与WHAM模型进行交互,包括多种促进模型的方法。请参阅补充视频1以获取视频案例研究。

结论与展望

研究团队通过与游戏开发创意人员的深入交流,识别出一致性、多样性和持续性是支持创意构思的关键模型能力。WHAM模型的成功开发证明了现代生成式AI模型具备从相关数据中学习复杂结构的能力,而无需任何先验的领域知识。这一突破不仅有望在游戏设计领域实现广泛应用,还为AI在音乐、视频等其他创意领域的应用开辟了新的可能性。

本文原文来自Nature期刊

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号