问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

CVPR'24:文生图提示词自动优化,还发现三个小窍门,人大度小满等机构出品

创作时间:
作者:
@小白创作中心

CVPR'24:文生图提示词自动优化,还发现三个小窍门,人大度小满等机构出品

引用
CSDN
1.
https://blog.csdn.net/QbitAI/article/details/140141154

在文生图领域,输入的提示词(prompt)对生成图像的质量有着至关重要的影响。来自中国人大、度小满等团队提出了一种全新的自动文本提示优化方法——动态提示自动编辑(Prompt Auto-Editing,PAE)。该方法通过动态调整提示词的权重和注入时间步,实现了更精准的图像生成控制。

PAE方法概述

PAE方法的核心在于动态提示(Dynamic Prompts)。它通过为用户输入的简短提示词扩充更多修饰词,并动态调整这些修饰词的权重和注入时间步,从而自动细化优化文本提示,实现对图像生成过程的更精准控制。

Dynamic Prompt的定义

团队定义了一种新的提示格式——动态精细控制提示(DF-Prompt),它将文本prompt中的每个token拓展成一个包含权重和时间步范围的三元组。DF-Prompt采用纯文本格式:[token:range:weight]。例如,对于提示词"portrait of a beautiful forest goddess, beauty, very aesthetic, masterpiece",其中"beauty"可以表示为[beauty:0.5→0:0.75],其权重为0.75,生效的时间步范围为后50%的降噪步骤。

训练数据收集

研究团队从DiffusionDB等数据集中收集训练数据。在这些数据集中,一般逗号之前的文本包含主要信息,描述图像的主题,而逗号之后的文本提供补充后缀作为修饰语。例如,“a red horse on the yellow grass, anime style”中,“a red horse on the yellow grass”是主要信息,“anime style”是次要文本。通过这种方式构建训练数据中的输入提示词和目标提示词,并定义了一个置信分数,利用美学指标和CLIP分数来筛选训练数据。

训练阶段

PAE方法采用两阶段训练策略:

  • 阶段一:监督式微调阶段:在收集好的数据集上对语言模型进行微调,使其能够根据短提示词扩展出更多修饰词。
  • 阶段二:强化学习阶段:使用强化学习优化文本提示,通过多维度奖励系统来指导这一过程,考虑到美学评分、语义一致性和用户偏好。这一阶段的主要目的是为每一个修饰词添加权重和作用时间步,实现精细化的控制。研究团队使用PPO算法,在训练集上最大化期望累积奖励。奖励函数是在生成的图像上计算的,考虑了包括CLIP分数、PickScore、美学评分等指标。

研究发现

通过观察自动学习到的权重分布和时间步范围统计信息,研究团队还发现了一些有趣的规律:

  • 使用艺术家名称和纹理修饰词:通过引入艺术家的名字和纹理修饰词,可以显著提高生成图像的艺术质量,并保持语义的准确性。
  • 在扩散过程的后半阶段引入风格元素:在图像生成的扩散过程后半段引入风格化元素,可以更好地融合这些元素,从而提高整体的视觉和艺术效果。
  • 降低复杂术语的权重:对于复杂的术语,适当降低其权重可以确保图像生成既平衡又具吸引力,避免过分强调某些元素,从而影响图像的整体美观。

结论

PAE方法在多个公开数据集(包括Lexica.art、DiffusionDB和COCO)上进行了实验验证,结果表明该方法不仅提高了图像的美学质量,还确保了图像与文本描述的语义一致性。与传统方法相比,PAE在控制图像生成过程中的精确性和灵活性方面表现更优。

参考资料

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号