问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

直接用表征还是润色改写?LLM用于文生图prompt语义增强的两种范式

创作时间:
作者:
@小白创作中心

直接用表征还是润色改写?LLM用于文生图prompt语义增强的两种范式

引用
CSDN
1.
https://blog.csdn.net/weixin_44966641/article/details/138167814

随着大语言模型(LLM)的快速发展,其在文生图(text-to-image generation)领域的应用也日益广泛。目前,主流的文生图模型大多使用CLIP text encoder作为prompt文本编码器,但CLIP只能理解简单语义,无法处理复杂语法,导致生成的图片经常出现语义错误和属性绑定错误。为了解决这一问题,研究人员提出了两种主要范式:一是使用LLM的文本生成能力对prompt进行改写润色,二是直接将LLM的hidden states替换CLIP的text embedding。本文将详细介绍这两种范式及其代表性方法。

LaVi-Bridge

简要描述:在LLM和Diffusion Model(DM)中插入LoRA,并通过MLP进行连接。

方法:在LLM和DM中插入LoRA,并通过MLP进行连接,以实现不同模型之间的适配。

总结:LaVi-Bridge是一种简单直接的连接LLM和DM的方法。

ELLA

简要描述:使用LLM+Adapter替换CLIP text encoder的简单语义embedding,其中LLM和Diffusion UNet、VAE均冻结,仅训练Adapter部分。

方法

  • 网络结构:提出TSC(Timestep-aware Semantic Connector)网络结构,使用Flamingo中的Resampler,支持任意长度文本输入并输出固定长度的query token。同时,在Adapter中加入timestep embedding,使其能够感知当前时间步。
  • 训练数据:使用CogVLM在筛选的图片上生成复杂文本描述,图片筛选条件包括美学分和最小分辨率等。
  • 新基准:提出了复杂prompt信息文生图的benchmark:DPG-Bench。

效果展示:ELLA在处理复杂物体关系和属性时,相比SDXL和DALL-E 3具有更好的表现。

总结:ELLA通过使用LLM代替CLIP提供更准确的文本embedding,虽然需要训练,但方案较为简洁。遗憾的是,ELLA-SDXL模型不开源。

RPG Master

简要描述:通过利用LLM的CoT推理能力,将复杂图像生成拆分为多个子区域生成。

方法

  1. Recaption:使用(M)LLM识别并重写实体prompt,采用特定切分策略避免属性混乱。
  2. Plan:根据base prompt和实体prompt进行区域划分。
  3. Generate:采用CRD(Complementary Regional Diffusion)方法,将全局prompt和区域prompt结合生成完整图片。同时支持基于MLLM的闭环迭代式图像编辑。

效果展示:RPG在处理多个物体和属性的复杂prompt时,能正确体现物体和属性的对应关系,而SDXL和DALL-E 3则出现属性缺失或错乱。

总结:RPG的核心是利用LLM的推理能力进行prompt重写和区域规划,但实测中发现许多(M)LLM的指令理解和推理能力不足以稳定支持这一过程。

SUR-Adapter

简要描述:构建简单prompt、复杂prompt、高质量图片三元组数据集,训练Adapter以增强简单prompt的语义表达。

方法

  1. 数据集构建:在lexica、C站、sd web网站上收集高质量图片及其复杂prompt,使用blip生成简单prompt,构建三元组数据集,最终收集57000+样本。
  2. Adapter训练
  • 蒸馏LLM的理解推理能力,最小化简单prompt的embedding KL散度。
  • 维持生图模型原有能力,采用去噪训练。
  • 对齐简单prompt和复杂prompt的表征,最小化加权embedding的KL散度。

总结:SUR-Adapter通过学习LLM对简单prompt的扩写能力,实现细节丰富的生图结果。

整体总结

  • 润色改写范式(代表:RPG):优点是无需额外训练,但依赖于LLM的强大指令跟随和语义理解能力,且LLM指令设计复杂。
  • 直接用表征范式(代表:LaVi-Bridge、ELLA、SUR-Adapter):通过引入Adapter并进行训练,不需要设计LLM指令,出图效果稳定,但需要额外训练。

本质上,两种范式的区别在于交互媒介的不同:前者使用embedding,后者使用自然语言。以embedding为媒介更符合深度学习范式,而自然语言则在灵活性和可解释性方面更具优势。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号