资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

直接用表征还是润色改写？LLM用于文生图prompt语义增强的两种范式

创作时间:

作者:

@小白创作中心

直接用表征还是润色改写？LLM用于文生图prompt语义增强的两种范式

引用

CSDN

https://blog.csdn.net/weixin_44966641/article/details/138167814

随着大语言模型（LLM）的快速发展，其在文生图（text-to-image generation）领域的应用也日益广泛。目前，主流的文生图模型大多使用CLIP text encoder作为prompt文本编码器，但CLIP只能理解简单语义，无法处理复杂语法，导致生成的图片经常出现语义错误和属性绑定错误。为了解决这一问题，研究人员提出了两种主要范式：一是使用LLM的文本生成能力对prompt进行改写润色，二是直接将LLM的hidden states替换CLIP的text embedding。本文将详细介绍这两种范式及其代表性方法。

LaVi-Bridge

简要描述：在LLM和Diffusion Model（DM）中插入LoRA，并通过MLP进行连接。

方法：在LLM和DM中插入LoRA，并通过MLP进行连接，以实现不同模型之间的适配。

总结：LaVi-Bridge是一种简单直接的连接LLM和DM的方法。

ELLA

简要描述：使用LLM+Adapter替换CLIP text encoder的简单语义embedding，其中LLM和Diffusion UNet、VAE均冻结，仅训练Adapter部分。

方法：

网络结构：提出TSC（Timestep-aware Semantic Connector）网络结构，使用Flamingo中的Resampler，支持任意长度文本输入并输出固定长度的query token。同时，在Adapter中加入timestep embedding，使其能够感知当前时间步。
训练数据：使用CogVLM在筛选的图片上生成复杂文本描述，图片筛选条件包括美学分和最小分辨率等。
新基准：提出了复杂prompt信息文生图的benchmark：DPG-Bench。

效果展示：ELLA在处理复杂物体关系和属性时，相比SDXL和DALL-E 3具有更好的表现。

总结：ELLA通过使用LLM代替CLIP提供更准确的文本embedding，虽然需要训练，但方案较为简洁。遗憾的是，ELLA-SDXL模型不开源。

RPG Master

简要描述：通过利用LLM的CoT推理能力，将复杂图像生成拆分为多个子区域生成。

方法：

Recaption：使用(M)LLM识别并重写实体prompt，采用特定切分策略避免属性混乱。
Plan：根据base prompt和实体prompt进行区域划分。
Generate：采用CRD（Complementary Regional Diffusion）方法，将全局prompt和区域prompt结合生成完整图片。同时支持基于MLLM的闭环迭代式图像编辑。

效果展示：RPG在处理多个物体和属性的复杂prompt时，能正确体现物体和属性的对应关系，而SDXL和DALL-E 3则出现属性缺失或错乱。

总结：RPG的核心是利用LLM的推理能力进行prompt重写和区域规划，但实测中发现许多(M)LLM的指令理解和推理能力不足以稳定支持这一过程。

SUR-Adapter

简要描述：构建简单prompt、复杂prompt、高质量图片三元组数据集，训练Adapter以增强简单prompt的语义表达。

方法：

数据集构建：在lexica、C站、sd web网站上收集高质量图片及其复杂prompt，使用blip生成简单prompt，构建三元组数据集，最终收集57000+样本。
Adapter训练：

蒸馏LLM的理解推理能力，最小化简单prompt的embedding KL散度。
维持生图模型原有能力，采用去噪训练。
对齐简单prompt和复杂prompt的表征，最小化加权embedding的KL散度。

总结：SUR-Adapter通过学习LLM对简单prompt的扩写能力，实现细节丰富的生图结果。

整体总结

润色改写范式（代表：RPG）：优点是无需额外训练，但依赖于LLM的强大指令跟随和语义理解能力，且LLM指令设计复杂。
直接用表征范式（代表：LaVi-Bridge、ELLA、SUR-Adapter）：通过引入Adapter并进行训练，不需要设计LLM指令，出图效果稳定，但需要额外训练。

本质上，两种范式的区别在于交互媒介的不同：前者使用embedding，后者使用自然语言。以embedding为媒介更符合深度学习范式，而自然语言则在灵活性和可解释性方面更具优势。

热门推荐

航班退票手续费的法律规定与实务分析