效果炸裂!文生图再升级,支持多对象个性化图片生成!开源!
效果炸裂!文生图再升级,支持多对象个性化图片生成!开源!
MuDI(Multi-subject Personalization for Decoupled Identities)是一个创新的文生图框架,它通过解耦多个对象的身份信息,实现了高质量的个性化图像生成。该框架由韩国科学技术院(KAIST)的研究团队开发,已经在GitHub上开源,为AI图像生成领域带来了新的突破。
MuDI框架的核心功能
MuDI框架的主要目标是解决多对象个性化文本到图像模型中常见的身份混合问题。通过有效地将多个对象的身份解耦,MuDI能够生成高质量的个性化图像,避免不同对象的属性混合。
如上图所示,我们可以将不同品种的狗标记为 D1 - D9, 同样的将猫标记为C1-C2,再利用 文生图模型即可生成下面的自定义组合结果:
MuDI框架的关键技术
MuDI框架采用了多项关键技术来实现其功能:
分割对象数据增强:使用Segment Anything Model (SAM)生成的分割主题进行训练和推理,以提高模型对不同对象的区分能力。
初始化生成过程:在推理过程中,使用从分割对象生成的均值偏移随机噪声来初始化样本生成,而不是从高斯噪声开始,这为模型提供了有关对象分离的有用提示。
描述性类别的使用:通过使用更具体的类别名称或在一般类别名称前添加详细描述来提高模型对相似对象的区分能力。
相对大小控制:MuDI提供了一种直观的方法来控制个性化主题之间的相对大小,通过在Seg-Mix中调整分割对象的大小来实现。
模块化定制:MuDI的Seg-Mix可以应用于模块化定制,允许独立微调每个对象的模型,然后在不需要从头开始训练的情况下进行有效合并。
LLM引导的推理初始化:使用大型语言模型(LLM)生成与给定提示对齐的布局,以在初始化中定位分割对象,从而增强渲染复杂主题间互动的能力。
相关研究
这篇论文提到了多个与多主题个性化文本到图像模型相关的研究领域和具体工作,包括但不限于:
- 文本到图像的个性化:
- Textual Inversion [13]:通过优化新文本嵌入来表示指定的主题。
- DreamBooth [39]:通过微调预训练模型的权重来绑定新概念与唯一标识符。
- 布局引导的多主题组合:
- Anydoor [8]:通过重新组合提取的特征在用户指定的场景图像中放置多个概念。
- Cones2 [26]:使用用户提供的边界框和交叉注意力图提供的空间引导来组合主题。
- ControlNet [53]:通过预设的空间条件(如关键姿势或草图)控制生成过程。
- 模块化定制:
- Custom Diffusion [23]:通过解决约束优化合并独立微调的模型。
- Mixof-Show [14]:引入梯度融合来合并单概念LoRAs。
- 文本到图像扩散模型:
- Stable Diffusion XL (SDXL) [34]:作为预训练文本到图像扩散模型使用。
- 图像编辑和生成:
- Segment Anything Model (SAM) [22]:用于自动获取分割主题。
- Open Vocabulary Object Detection Model (OWLv2) [28]:用于提取对象边界框。
MuDI框架的工作流程
数据预处理:利用SAM + OWLv2(开放词汇的物体检测算法)获取例如 “robot toy” 和对应的一系列不同的mask。
训练过程:通过随机放置分割好的多个对象,以及调整对象在图片的大小,来增强训练数据,并训练一个扩散模型 (上面的数据增强方案称为:Seg-Mix)。
推理阶段:初始化生成过程是由分割后的对象创造的mean-shifted noise,利用噪声+标记不同对象的prompt (这里标注的V1和V2)输入到模型即可得到解偶不同身份信息的图像结果。