效果炸裂！文生图再升级，支持多对象个性化图片生成！开源！

创作时间:

2025-01-22 21:17:22

作者:

@小白创作中心

效果炸裂！文生图再升级，支持多对象个性化图片生成！开源！

MuDI（Multi-subject Personalization for Decoupled Identities）是一个创新的文生图框架，它通过解耦多个对象的身份信息，实现了高质量的个性化图像生成。该框架由韩国科学技术院（KAIST）的研究团队开发，已经在GitHub上开源，为AI图像生成领域带来了新的突破。

MuDI框架的核心功能

MuDI框架的主要目标是解决多对象个性化文本到图像模型中常见的身份混合问题。通过有效地将多个对象的身份解耦，MuDI能够生成高质量的个性化图像，避免不同对象的属性混合。

如上图所示，我们可以将不同品种的狗标记为 D1 - D9, 同样的将猫标记为C1-C2，再利用文生图模型即可生成下面的自定义组合结果：

MuDI框架的关键技术

MuDI框架采用了多项关键技术来实现其功能：

分割对象数据增强：使用Segment Anything Model (SAM)生成的分割主题进行训练和推理，以提高模型对不同对象的区分能力。
初始化生成过程：在推理过程中，使用从分割对象生成的均值偏移随机噪声来初始化样本生成，而不是从高斯噪声开始，这为模型提供了有关对象分离的有用提示。
描述性类别的使用：通过使用更具体的类别名称或在一般类别名称前添加详细描述来提高模型对相似对象的区分能力。
相对大小控制：MuDI提供了一种直观的方法来控制个性化主题之间的相对大小，通过在Seg-Mix中调整分割对象的大小来实现。
模块化定制：MuDI的Seg-Mix可以应用于模块化定制，允许独立微调每个对象的模型，然后在不需要从头开始训练的情况下进行有效合并。
LLM引导的推理初始化：使用大型语言模型（LLM）生成与给定提示对齐的布局，以在初始化中定位分割对象，从而增强渲染复杂主题间互动的能力。

MuDI框架的工作流程

数据预处理：利用SAM + OWLv2（开放词汇的物体检测算法）获取例如 “robot toy” 和对应的一系列不同的mask。
训练过程：通过随机放置分割好的多个对象，以及调整对象在图片的大小，来增强训练数据，并训练一个扩散模型（上面的数据增强方案称为：Seg-Mix）。
推理阶段：初始化生成过程是由分割后的对象创造的mean-shifted noise，利用噪声+标记不同对象的prompt （这里标注的V1和V2）输入到模型即可得到解偶不同身份信息的图像结果。