问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

SDXL和SD的10大区别!你知道几个?

创作时间:
作者:
@小白创作中心

SDXL和SD的10大区别!你知道几个?

引用
CSDN
1.
https://blog.csdn.net/m0_64365896/article/details/145276036

Stable Diffusion XL(SDXL)和Stable Diffusion(SD)是当前AI绘画领域的重要模型。本文将从模型参数、语义理解能力、训练数据库等多个维度,对比分析SDXL和SD(主要指SD1.5及其微调版本)之间的10个主要区别。

1. 模型参数规模

SDXL的基础模型使用了Unet架构,包含了26亿(2.6B)个参数,远超SD1.5的8600万(860M)参数量,参数规模提升了超过三倍。

2. 语义理解能力

SDXL采用了两个CLIP模型的组合策略,包括OpenClip最大的模型ViT-G/14和SD v1中使用的CLIP ViT-L。这种设计既保证了对旧提示词的兼容性,又显著提升了模型的语言理解能力。

3. 训练数据库规模

SDXL的一个重要改进是能够利用更低分辨率的图片进行训练。由于将图片尺寸作为指导参数,SDXL可以使用分辨率小于256x256的图片,这使得训练数据库的图片数量大幅增加。下图展示了不同分辨率图片的分布情况,其中黑色框区域表示分辨率小于256x256的图片,占比高达39%。

4. 图片生成范围

得益于前面提到的三大优势,SDXL能够生成种类更加丰富、质量更高的图片。

5. 生成流程优化

SDXL采用了两阶段生成策略:首先使用基础模型(Base Model)生成初步图像,然后使用细化模型(Refiner Model)进一步提升细节表现。当然,仅使用SDXL的基础模型进行绘图也是可行的。

6. 支持的分辨率

SDXL支持多种原生分辨率,包括768 x 1344(竖屏,9:16)、915 x 1144(肖像,4:5)、1024 x 1024(方形,1:1)、1182 x 886(横屏照片,4:3)、1254 x 836(横屏风景,3:2)、1365 x 768(宽屏,16:9)、1564 x 670(电影宽屏,21:9)。这些分辨率下的表现与1024x1024的表现基本相当,而SD1.5不具备这种能力。

7. 文本生成能力

SDXL可以直接在图片中生成英文文本,这使得它在海报设计等需要在图片中添加文字的工作中具有优势。

8. 风格模拟能力

由于参数规模更大、语义理解能力更强,SDXL在学习特定风格方面表现出色。从下图可以直观感受到其风格模拟能力的提升。

9. 反向提示词使用

在使用SD模型时,通常需要在反向提示词中添加很多负面关键词来提升生成质量。但在SDXL中,过多的负向提示词反而会降低图片生成质量,例如”worst quality”和”bad quality”之类的反向提示词在SDXL中是完全不必要的。

10. 长文本理解能力

SDXL能够更好地理解较长的文本描述,即使输入较长的描述,也能生成相应的高质量图片。例如,提示词”一个年轻的妈妈正在跟她12岁的孩子说话,电影风格”可以被很好地理解和实现。

通过以上对比分析,可以看出SDXL在多个方面都对SD进行了显著改进,特别是在模型规模、语义理解、生成能力和分辨率支持等方面。这些改进使得SDXL在AI绘画领域具有更强的竞争力和应用潜力。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号