问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Stable Diffusion、WebUI、ComfyUI之间的关系详解

创作时间:
作者:
@小白创作中心

Stable Diffusion、WebUI、ComfyUI之间的关系详解

引用
CSDN
1.
https://m.blog.csdn.net/m0_71745258/article/details/142202690

01、Stable Diffusion是什么

Stable Diffusion是一种基于Transformer结构的扩散模型。它本质上是一个模型,而不是我们通常理解的WebUI。WebUI只是加载SD模型的一个框架,具体来说是一个页面可视化的框架。SD模型能够进行文生图、图生图等AI绘画操作。

02、Stable Diffusion的展现形式

目前,SD主要有以下四种展现形式:

  • Stable Diffusion WebUI框架
  • ComfyUI框架
  • Diffusers框架
  • SD.Next框架

需要明确的是,SD并不等同于WebUI,也不应该将SD与ComfyUI的关系混淆。上述三个框架都是用于加载SD模型,实现文生图、图生图等功能的。

WebUI和ComfyUI在本质上是相似的,但WebUI的集成度更高,它将SD实现过程隐藏起来,用户只需简单输入文字或上传图片即可生成图像。这种设计虽然使用便捷,但也存在一些弊端,如用户可控性较低,出图方式不易传播。

相比之下,ComfyUI采用节点式设计,像堆积木一样将任务模块化,这种设计便于传播、修改和团队协作。Diffusers和SD.Next框架的具体细节本文不做深入探讨,感兴趣的读者可以访问其官网了解更多信息。个人推荐使用ComfyUI。

03、Stable Diffusion原理

学习任何技术时,做好笔记和理解原理是非常重要的。对于SD的原理,虽然其具体算法可能较为复杂,但可以通过类比的方式帮助理解。

SD由三个主要部分组成:

  • 用于把文字和图像解析成向量的CLIP模块
  • 用于对图像优化和控制的U-Net模块
  • 用于空间转换的VAE模块

首先,计算机通过CLIP模块将自然语言转换为0和1的向量矩阵,即embedding过程。

然后,这些矩阵被输入到VAE模块中进行压缩处理,将图像压缩到一个非常小的空间中(隐空间)。接着,U-Net模块对图像进行优化处理,最后通过VAE解码成像素级图像展现出来。

U-Net模块是SD的核心,其基本功能是根据文字或图片的编码向量矩阵,在训练好的大模型中匹配最相似的矩阵。这个过程包括前向扩散和后向扩散两个阶段:前向扩散是在图片上逐渐添加噪点,使其成为一个随机的高斯分布噪声矩阵;后向扩散则是通过文字语义或图片相似度控制,逐步去除噪声,最终生成预想的图片。

这就是SD文生图、图生图的基本原理。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号