2025年—Comfy UI 和 Stable Diffusion底层原理

发布于：2025-06-05 ⋅ 阅读:(718) ⋅ 点赞:(0)

工作流示例

我们现在用一个实例来走一遍AI生图的流程。比如说我们要让AI生成一个美丽的女孩。

我们把关键词"beautiful girl"输入给计算机的时候，计算机无法理解"beautiful girl"。人类语言与计算机语言需要转换，就像中英文交流需要翻译。这就需要一个翻译：CLIP。

CLIP

CLIP是Text Encoder(文本编码器）的一种，其作用是将文本信息（"beautiful girl"）数字化，根据模型训练经验识别特征(大眼睛、好身材等)。将人类语言翻译为计算机能理解的数字化描述(函数/向量)。CLIP使AI能捕捉文本含义，是SD工作流的关键组件。

Latent Space(潜空间)

刚才被CLIP编译完的数字化信息会进入到 Latent Space(潜空间)。我们所使用的调度器，采样器，CFG Scale都是在潜空间里进行工作的。

在 ComfyUI 中，Latent Space 是连接文本、模型和生成图像的桥梁。它的核心价值在于：

高效性：压缩表示降低计算成本。

灵活性：支持多种潜在空间操作和扩展。

模块化：与 ComfyUI 的节点式工作流完美契合，便于可视化调试。

我们这里说一下其节省计算成本的作用，例如我要生成一张512x512的图片。

在Latent Space(潜空间)内，数据会被压缩：

Latent Space(潜空间)中有U-Net（作用是给图片去噪），其可以对随机种子生成噪声图进行引导。

到这一步，图片其实已经被生成出来了，只不过此时的图片是一张被压缩的，数字化的（一堆向量和参数）的图片，我们人类还无法看懂。

我们需要解码器对图片进行解压，解码器的作用是将计算机数据转变为人类可视图像

以上就是文生图的大致工作流程，下图为Comfy UI的工作流节点