六大开源文生图AI模型大盘点

创作时间:

作者:

@小白创作中心

六大开源文生图AI模型大盘点

引用

来源

https://www.explinks.com/blog/top6-text-to-image-ai-models/

随着深度神经网络技术的不断进步，文本到图像模型在2010年代中期应运而生。在ChatGPT出现之前，OpenAI的DALL-E、Google Brain的Imagen和StabilityAI的Stable Diffusion等生成式AI模型就已经引起了广泛关注。这些模型因其能够生成类似真实照片和手绘艺术品的图像而备受瞩目。

在本文中，我们将介绍六大开源图像生成模型，这些模型在AI图像生成领域具有重要影响力。如果你需要在WebGL应用中为3D模型自动设置AI生成的纹理，可以考虑使用DreamTexture.js开发包，它提供了便捷的解决方案。

1. DeepFloyd IF

DeepFloyd IF是由DeepFloyd研究小组开发的开源文本到图像模型，得到了StabilityAI的支持。该模型结合了逼真的视觉效果和强大的语言理解能力。其模块化设计包括固定的文本编码器和三个互连的像素扩散模块。初始模块根据文本提示生成64×64像素的图像，后续超分辨率模块则逐步创建分辨率更高的图像，最终达到1024×1024像素。整个模型采用源自T5转换器的冻结文本编码器来提取文本嵌入，并通过UNet架构、交叉注意力和注意力池进行增强。在COCO数据集上，该模型取得了令人印象深刻的零样本FID分数6.66。

2. Stable Diffusion

Stable Diffusion是一个基于潜在扩散模型的文本到图像生成模型。它将自动编码器与扩散模型相结合，能够生成高度逼真的照片级图像。该模型已经在广泛的laion-aesthetics v2 5+数据集上进行了训练，并在512×512像素的分辨率下微调了超过595k步。这种训练方式使模型能够基于任何给定的文本输入生成高度逼真的图像。

Stable Diffusion的一个显著特点是其灵活性。它可以从各种潜在空间生成图像，而不仅仅是局限于一组固定的文本提示。这种灵活性加上对大型图像数据集的训练，使得模型能够更深入地理解图像特征，从而生成更逼真的图像。

3. Openjourney

Openjourney是一个免费的开源文本到图像模型，由领先的提示工程网站PromptHero开发。该模型在超过124k个Midjourney v4图像的数据集上进行训练，能够以Midjourney风格生成AI艺术作品。作为Stable Diffusion的微调版本，Openjourney在HuggingFace上仅次于Stable Diffusion，成为下载量第二高的文本到图像模型。

用户更倾向于使用Openjourney，因为它能够以最少的输入生成令人印象深刻的图像，并且适合作为微调的基础模型。

4. Dream Shaper

Dream Shaper V7是一个基于扩散模型架构构建的文本到图像生成模型，深受用户喜爱。该模型引入了LoRA支持，并在整体真实感方面进行了改进。它建立在版本6的基础上，增加了LoRA支持、整体样式改进以及更好的1024像素高度生成能力（尽管建议在使用此功能时小心）。

Dream Shaper能够生成具有噪声抵消的逼真图像，并通过booru标签增强动漫风格的生成。此外，该模型还提高了较低分辨率下的眼睛性能，作为早期版本的“修复”。3.32版“剪辑修复”的影响可能与3.31版有所不同，建议将其用于混音。它还涉及修复和修复。

5. Dreamlike Photoreal

Dreamlike Photoreal 2.0是一个基于稳定扩散1.5的真实感模型，由DreamlikeArt制作。该模型允许用户通过将照片合并到提示中来增强生成图像的真实感。为了获得最佳效果，建议使用非方形纵横比。对于肖像风格的照片，建议使用垂直纵横比，而水平纵横比更适合风景照片。

Dreamlike Photoreal模型是在768×768像素的图像上进行训练的，尽管它也可以有效处理更高分辨率（如768x1024px或1024x768px）。该模型在服务器级A100 GPU上运行，平均生成速度为4秒，性能超越8倍RTX 3090 GPU。它能够同时处理多达30个图像并同时生成多达4个图像，确保了高效的工作流程。该模型包括多种功能，如放大、自然语言编辑、面部增强、姿势、深度、草图复制等。