资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

2024年AI艺术创作领域发展大事件！

创作时间:

作者:

@小白创作中心

2024年AI艺术创作领域发展大事件！

引用

来源

https://www.cnblogs.com/JavaEdge/p/18732970

2024年，AI艺术创作领域迎来了前所未有的突破。从图像生成到视频、音频创作，开源模型和工具的快速发展正在改变艺术创作的未来。本文将回顾2024年的重大进展，并展望2025年的发展趋势。

1. 2024年重大发布

1.1 图像生成

自从Stable Diffusion（稳定扩散）最初发布以来，开源图像生成模型在文本生成图像、图像编辑和可控图像生成等方面迅速发展。如今，开源模型在许多任务上的表现已能与闭源模型媲美，甚至超越。

1.2 文本到图像生成

2024年，我们在扩散模型（Diffusion Models）的范式上迎来了巨大转变——从传统的U-Net结构转向Diffusion Transformer（DiT），并且在目标函数上从扩散过程切换到了流匹配（Flow Matching）。

扩散模型与高斯流匹配在数学上是等价的，而流匹配提供了一种新的网络输出参数化方式，与以往的扩散模型有所不同。

📖推荐阅读：如果你对流匹配及其与扩散模型的关系感兴趣，可以查看Google DeepMind的一篇精彩博客。

实战应用

Stable Diffusion 3：最早宣布采用DiT结构的模型
HunyuanDiT：首个真正开源的DiT结构模型
后续发布：AuraFlow、Flux.1、Stable Diffusion 3.5

在开源图像生成模型的发展历程中，Flux.1的发布堪称一个里程碑。该模型在多个基准测试中超越了Midjourney v6.0和DALL·E 3（高清版），成为新的开源标杆。

1.3 个性化与风格化

图像生成模型的进步也带来了个性化和可控生成技术的重大提升。

早在2022年8月，Textual Inversion（文本嵌入）和DreamBooth（梦幻训练）让我们能够向文本生成图像模型引入新概念，极大拓展了其可能性。这些技术催生了一系列改进，如LoRA（低秩自适应微调）等。

但微调模型的上限仍受基础模型质量的限制。Stable Diffusion XL（SDXL）的出现改变了这一现状，使个性化和可控生成迈上新台阶。

2024年的重大突破

零样本（Zero-shot）技术：仅需一张参考图像，无需训练，即可生成高质量肖像
IP Adapter FaceID
InstantID
Photomaker
可控图像生成：结合边缘检测 / 深度 / 姿态约束的图像生成技术进一步提升，如：
Instant Style
B-LoRA

📌2025年展望：

尽管DiT结构的模型如Flux和SD3.5表现出色，但尚未完全超越SDXL。这可能是因为我们对DiT结构中不同组件的语义作用仍缺乏深入理解。2025年或将成为突破这一瓶颈的关键之年，届时我们或许能充分挖掘DiT的潜力，开启下一代图像生成模型的新篇章。

1.4 视频生成

相比图像生成，AI视频生成仍有很长的路要走，但相较一年前，进步已经十分显著。

尽管我们更关注开源项目，但不得不承认，OpenAI的Sora极大地改变了人们对AI视频生成能力的期待。正如fofr在《AI视频正在迎来它的Stable Diffusion时刻》中提到的那样，Sora让所有人意识到了AI生成视频的真正可能性。

开源视频生成模型的崛起

CogVideoX
Mochi
Allegro
LTX Video
HunyuanVideo

AI视频生成面临的主要挑战包括：

✅运动质量✅连贯性✅一致性✅计算资源需求

尽管目前大多数开源视频模型仍然难以在普通硬件上运行，但2024年的进展令人瞩目，预计2025年将迎来更大的突破。

1.5 音频生成

过去一年，AI音频生成从简单音效发展到完整带歌词的歌曲，进步显著。但由于音频信号的复杂性及训练数据的稀缺，挑战依然存在。

2024年开源音频工具

OuteTTS&IndicParlerTTS：文本转语音（TTS）
Whisper Large v3 Turbo：语音识别（ASR）

2025年刚开始，音频领域就已迎来多项突破：

🎵Kokoro、LLasa TTS、OuteTTS 0.3（TTS）
🎶JASCO、YuE（音乐生成）

2. 2024年表现亮眼的创意工具

开源的魅力在于社区的共同探索、改进和创新。2024年，许多优秀的创意AI工具应运而生，其中包括：

Flux微调工具（由ostris开发）
Face to All（结合InstantID和SDXL LoRA）
Flux风格塑形（光学错觉与风格迁移）
Diffusers Outpainting（无缝扩展图像）
Live Portrait & Face Poke（让静态人像动起来）
TRELLIS（高质量3D资产生成模型）
IC-Light（智能光照调整工具）

3. 2025年AI&艺术趋势展望

🔮2025年，开源将在视频、动态内容和音频模型方面迎头赶上，迎来更多跨模态的可能性。随着计算优化和量化技术的发展，我们可以期待开源视频模型的巨大飞跃。

4. 强势开局——2025年1月25日的开源发布

YuE（全曲AI音乐生成模型，媲美闭源模型）
Hunyuan 3D-2、SPAR3D、DiffSplat（3D生成新星）
Lumina-Image 2.0（2B参数图像生成模型，挑战Flux.1）
ComfyUI-to-Gradio教程（将ComfyUI工作流转换为Gradio应用）

热门推荐

原创《西游记》成就了六小龄童，但也因此被束缚

ChatGPT等模型疯狂训练，最快2026年消耗尽公开文本数据

内经掌门人王洪图：如何将《黄帝内经》的古智慧应用于现代临床？

数学教学中的问题解决能力培养与评估

抑郁症无法开导怎么办？如何寻求专业帮助来克服抑郁情绪？

成都博物馆“中国传统财富文化展”：揭示祈财文化发展脉络

六小龄童：我这辈子最正确的决定，就是娶了《西游记》的场记为妻

释放一下心情

为梦想奋斗的励志诗句

第三视角下的《大江大河》全景解析

广州最受欢迎的五款早茶特色美食，当地人必点，看看你都吃过吗？

WTO框架下经济全球化的多维度研究

五眼看世界：超越名利轮回，达到心幻慈悲

房产税如何计算？详解房产税计算公式及应纳税额计算方法

紧急提醒！这些东西不能带！乘火车禁止、限量携带物自查清单

如何辨别和选择优质的个股？区分个股时需要考虑哪些市场因素？

宜春：打造综合交通运输体系 2198个建制村实现通客车（或公交车）

2025年高考各省用什么卷子？附全国各省用卷+试卷结构情况

自热米饭的真相：15分钟即可熟，这样吃真的可靠吗？

年轻人越来越信“玄学”对时尚产业有哪些影响？

古埃及传记文献研究

米兰德比：AC米兰与国际米兰1-1战平的激情对决

国庆手抄报主题有哪些？国庆手抄报主题大放送：创意无限，让你的手抄报脱颖而出!!

自然对数ln的读音、性质及其广泛应用解析

雅思考试在申请美国学校中的作用和要求

雅思考试的四大用途：留学、移民、求职与个人能力提升