问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

2024年AI艺术创作领域发展大事件!

创作时间:
作者:
@小白创作中心

2024年AI艺术创作领域发展大事件!

引用
1
来源
1.
https://www.cnblogs.com/JavaEdge/p/18732970

2024年,AI艺术创作领域迎来了前所未有的突破。从图像生成到视频、音频创作,开源模型和工具的快速发展正在改变艺术创作的未来。本文将回顾2024年的重大进展,并展望2025年的发展趋势。

1. 2024年重大发布

1.1 图像生成

自从Stable Diffusion(稳定扩散)最初发布以来,开源图像生成模型在文本生成图像、图像编辑和可控图像生成等方面迅速发展。如今,开源模型在许多任务上的表现已能与闭源模型媲美,甚至超越。

1.2 文本到图像生成

2024年,我们在扩散模型(Diffusion Models)的范式上迎来了巨大转变——从传统的U-Net结构转向Diffusion Transformer(DiT),并且在目标函数上从扩散过程切换到了流匹配(Flow Matching)

扩散模型与高斯流匹配在数学上是等价的,而流匹配提供了一种新的网络输出参数化方式,与以往的扩散模型有所不同。

📖推荐阅读:如果你对流匹配及其与扩散模型的关系感兴趣,可以查看Google DeepMind的一篇精彩博客。

实战应用

  • Stable Diffusion 3:最早宣布采用DiT结构的模型
  • HunyuanDiT:首个真正开源的DiT结构模型
  • 后续发布:AuraFlow、Flux.1、Stable Diffusion 3.5

在开源图像生成模型的发展历程中,Flux.1的发布堪称一个里程碑。该模型在多个基准测试中超越了Midjourney v6.0和DALL·E 3(高清版),成为新的开源标杆。

1.3 个性化与风格化

图像生成模型的进步也带来了个性化和可控生成技术的重大提升。

早在2022年8月,Textual Inversion(文本嵌入)DreamBooth(梦幻训练)让我们能够向文本生成图像模型引入新概念,极大拓展了其可能性。这些技术催生了一系列改进,如LoRA(低秩自适应微调)等。

但微调模型的上限仍受基础模型质量的限制。Stable Diffusion XL(SDXL)的出现改变了这一现状,使个性化和可控生成迈上新台阶。

2024年的重大突破

  • 零样本(Zero-shot)技术:仅需一张参考图像,无需训练,即可生成高质量肖像
  • IP Adapter FaceID
  • InstantID
  • Photomaker
  • 可控图像生成:结合边缘检测 / 深度 / 姿态约束的图像生成技术进一步提升,如:
  • Instant Style
  • B-LoRA

📌2025年展望

尽管DiT结构的模型如Flux和SD3.5表现出色,但尚未完全超越SDXL。这可能是因为我们对DiT结构中不同组件的语义作用仍缺乏深入理解。2025年或将成为突破这一瓶颈的关键之年,届时我们或许能充分挖掘DiT的潜力,开启下一代图像生成模型的新篇章。

1.4 视频生成

相比图像生成,AI视频生成仍有很长的路要走,但相较一年前,进步已经十分显著。

尽管我们更关注开源项目,但不得不承认,OpenAI的Sora极大地改变了人们对AI视频生成能力的期待。正如fofr在《AI视频正在迎来它的Stable Diffusion时刻》中提到的那样,Sora让所有人意识到了AI生成视频的真正可能性。

开源视频生成模型的崛起

  • CogVideoX
  • Mochi
  • Allegro
  • LTX Video
  • HunyuanVideo

AI视频生成面临的主要挑战包括:

运动质量连贯性一致性计算资源需求

尽管目前大多数开源视频模型仍然难以在普通硬件上运行,但2024年的进展令人瞩目,预计2025年将迎来更大的突破

1.5 音频生成

过去一年,AI音频生成从简单音效发展到完整带歌词的歌曲,进步显著。但由于音频信号的复杂性及训练数据的稀缺,挑战依然存在。

2024年开源音频工具

  • OuteTTS&IndicParlerTTS:文本转语音(TTS)
  • Whisper Large v3 Turbo:语音识别(ASR)

2025年刚开始,音频领域就已迎来多项突破:

🎵Kokoro、LLasa TTS、OuteTTS 0.3(TTS)
🎶JASCO、YuE(音乐生成)

2. 2024年表现亮眼的创意工具

开源的魅力在于社区的共同探索、改进和创新。2024年,许多优秀的创意AI工具应运而生,其中包括:

  • Flux微调工具(由ostris开发)
  • Face to All(结合InstantID和SDXL LoRA)
  • Flux风格塑形(光学错觉与风格迁移)
  • Diffusers Outpainting(无缝扩展图像)
  • Live Portrait & Face Poke(让静态人像动起来)
  • TRELLIS(高质量3D资产生成模型)
  • IC-Light(智能光照调整工具)

3. 2025年AI&艺术趋势展望

🔮2025年,开源将在视频、动态内容和音频模型方面迎头赶上,迎来更多跨模态的可能性。随着计算优化和量化技术的发展,我们可以期待开源视频模型的巨大飞跃。

4. 强势开局——2025年1月25日的开源发布

  • YuE(全曲AI音乐生成模型,媲美闭源模型)
  • Hunyuan 3D-2、SPAR3D、DiffSplat(3D生成新星)
  • Lumina-Image 2.0(2B参数图像生成模型,挑战Flux.1)
  • ComfyUI-to-Gradio教程(将ComfyUI工作流转换为Gradio应用)
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号