AI 绘画简史:从机械臂到梦境创造者的传奇
AI 绘画简史:从机械臂到梦境创造者的传奇
从1970年代的机械臂绘画到2023年的可控生成模型,AI绘画技术经历了数十年的发展,逐渐从简单的图像生成演变为能够创作出具有艺术价值的作品。本文将带你回顾AI绘画技术的发展历程,见证这一技术从诞生到成熟的每一个重要时刻。
1970s:机械臂的浪漫 — AARON 项目
在70年代,一位艺术家,哈罗德·科恩(Harold Cohen,加利福尼亚大学圣地亚哥分校的教授)就开始打造电脑程序”AARON"进行绘画创作。与当下AI绘画输出数字作品有所不同,AARON是真的去控制一个机械臂来作画的。Harold对AARON的改进一直持续了几十年,直到他离世。在80年代的时候,ARRON"掌握"了三维物体的绘制;90年代时,AARON能够使用多种颜色进行绘画,据称直到今天,ARRON仍然在创作。
2012 年:首次揭幕 — Google 的 "猫脸革命"
在2012年,Google两位大名鼎鼎的AI大神,吴恩达和Jeff Dean进行了一场空前的试验,联手使用1.6万个CPU训练了一个当时世界上最大的深度学习网络,用来指导计算机画出猫脸图片。当时他们使用了来自YouTube的1000万个猫脸图片,1.6万个CPU整整训练了3天,最终得到的模型,令人振奋地可以生成一个非常模糊的猫脸。
2014 年:对抗与生成 — GAN 网络的冒险
在2014年,AI学术界提出了一个非常重要的深度学习模型,这就是大名鼎鼎的对抗生成网络GAN(Generative Adversarial Network, GAN)。正如其名字"对抗生成"这个深度学习模型的核心理念是让两个内部程序"生成器(generator)"和"判别器(discriminator)"互相PK平衡之后得到结果。
论文地址:https://arxiv.org/abs/1406.2661
2015 年:梦境开端 — Deep Dream 的异想世界
2015年11月,《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》论文发表,是扩散模型的开山之作,奠定了扩散模型的理论基础和基本框架。
论文地址:https://arxiv.org/abs/1503.03585
同一年,Google发布了一个图像工具深梦(DeepDream)。Google通过DeepDream,将代码编织成梦。它提供了一窥AI的"梦境"的难得机会,而这些"梦境"画作,实现了与人类观众的首次对话。
深梦发布了一系列画作,一时吸引了很多眼球。谷歌甚至为这个深梦的作品策划了一场画展。
画展地址:https://deepdreamgenerator.com/
2017 年:初识简约 — Google 的 "sketch-rnn"
艺术的极简,有时比复杂更难。Google的sketch-rnn,以最简的笔触,演绎了日常物体背后的深刻哲思。
在David Ha与Douglas Eck合作的论文《A Neural Representation of Sketch Drawings》中,研究者设计了一个名为"sketch-rnn"的生成式RNN,它能够用简单的笔触描绘出日常物体,系统旨在训练机器如何像人类一样提炼事物的抽象概念。
研究者在一个手绘sketches数据集中进行训练,控制提笔落笔的时间及方向,进而创造一个具有可观前景的应用:不仅可以激发艺术家迸发艺术灵感,还能教授学生绘画的基本技巧。
2017 年:创新风潮 — Facebook 的 CAN 网络
这一年,Facebook在艺术与技术间架起了一座桥梁。CAN网络首次不再模仿,而是创造,引领着AI向着艺术家的身份更进一步。
2017年7月,Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方合作得到的新模型,号称创造性对抗网络(CAN, Creative Adversarial Networks)。
从作品集可以看出,这个创造性对抗网络CAN在尝试输出一些像是艺术家作品的图画,它们是独一无二的,而不是现存艺术作品的仿品。
2019 年 & 2020 年:扩散模型之光
基于梯度估计的生成模型和DDPM的诞生,标志着AI绘画技术的一个突破。这种新的画布,让AI的创作变得更加精细而充满无限可能。
2019年7月:《Generative Modeling by Estimating Gradients of the Data Distribution》论文发表。这是Nips 2019的Oral论文,一作是清华、斯坦福毕业的宋飏博士。这篇工作提出了基于"score"的生成式模型,和扩散模型有着千丝万缕的联系。
论文地址:https://arxiv.org/abs/1907.05600v3
2020年6月:加州伯克利大学提出了DDPM模型。如今生成扩散模型的大火,则是始于2020年所提出的DDPM(Denoising Diffusion Probabilistic Model),虽然也用了"扩散模型"这个名字,但事实上除了采样过程的形式有一定的相似之外,DDPM与传统基于朗之万方程采样的扩散模型可以说完全不一样,这完全是一个新的起点、新的篇章。
论文地址:https://arxiv.org/abs/2006.11239
2020年11月:(Score-Based Generative Modeling through Stochastic Differential Equations》论文发表。该论文构建了一个相当一般化的生成扩散模型理论框架,将DDPM、SDE、ODE等诸多结果联系了起来,也是扩散模型的奠基论文之一,第一作者为宋飏博士。
论文提出了一个随机微分方程(SDE),通过缓慢注入噪声,将复杂的数据分布平滑地转换为已知的先验分布,以及一个相应的反向时间SDE,通过缓慢去除噪声将先验分布转换回数据分布。
论文地址:https://arxiv.org/abs/2011.13456v2
2021 年:触摸现实 — OpenAI 的 CLIP 与微软的 LoRA
CLIP的出现使AI的图像与文字理解迈上了新台阶,而LoRA的出现,则让这场盛宴的参与者们变得更加庞大。
OpenAI团队,在2021年1月开源了新的深度学习模型CLIP(Contrastive Language-lmage Pre-Training)。这是一个当今最先进的图像分类人工智能。
CLIP训练AI同时做了两个事情,一个是自然语言理解,一个是计算机视觉分析。它被设计成一个有特定用途的能力强大的工具,那就是做通用的图像分类,CLIP可以决定图像和文字提示的对应程度,比如把猫的图像和"猫"这个词完全匹配起来。
论文地址:https://openai.com/research/clip
2021年6月:微软发布LoRA论文。LORA,英文全称Low-Rank Adaptation of Large Language Models,直译为大语言模型的低阶适应,这是微软的研究人员为了解决大语言模型微调而开发的一项技术。
比如,GPT-3有1750亿参数,为了让它能干特定领域的活儿,需要做微调,但是如果直接对GPT-3做微调,成本太高太麻烦了。
LoRA的做法是,冻结预训练好的模型权重参数,然后在每个Transformer(Transforme就是GPT的那个T)块里注入可训练的层,由于不需要对模型的权重参数重新计算梯度,所以,大大减少了需要训练的计算量。
论文地址:https://arxiv.org/abs/2106.09685
2022 年:光影交响 — Disco Diffusion 与 MidJourney 的诗意空间
Disco Diffusion让抽象图形变得触手可及,而MidJourney的诗意探险,则彻底打开了AI在艺术上的想象之门。
2022年3月:Disco Diffusion发布,正是第一个基于CLIP+Diffusion模型的实用化Al绘画产品,擅长于大场景的抽象图形。
2022年7月:MidJourney V3上线。Midjourney自发布以来迭代速度非常快。2022年3月V1发布时仍参考了很多的开源模型;4月、7月和11月分别发布了V2、V3和V4,迭代出了自己的模型优势。V4补充了生物、地点等信息;增强了对细节的识别能力及多物体/多人物的场景塑造能力。总之,每次迭代都是产品功能的飞跃。
图为《太空歌剧院》。2022年8月,美国科罗拉多州举办艺术博览会,《太空歌剧院》获得数字艺术类别冠军,此作品是游戏设计师Jason Allen使用Midjourney生成。
2022年8月:Stable Diffusion上线,并开源。Stable Diffusion于2022年8月推出,以开源底层代码的形式在HuggingFace/Github公开发布。"将AIGC交到数十亿人手中,实现技术民主化",用户可以在其代码的基础上运行或修改,制作自己的应用程序,向终端用户提供服务。作为稀缺的开源模型,同时有着良好的性能,公测后就受到了广泛的关注和好评,积累了大量用户。截止2022年10月,Stable Diffusion已经有超过20万开发者下载和获得授权,各渠道累计日活用户超过1000万。团队开发的付费在线平台DreamStudio目前获得了超过150万用户,生成超过1.7亿图片。
2023 年:掌控画笔 — ControlNet 与 SAM 的卓越视域
ControlNet与Segment Anything (SAM)的登场,不仅增强了AI创作的精确性、可控性,还拉近了AI与艺术的距离。
2023年2月:发布ControiNet(斯坦福张吕敏)。可控生成模式的出现,意味着AIGC走人了直立行走的时代。对于生成式模型,可控性一直是被人最为诟病的大问题之一。历史的方案更多是使用大力出奇迹的方式,不断地尝试prompt的线性组合+大批生产图片,给足了使用者空间的同时,也带来了大量的不足之处。但是ControlNet的出现意味着AI创作进入了直立行走的时代。
2023年4月:Meta发布图像分割Segment Anything。正如名字"Segment Anything"一样,该模型可以用于分割图像中的一切对象,包括训练数据中没有的内容。交互方面,SAM可使用点击、框选、文字等各种输入提示(prompt),指定要在图像中分割的内容,这也意味着,用于自然语言处理的Prompt模式也开始被应用在计算机视觉领域。对于视频中物体,SAM也能准确识别并快速标记物品的种类、名字、大小,并自动用ID为这些物品进行记录和分类。
2023年6月:DragGAN开源。DragGAN是一款基于生成对抗网络(GANs)技术的图片编辑项目。追根潮源,其实还是NVIDIA的StyleGAN的衍生项目。
DragGAN由两个主要部分组成:第一部分是基于特征的运动监督,通过控制起始点向目标点运动,实现图像的变形;
第二部分是新的点跟踪方法,即最近邻检索,通过在相同的特征空间上进行点跟踪,提高了效率,并避免了累计误差损失。
简单来说,它能够让你轻松掌控图片中的人物和动物,通过拖拽控制点和目标点来调整他们的位置、形状、姿势等等。
2023年6月:DragDiffusion论文发布。精确和可控的图像编辑是一项具有挑战性的任务,已经引起了极大的关注。最近,DragGAN实现了一个基于点的交互式图像编辑框架,并以像素级的精度实现了令人印象深刻的编辑结果。然而,由于该方法是基于生成对抗网络(GAN),其通用性受到预先训练好的GAN模型能力的上限限制。在这项工作中,我们将这样一个编辑框架扩展到扩散模型,并提出DragDiffusion。通过利用大规模预训练的扩散模型,我们大大改善了基于点的交互式编辑在现实世界场景中的适用性。虽然大多数现有的基于扩散的图像编辑方法是在文本嵌入的基础上工作的,但DragDiffusion优化了扩散潜势,以实现精确的空间控制。虽然扩散模型以迭代的方式生成图像,但我们的经验表明,在一个单一步骤中优化扩散潜势就足以产生连贯的结果,使DragDiffusion能够有效地完成高质量的编辑。在各种具有挑战性的情况下(如多物体、不同的物体类别、各种风格等)进行的广泛实验证明了DragDiffusion的多功能性和通用性。
2023年9月:DALL•E 3发布。DALL•E3是OpenAl在2023年9月份发布的一个文生图模型。与上一代模型DALL•E 2最大的区别在于,它可以利用ChatGPT生成提示(prompt),然后让模型根据该提示生成图像。对于不擅长编写提示的普通人来说,这一改进大大提高了DALL•E 3的使用效率。
此外,与DALL•E2相比,DALL•E3生成的图质量也更高。
诞生,成长,现在的AI,逐渐从技术的边缘走到了艺术的中心。它所绘的每一幅画面,都是人类文明交织精神与物质的记录。今天的我们,已站在一个新的艺术世界的门槛上。
我们有多少故事,AI就能绘就多少画卷。从AARON的机械臂,到DALL•E 3的精神火花,AI正成为我们共同创造未来的伙伴。在这千变万化的世界中,唯一不变的,是那份探求艺术与科技结合的激情和毅力。
一个崭新的艺术纪元正在召唤。那么问题来了,你准备好与AI一同探索艺术的新领域了吗?可以给我们发私信聊聊你的畅想,告诉我们你对AI艺术的期待!
——"如果你要向星空探索,把握好画笔,因为树木的根在于风中,梦在AI的羽翼之下。"
本文原文来自CSDN