问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI绘画的发展历史:从模糊猫脸到DALL-E

创作时间:
作者:
@小白创作中心

AI绘画的发展历史:从模糊猫脸到DALL-E

引用
腾讯
1.
https://new.qq.com/rain/a/20240606A06JA600

AI绘画技术近年来取得了突破性进展,从最初的模糊图像生成到如今能够根据文字描述创作出逼真艺术作品。本文将带你回顾AI绘画的发展历程,深入解析背后的关键技术原理。

一、20世纪70年代:AARON AI绘画问世

最早的AI绘画可以追溯到20世纪70年代,艺术家哈罗德·科恩(Harold Cohen)发明了AARON。AARON最大的特点就是通过机械臂输出作画,这套机器的背后是通过计算机程序围绕规则和算法驱动的。

AARON的绘画作品风格有点像小学课本上的插画,带有一定的抽象风格。到了90年代,"AARON"已经能够使用多种颜色进行绘画,并在三维空间中创作。AARON的迭代改进持续了几十年,直到今天它还在继续创作。

2006年,伦敦大学金史密斯学院的计算机创作学教授Colton开发了类似AARON的电脑绘画产品The Painting Fool。它可以观察照片,提取颜色信息,并使用现实中的绘画材料如油漆、粉彩或铅笔等进行创作。

二、2012年:模糊的猫脸

2012年,谷歌的吴恩达和Jeff Dean使用深度学习模型,基于大量猫脸图片训练出了一个能够生成模糊猫脸的模型。他们使用了1.6万个CPU核心和来自YouTube的一千万张猫脸图片,经过3天的训练,成功训练出了一个能够生成模糊猫脸的深度神经网络模型。

尽管生成的图像质量并不高,但这个实验标志着深度学习在图像生成领域的一个重大进步。它证明了深度学习模型能够学习到图像的复杂特征,并用于生成新的图像内容。

三、2014年:生成式对抗网络(GAN)

2014年,加拿大蒙特利尔大学的Ian Goodfellow等人提出了生成对抗网络(GAN)算法,为AI绘画带来了新的发展。GAN本质上是通过生成器和判别器的对抗过程来生成图像。

生成器的目标是生成能够骗过判别器的图像,而判别器的目标是准确区分真实图像和生成图像。当生成器生成的图像质量足够高,以至于判别器无法准确区分时,就达到了纳什均衡状态。

四、2015年:谷歌的Deep Dream

2015年,谷歌推出了"深梦"(Deep Dream)图像生成工具。Deep Dream通过反向传播技术,将输入图像优化为特定类别的图像,生成类似梦境般的迷幻图像。

五、2021年:OpenAI推出DALL-E

DALL-E模型的革命性意义在于实现了文字到图片的生成模式。用户可以输入文字描述,DALL-E就能生成相应的图片。DALL-E已经更新到了第三个版本,每个版本使用的模型都有所不同。

六、核心模型原理

CLIP(视觉语言预训练模型)

CLIP通过对比学习的方式,最大化文本和图像之间的关联关系。它使用了4亿个图像-文本对的数据集进行训练,通过对比损失函数来优化模型。

VAE(变分自编码器)

VAE解决了传统自动编码器(AE)的过拟合问题。通过引入正态分布,使得编码空间中的点能够表示相似的图像特征,从而在解码时生成更高质量的图像。


Diffusion(扩散模型)

扩散模型通过给图像添加噪声,然后逐步去除噪声来生成图像。这个过程涉及到一个U-Net网络,用于预测去除噪声的步骤。

七、主流AI绘画工具

Midjourney

Midjourney的核心模型是CLIP+GAN,它是一个闭源系统。Midjourney的出现极大地推动了AI绘画的普及,使得普通用户也能轻松创作高质量的艺术作品。

Stable Diffusion

Stable Diffusion的核心模型是CLIP+Diffusion+VAE,它是一个开源系统。Stable Diffusion的开源特性使得开发者能够基于其进行二次开发,进一步推动了AI绘画技术的发展。

从最早的机械臂绘画到如今的AI绘画,这项技术经历了数十年的发展。随着模型的不断优化和算力的提升,AI绘画正在以前所未有的速度发展,为艺术创作带来了新的可能性。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号