AIGC:人工智能生成内容的技术原理与应用现状
AIGC:人工智能生成内容的技术原理与应用现状
AIGC(人工智能生成内容)是近年来人工智能领域的重要突破,它不仅改变了内容生产的方式,还为未来的互联网发展带来了新的可能性。本文将为您介绍AIGC的核心技术原理及其在消费端的应用现状。
为什么AI能力在2022年火了?
2022年,AIGC之所以能够爆发,主要是因为深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了AIGC技术变革。拥有通用性、基础性多模态、参数多、训练数据量大、生成内容高质稳定等特征的AIGC模型成为了自动化内容生产的“工厂”和“流水线”。
AIGC是什么?
AIGC(Artifical Intelligence Generated Content)狭义上是指利用人工智能自动生成内容,广义上可以看作是像人类一样具备生成创造能力的AI技术。国内通常用AIGC,国外常用生成式AI(Generative AI)的表述。过去的人工智能偏向于分析能力,比如各种个性化推荐算法;而现在人工智能正在生成新的东西,实现了人工智能从理解、感知世界到生成、创造世界的跃迁。
基础概念
生成算法
几种基础的生成算法模型:
- VAE(变分自动编码器):基于变分下界约束得到的Encoder-Decoder模型对。
- Flow-based models:基于流的生成模型,学习一个非线性双射转换,其将训练数据映射到另一个空间,在该空间上分布是可以因子化的整个模型架构依靠直接最大化log-likelihood来完成。
- GAN(生成对抗网络):由两个神经网络组成,一个生成器和一个判别器。生成器试图生成与真实数据相似的假数据,而判别器则试图区分真实数据和假数据。
- CLIP(对比语言-图像预训练模型):将图像和文本嵌入到同一空间中,使得相似的图像和文本在空间中距离更近。
- Transformer:使用自注意力机制来处理输入序列,能够捕捉长距离依赖关系。
- Diffusion(扩散模型):通过在噪声上执行随机游走来生成样本,扩散模型有两个过程,分别为扩散过程和逆扩散过程。扩散模型相对GAN来说具有优势,已经取代GAN成为最先进的图像生成器。
预训练模型
随着2018年谷歌发布基于Transformer机器学习方法的自然语言处理预训练模型BERT,人工智能领域进入了大炼模型参数的预训练模型时代。AI预训练模型,又称为大模型、基础模型,即基于大量数据(通常使用大规模自我监督学习)训练的、拥有大量参数的模型,可以适应广泛的下游任务。这些模型基于迁移学习的思想和深度学习的最新进展,以及大规模应用的计算机系统,展现了令人惊讶的涌现能力,并显著提高各种下游任务的性能。
多模态
2021年OpenAI开源跨模态深度学习模型CLIP,能够将文字和图像进行关联,并且关联的特征非常丰富。CLIP模型搜集了网络上超过40亿个“文本-图像”训练数据,这为后续AIGC尤其是输入文本生成图像/视频应用的落地奠定了基础。目前预训练模型已经从早期单一的NLP或CV模型,发展到现在语言文字、图形图像、音视频等多模态、跨模态模型。
AIGC消费端
AIGC应用现状概览:有望塑造数字内容生产与交互新范式,成为未来互联网的内容生成基础设施。AIGC在基于自然语言的文本、语音和图片生成领域初步令人满意,特别是知识类中短文,插画等高度风格化的图片创作,创作效果可以与有中级经验的创作者相匹敌;在视频和3D等媒介复杂度高的领域处于探索阶段,但成长很快。
AIGC将日益成为未来3D互联网的基础支撑
互联网向下一代技术升级和演进的重要方向是从“在线”走向“在场”,迈向3D互联网时代。AIGC将成为打造虚实集成世界的基石。AIGC为3D互联网带来的价值,既包括3D模型、场景、角色制作能效的提升,也能像AI作画那样,为创作者激发新的灵感。传统的3D制作需要耗费大量时间和人力成本。以2018年发售的游戏《荒野大镖客2》为例,为了打造约60平方公里的虚拟场景,先后有六百余名美术历经8年完成。
目前AIGC在3D模型领域还处于探索阶段,从基本原理和使用的模型来看,仍然以扩散模型为基础,基于文字-图片-3D路径进行处理。谷歌(DreamFusion)和英伟达(Magic3D)在这一领域较为领先,先后在2022年发布了自己的文字生成3D的AI模型。但从生成效果看,距离现在人工制作3D内容的平均质量还有距离;生成速度也未能尽如人意。
聊天机器人和数字人成为新的、更包容性的用户交互界面,不断拓展应用领域
聊天机器人:ChatGPT,对话式AIGC,在搜索、知识传播等领域有很大的应用空间。正如OpenAI的CEO Sam Altman在Twitter上说过,AIGC的最终目标是做一个类似于新时代的搜索引擎。目前的AIGC已经可以直面“搜索引擎”产品和“问答社区”。Google已经为ChatGPT带来的威胁发布“红色警报”,着手进行紧急应对。
数字人:
提升数字人的制作效能。如通过用户上传的照片、视频,通过AIGC生成写实类型的数字人。基于AIGC的3D数字人建模已经初步实现产品化,目前精度可以达到次时代游戏人物级别。如英伟达的omniverse avatar。
AIGC支撑了AI驱动数字人多模态交互中的识别感知和分析决策功能,使其更神似人。