AIGC图像生成:继续探索技术与人文的交汇点
AIGC图像生成:继续探索技术与人文的交汇点
AIGC图像生成技术正以前所未有的速度发展,从最初的GANs生成阶段到如今的稳定扩散模型,这项技术已经在医学、自动化、金融等多个领域展现出巨大的应用潜力。然而,随着技术的进步,也带来了算法创新、生成结果真实性、三维合成精度等一系列挑战。本文将为您详细解析AIGC图像生成技术的发展历程、关键节点及其在图像领域的应用挑战。
AIGC图像生成技术演进的三个关键节点
在20世纪50年代,科学家们逐渐将重心转向图像处理技术和人工智能领域,探索计算机在图像生成方面的可能性。上世纪90年代末,生成式人工智能(AIGC)技术开始引入神经网络的深度学习技术,研究人员看到了其巨大的潜力,持续进行专项研究,推动了AIGC技术的不断发展。AIGC图像生成技术的演进可以划分为三个关键节点。
GANs生成阶段:显著提升图像生成效果
2014年,伊恩·古德费洛提出了生成对抗网络(GANs)的概念,通过引入判别模型,显著提升了图像生成的效果,为图像领域带来了更丰富多样的内容。随着AIGC图像建模技术的发展,谷歌研究团队通过BigGAN技术进一步优化了图像质量,使AIGC技术更加符合市场需求。同时,其他研究团队也提出了各种改进方法,丰富了AIGC图像技术的应用场景。
2018年,巴黎艺术团体展出了一幅使用人工智能创作的艺术品,展示了GAN技术在艺术创作领域的巨大潜力。从此,GAN的研究不再局限于实验室环境,而是成为了一项全球范围内备受关注和研究的先进技术。
大语言模型阶段:有效处理文本和图像的关联
在大型语言模型阶段,AIGC的文本生成技术得到了迅速发展。这一阶段主要以自然文本语言输入为基础,微软于2014年推出的自然语言处理系统——微软小冰系统,可以根据用户需求生成类似人类文章,为AIGC文本语义处理奠定了基础。
2017年,Vaswani等人引入了transformer架构,这一架构成为生成模型的支柱技术。2018年,OpenAI发布了GPT-1模型,通过无监督学习预训练,GPT-1可以生成连贯的人类类似文本,具有开创性的意义。随着技术的不断进步,多模态任务的融合也取得了显著进展。CLIP模型是联合视觉语言模型,通过转换器架构和视觉组件在文本和图像数据上训练,可以有效处理文本和图像之间的关联。目前市面上主流的AIGC图像软件,如Midjourney、DALL-E等应用都使用CLIP作为多模态大型语言模型。生成式预训练GPT-4是OpenAI的多模态大型语言模型,其指令不仅限于自然文本语言,还接收图像或文本与图像的组合输入,这一突破也推动了AIGC在图像领域的进一步发展。
稳定扩散模型:实现了更加实际的视觉输出
GAN模型在AI图像生成中的固有不稳定性限制了其扩展性和易生成相似样本。为了应对这一挑战,早期的研究中,尼科尔采用了GLIDE进行文本引导扩散,并结合UNet模型负责扩散学习的视觉部分。在这一基础上,OpenAI团队进一步发展了unCLIP模型,通过引入与CLIP图像编码器相反的模型,并通过额外的CLIP图像嵌入使图像嵌入回归图像本身,实现了更加实际的视觉输出。Google团队在DELL 2发布后展示了Imagen模型,利用预训练的文本模型创建嵌入,并通过Efficient U-net的超分辨率扩散模型提高输入图像的分辨率。这一方法能够更快速、有效地提升图像保真度,推动了文本到图像生成的新发展,并在图像生成领域取得了突破。
2024年2月,OpenAI公司在unCLIP模型的基础上进一步发展出了可以生成长达60秒视频的Sora扩散模型。其模型不仅优化了对输入文本的关键字提取能力,还可获取输入图像中的内容细节并对其扩展输出。最重要的是,该技术可理解和模拟现实世界,在3D一致性领域具有卓越的表现,让人工智能在图像领域的发展有了新的方向。
在图像领域的应用挑战
随着人工智能生成内容(AIGC)技术的不断发展,其在图像领域的应用也日益广泛。然而,这一新型技术也带来了一系列挑战,需要积极应对。
第一,AIGC绘图技术虽然能够通过关键词引导实现图像生成,但在图像生成的自动化方面仍存在挑战。在Midjourney和Stable Diffusion为代表的AI绘图软件上,尽管其在单模态及多模态输入指令的算法突破上已经有了一定的能力,但算法的创新和生成结果的真实性是需要进一步解决的问题。同时,在输出算法结果的角度上,相较于其前期版本的人像生成器模式,目前的AI绘画技术逐渐成熟和稳定,但如何提高生成图像的质量和多样性依旧是一大挑战。尽管最近OpenAI旗下的Sora探索到了模拟现实世界物理规则的边缘,其扩散技术已经触及模拟现实物理世界,但技术方面仍具有很多局限性,对涉及基本交互的物理特性仍有一定的交互限制。
第二,AIGC建模技术目前主要通过NeRF预训练模型实现文本或图像向三维合成的转换。加州伯克利研究团队提出了分数蒸馏采样(SDS)函数从扩散模型生成样本的方法并用在了Dream Fusion这一AI建模软件上。尽管该技术在产生合理的场景外观的基础上添加了额外的正则化器和优化策略来改进几何形状,但是过度饱和和过度平滑问题以及处理复杂结构输入时的准确性问题仍需解决。此外,如何提高三维合成的精度和效率也是需要关注的问题。
AIGC修图技术在市场上的应用非常广泛,例如中国市场中用户群体庞大的美图秀秀和醒图等修图软件。该类软件在滤镜风格和自动修图功能中加入AIGC技术,能够实现对照片的快速、精准处理。然而,算法的稳定性和修图结果的真实性是需要解决的问题。此外,如何提高修图结果的艺术性和创造性也是一大挑战。
第三,AIGC摄影技术能够为摄影师提供更智能、高效的图像处理服务,深度融合传统摄影。例如Fotor可以帮助摄影师快速将摄影图片转为预定的摄影风格;Try On Diffusion使用上传的用户照片和产品图像,即可完成虚拟试衣的效果图。商业摄影借助AI技术,在不同时间、地点拍摄后,可通过智能合成帮助摄影师实现理想或虚拟场景的创作。然而,如何提高图像清晰度和细节方面的潜力以及降低成本和提高效率仍需进一步探索。
第四,AIGC技术在艺术领域的强势加入对艺术创造主体性引发了挑战,但鉴于AIGC技术的核心是对人类及人类所处的真实世界的模仿,即虚拟中的虚拟,在新领域中的图像创新虽依旧保持着以人为本的技术理念,但仍需艺术创造者坚持艺术创造的灵感和作品中的灵韵,不要过度依赖AIGC技术,导致作品同质化。
第五,AIGC设计技术在设计领域中为设计师提供了更智能的解决方案。例如AIGC技术与时尚秀场的结合,在上海设计周提出数字秀场《烟火》中,以多维度的秀场形态展现时尚消费的可塑性。AIGC设计与时下IP结合,既能辅助创作者使用AI设计工具来帮助绘制人物形象,又能为设计师提出IP周边设计的新方向。然而,如何确保生成的设计符合用户需求和设计规范仍是一大挑战。此外,如何提高生成设计的创新性和独特性也是需要关注的问题。
整体而言AIGC技术在图像领域的应用虽然带来了新的可能性,但也面临着诸多挑战。未来需要不断创新算法和提高生成结果的真实性和适用性,同时关注伦理和社会影响,确保该技术在社会应用中的可持续发展。
继续探索技术与人文的交汇点
当前,AIGC已经成为图像领域的一股强大力量,引领着技术与艺术的融合。它不仅带来了革命性的创新,更为现代社会提供了全新的创作模式和想象空间。然而,随之而来的伦理问题也不容忽视。为了应对这一挑战,国家网信办等七部门于2023年发布了《生成式人工智能服务管理暂行办法》,为AIGC的合理使用划定了明确界限,确保技术的健康发展。
在这一背景下,北京互联网法院于2023年8月24日作出了AIGC图像著作权侵权案的一审判决。此案被誉为AIGC图像著作权的第一案,具有里程碑式的意义。法院认为,涉案的AIGC图像具备独创性,应受到著作权法的保护。这一判决为数字艺术家们提供了坚实的法律保障,标志着AIGC在图像领域的创作正式得到法律认可。
如今,AIGC在数据集、算法和图像生成能力方面取得了显著进步,为图像领域的生产创作带来了无限可能,拓展了创意空间,降低了艺术创作的门槛。同时,它也催生了新的商业模式,为行业带来了巨大的商业价值。
展望未来,AIGC将继续深入探索技术与人文的交汇点,推动图像领域的创新与突破。随着技术的不断发展,AIGC将与更多学科领域展开合作,为人类创造前所未有的机遇和体验。同时,我们也需要关注伦理和社会影响,确保AIGC技术在健康、可持续的道路上发展。
[本文为国家社科重大项目“视听精品推动中华优秀传统文化创造性转化和创新性发展”(22ZDA083)阶段性成果]