如何辨别AI生成的图像?这些特征帮你快速识别
如何辨别AI生成的图像?这些特征帮你快速识别
在数字化时代,AI艺术作品已悄然渗透到我们生活的方方面面。从获得各种奖项(尽管备受争议),到被用于Netflix电影,再到Facebook上那些可以以假乱真的婴儿、耶稣与蔬菜图像,AI艺术的影响力正在以前所未有的速度扩大,且这一趋势似乎没有放缓的迹象。
Credit: Stacey Zhu
杰森·艾伦 (Jason Allen) 的AI作品《空间歌剧院》(Théâtre D’opéra Spatial) 在美国科罗拉多州博览会的数字艺术类别中荣获第一名
Netflix动画《狗与男孩》(Dog and Boy)因融入AI技术引发争议
Facebook中的AI图像
随着图像生成技术的飞速发展,掌握辨别AI图像的能力变得愈发重要。这不仅能够帮助个人免受虚假照片欺骗,而且在不法之徒利用AI图像技术散布虚假信息时,也能够及时识破,避免严重后果。尽管开发AI图像生成器的企业正致力于研发为AI图像添加水印的技术,以期在源头上标明图像的非真实性,但这一目标尚未实现。目前,大多数在线传播的AI艺术作品仍缺乏明确的标签来提醒用户其真实性。因此,在虚假图片日益泛滥的网络环境中,非常有必要掌握一套行之有效的AI图像辨别技巧。
脱离现实的虚假AI图像(NBC News / Getty Images)
扭曲的手部结构
AI艺术生成工具的工作原理
当我们面对一件由AI艺术生成工具创作的作品时,很容易误以为这些工具只是简单地将数据库中的各种图像拼凑在一起,但实际上其背后的技术远比这复杂。
AI艺术生成器确实是通过大量的图像数据集进行训练的,这些数据集内容广泛,包括艺术作品和日常照片等。但关键在于,AI并不像人类那样“看”这些图像,它将图像分解成像素,分析每个像素的具体数值。例如,AI不会直接“看到”一个苹果,而是识别构成苹果形状和颜色的一组特定像素值。大量的训练帮助AI积累了足够的知识,使其能逐渐识别出这些像素值组合通常代表的物体。通过这样的方式,AI学会了如何渲染水果、动物、人物、以及不同的艺术风格、色彩搭配和情绪表达。
一些AI图像生成器,比如DALL-E,采用了“扩散”(diffusion)技术来学习和生成图像。生成训练从一张真实的图像开始,过程中逐步向图像中添加视觉噪声(静态噪声),直到整张图片变得毫无意义。这样做的目的是让AI理解每一步添加的噪声对图像结构的影响。接下来,AI会尝试逆向操作,即从纯粹的噪声出发,逐步还原出原始图像的近似版本。通过这种方式,AI训练出了从零开始创造图像的能力。
当然,以上解释是对AI艺术生成器工作原理的一个高度简化。我们需要认识到这些生成器是建立在庞大的关系数据库基础之上的,这使得AI能够在短时间内渲染出复杂的场景,但这种技术生成的图像也不免有些许古怪之处,正是这些古怪之处能够帮助我们区分AI生成的图像和真实的图像。
异常的身体结构
AI艺术作品日益精进,但并不完美。这些工具虽然能够创作出具有逼真光影效果的高质量图像,但在处理细微之处时仍显得力不从心。
最明显的一个例子是,AI艺术作品中的“人物”角色常常出现手指数量不对的情况。或许图像乍一看颇为逼真,但仔细观察手部,便会发现每只手可能有六、七或八根手指,又或是相反,只有三根手指,其中两根又似乎要合并成一根。总之,手指及手掌部位常常显得混乱。
手指明显异常的图像
虽然手指是AI最容易出错误的地方,但其他身体部位的问题也并不少见。任何涉及到人类身体细节的重复模式,都可能在AI艺术作品中出错。比如图像中人物的牙齿:有时牙齿数量过多,有时又扭曲得异常。虽然并非每个人都有完美的笑容,但AI所创作的牙齿往往过于夸张。甚至可能看到人物有多余肢体的情况比如衣服中隐藏着第三只手臂。
Vox曾发布过一期精彩的视频(Why AI art struggles with hands),探讨了为何AI难以处理这些重复性元素,归根结底,这是由于AI缺乏经验。这些工具虽然是在海量数据上训练的,但一旦遇到复杂的结构,比如手部,其现有的数据便无法为AI提供足够的背景信息,使其能够正确且真实地生成相关元素。AI不能真正理解手部的实际运作方式,只能依据其所见的手部信息进行模仿,从而导致了错误图像的产生。
多元素的混合
观察众多的AI艺术作品,可以发现一个奇特的现象:各种元素仿佛都交织在了一起且发生了变形。比如手指的扭曲、牙齿的变形、衣物与身体融合、眼睛处于头部非正常区域等。这种混合现象并不仅限于图像中的主体,图像中的其他元素也经常会产生不同程度的混合。以下面这张DALL-E生成的图片为例,棋盘呈现出波浪状,部分区域变形,棋子与棋盘融为一体看不清边界。画面右侧的女性牙齿紧紧挤在一起,而另一位女性的毛衣袖口则呈折叠状,她的手指也连在了一起。
根据提示语“生成一张一群朋友在玩棋盘游戏时互相微笑的图像” 生成的AI图像
古怪的文字呈现
AI能够轻松生成文本内容,但在图像中呈现文字时往往表现欠佳。多数情况下,融入了文字元素的AI艺术作品显得颇为突兀。它似乎在努力模仿现实世界中的标识,却未能精准复制,比如在试图表达“可口可乐”时所有字母却杂乱无章地交织在一起。另一些时候,文字的呈现给人一种杜撰了一种新语言或是在梦中辨识某种文字的超现实感。
不过,AI在这一领域的进步也非常迅速。DALL-E与Meta AI均能创作出带有“祝凯伦生日快乐”(HAPPY BIRTHDAY KAREN)字样的蛋糕图像,且整体效果并无明显瑕疵。但仔细看的话仍会发现Meta生成的图像中的“HAPPY”一词中的第二个“P”更像是个“Y”,而“KAREN”中的“A”则多了一条线。若我们明确指示AI按要求进行书写,这些图像中的文字效果会更好。但当AI自由发挥时,文字的呈现往往显得怪异,因此,如果图像的创作者没有意识到这一点并加以修正,那么图片中的文字呈现问题就会显现出来。
内容中的知识漏洞
AI并不具备真正的理解能力,它只是在已学习的数据关系中进行拼凑和创作。它不理解建筑,不会打网球,也不了解人类手部动作的自然规律。它只是从海量训练中提取信息,并尽力模仿和复制所提出的要求。如果仔细观察,便会发现AI艺术作品中存在的知识漏洞,这在内容复杂的图像中更为明显。