问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI画作评审系统取得新突破,三种技术路径实现美感量化

创作时间:
2025-01-21 22:57:33
作者:
@小白创作中心

AI画作评审系统取得新突破,三种技术路径实现美感量化

2022年,一份由生成式人工智能(Generative AI)技术产出的画作,获得了美国科罗拉多州美术博览会的第一名,一度震惊全世界;而AI生成式画作之品质,精美到挑战真人的审美观和评价,造成了对艺术界和科技界的冲击。

因此,AI工程师和美工设计师应共同探讨AI如何解析、学习画作并产生画作,并通过不断反复训练,来找到AI如何评定画作美感的方法和思维。使AI画作在精进品质之余,其审美观更接近真实世界的观点,并提高AI审美的客观公正性。

技术发展背景

在AI自动绘图、AI合成图片进入成熟发展之际,人们开始对AI绘图和合成图片的品质加以重视,不但要确保图片的原创性和真实性,还要分析AI图片是否能达到品质上的需求和期望。

因此,AI工程师就尝试以较为知名的精美画作为训练素材,让AI数据集了解「这是一幅精美的画作」,作为评价画作是否具有美感的基准。例如像GPT类型的数据库,可通过「微调(Fine-tuning)」的方式,让数据库的训练能够专精化,再加上人工标注有哪些具有美感的图案或关键字,让图像分析和解读更为精准。

技术介绍与应用现况

以电脑视觉为基础,并通过AI算法来「审美」的方式,有很多种不同的方法与相关研究,兹节录如下:

  • OpenAI CLIP:利用人工标注图片的方式密集训练数据,并将受测图片与数据集加以比对,由数据集挑出较接近受测图片描述的关键字结果;此一技术可进一步发展为图片评分机制,通过让系统分析后打分数,来评定图片的品质和美感(Suresh, 2023)。


图1:OpenAI CLIP图片评分机制与分数对照图
资料来源:Suresh, 2023年

  • MUSIQ:由Google研究团队所开发出来,针对画质、美学含量(例:构图、光影)、技术含量(例:是否出现模糊、杂音)三种指标评分;该系统利用一张图片,依据不同长宽比例加以分割(例如56、45、3*4比例),在将不同比例的子像素重叠比对,来评定图片构图、光影、杂音是否达到应有的品质需求(Ke & Yang, 2022)。

图2:MUSIQ图片评分机制和分数对照图
资料来源:Ke & Yang, 2022

ADSSFID-49:这个AI绘图引擎由一支来自中国大陆和澳门的联合研究团队,在《自然》期刊所发表(Chen, Shao, Zheng, Zhang, & Yin, 2024)。ADSSFID-49是参考Stable Diffusion、DALL-E、Midjourney等坊间常见的AI绘图引擎,同时自行训练了针对室内设计专精化的AIDDM数据集而成;该绘图引擎可输入不同风格的关键字(例:北欧风、日式、中式、美式),以及不同的房间陈设布局(例:客厅、卧室、浴室),绘图方式采用变更关键字的方式,相对于传统AI绘图引擎,减少了因为算图成果不如预期,导致需要整个重新绘图、砍掉重练的流程,并在满意度方面也宣称超越传统AI绘图引擎。


图3:ADSSFID-19与传统AI绘图引擎之输出对照
资料来源:Chen, Shao, Zheng, Zhang, & Yin, 2024年

图4:ADSSFID-19与传统AI绘图引擎之算图流程对照
资料来源:Chen, Shao, Zheng, Zhang, & Yin, 2024年

图 5 ADSSFID-19与传统AI绘图引擎之满意度比较
资料来源:Chen, Shao, Zheng, Zhang, & Yin, 2024年

未来展望/挑战

AI在影像分析上有卓越的效能和分析能力,可用于科学性的扫描和判读,适用于包含医学、物理、化学、生物学、电子学等必须讲求客观且不容丝毫模糊空间的精准分析领域。

但在讲求相对标准及容许范围较宽广、美学见解较为主观而复杂的「审美」概念中,AI可通过强大的学习和归纳能力,加上真人专家的细心投入深究,让AI变成具有美感和科技感兼具的「工艺品」;正好工艺就是科学和艺术的综合体,通过整合科学性分析和创意美感的剖析,让AI审美能成为协助真人评估美感的好帮手。

封面图片来源:123RF

参考资料来源:
2. Chen, J., Shao, Z., Zheng, X., Zhang, K., & Yin, Z. (2024, February 12).Integrating aesthetics and efficiency: AI-driven diffusion models for visually pleasing interior design generation.Retrieved from Nature:https://www.nature.com/articles/s41598-024-53318-3
4. Ke, J., & Yang, F. (2022, October 10).MUSIQ: Assessing Image Aesthetic and Technical Quality with Multi-scale Transformers.Retrieved from Google Research:https://blog.research.google/2022/10/musiq-assessing-image-aesthetic-and.html
6. Suresh, R. (2023, October 20).Image aesthetics quantification using OpenAI CLIP. Retrieved from Medium:https://medium.com/@sureshraghu0706/image-aesthetics-quantification-using-openai-clip-7bbb45e00147

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号