一文尽览图像抠图(Matting)主流开源模型与数据集
一文尽览图像抠图(Matting)主流开源模型与数据集
随着图像处理技术的不断发展,图像抠图(Matting)技术在图像合成、特效制作和视频编辑等领域发挥着越来越重要的作用。本文将为您详细介绍当前主流的开源模型和数据集,帮助开发者快速了解和应用这些先进的技术。
Deep Image Matting
针对传统图像抠图算法在处理前景和背景颜色相似或纹理复杂时表现不佳的问题,Deep Image Matting 提出了以下创新:
- 一个深度卷积 encoder-decoder 网络,该网络将图像补丁和相应的 trimap 作为输入,预测图像的 alpha matte。
- 一个小规模的卷积网络,用于进一步优化第一个网络的 alpha 预测,使其更加准确且边缘更清晰。
此外,研究团队还创建了一个大规模的图像抠图数据集,包含 49,300 张训练图像和 1,000 张测试图像。
- 参考论文:Deep Image Matting
- 开源地址:Deep Image Matting(数据需要通过邮箱 [bprice@adobe.com] 联系获得)
Background Matting
Background Matting 是华盛顿大学提出的一种背景 matting 技术,该技术可以在自然环境中随意捕获高质量的前景和 alpha matte。其主要创新包括:
首个使用随意捕获背景的无三元图(trimap-free)自动抠图算法。
一种新的抠图架构(上下文切换模块),可在输入提示中进行选择。
一种自监督对抗训练方法,以改善真实图像上的抠图效果。
在多种输入(手持设备、固定摄像头、室内、室外)上与多种竞争方法进行实验比较,展示了该方法的相对成功。
开源地址:Background Matting
BackgroundMattingV2
BackgroundMattingV2 是 Background Matting 的升级版,由华盛顿大学提出的一种实时、高分辨率的背景替换技术,它可以在 4K 30fps 和 HD 60fps 下运行。此外,研究团队还提供了两个大型视频和图像抠图数据集:VideoMatte240K 和 PhotoMatte13K/85。
VideoMatte240K 收集了 484 个高分辨率的绿幕视频,其中 384 个视频为 4K 分辨率,100 个为 HD 分辨率,并通过 Adobe After Effects 生成了总共 240,709 帧单独的 alpha 遮罩和前景。
PhotoMatte13K/85 包含 13665 张用摄影棚质量的灯光和摄像机在绿屏前拍摄的图像集合,以及通过色度抠像(chromakey)算法提取的抠图,并进行手动调整与错误修复。另外收集一套 85 张质量类似的抠图作为测试集。
开源地址:BackgroundMattingV2(包含数据下载)
RVM
RVM(Robust Video Matting)是专为稳定人物视频抠像设计的模型。与现有神经网络将每一帧作为单独图片处理不同,RVM 使用循环神经网络,在处理视频流时具有时间记忆能力。RVM 可在任意视频上实现实时高清抠像,在 Nvidia GTX 1080Ti 上实现 4K 76FPS 和 HD 104FPS。
PaddleSeg
PaddleSeg 是基于飞桨 PaddlePaddle 开发的端到端图像分割开发套件,涵盖了高精度和轻量级等不同方向的大量高质量分割模型。通过模块化的设计,提供了配置化驱动和 API 调用两种应用方式,帮助开发者更便捷地完成从训练到部署的全流程图像分割应用。PaddleSeg 提供语义分割、交互式分割、全景分割、Matting 四大图像分割能力,广泛应用在自动驾驶、医疗、质检、巡检、娱乐等场景。
- 开源地址:PaddleSeg
MODNet
MODNet 是一个仅需 RGB 图片输入的实时人像抠图模型,包含两项创新技术:用于高效语义特征融合的 e-ASPP 模块,以及自监督的 SOC 策略,以使 MODNet 能够泛化到新的数据领域。此外,研究团队还提出一个新的基准测试——PPM,具有以下特点:
- 精细标注:所有图像都经过仔细标注和审核,确保高质量标签。
- 自然背景:所有图像均使用原始背景,没有进行背景替换。
- 丰富多样性:图像覆盖全身或半身,且包含各种不同的姿势。
- 高分辨率:图像分辨率介于 1080p 到 4K 之间,保证了高质量的视觉效果。
- 参考论文:MODNet: Trimap-Free Portrait Matting in Real Time
- 开源地址:MODNet
- 下载地址:PPM
MAGICK
MAGICK 数据集包含 150,000 个生成的物体及其准确的 alpha matte。涵盖了各种物体,并且具有高质量的 matte,包含头发、毛发、细小部分和透明度等细节。该数据集在训练 RGBA 生成、alpha-to-rgb 或自然图像抠图网络方面都有很大帮助。
- 参考论文:MAGICK: A Large-scale Captioned Dataset from Matting Generated Images using Chroma Keying
- 下载地址:MAGICK
matting_human_datasets
该数据集是由国内公司高质量标注的,包含 34427 张图像和对应的 matting 结果图。
RealWorldPortrait-636
RealWorldPortrait-636 数据集由 636 张精确标注的人像图片组成。
Distinctions-646
Distinction-646 数据集由 646 张前景图像及其手动标注的 alpha matte 组成。