什么是零样本学习
什么是零样本学习
人工智能(AI)模型,尤其是计算机视觉模型,依赖于高质量的标注数据来学习模式和真实世界表征,从而建立稳健的模型。然而,在现实世界中,获取此类数据是一项极具挑战性的任务。整理高质量的数据集需要大量的时间和精力,而且实际上不可能识别和整理一个领域内所有类别的数据。
借助新颖的架构、优化的训练技术和稳健的评估机制,从业人员可以解决复杂的业务问题,并提高人工智能系统的可靠性。
进入零样本学习(ZSL)。零样本学习(ZSL)使机器学习模型能够从它们在训练过程中从未见过的类别中识别对象,而不是仅仅依赖广泛的标注数据集,ZSL 利用从训练数据中学到的语义关系或属性等辅助信息,在已知类别和未知类别之间架起一座桥梁。
有了 ZSL,标记大量数据集的难度大大降低,而且 ML 模型不再需要经过耗时的训练过程来处理以前未知的数据。
在本篇文章中,您将深入了解零点学习范式的意义,探索其架构,列出著名的 ZSL 模型,并讨论流行应用和关键挑战。
什么是零样本学习?
零样本学习是一种技术,可让预先训练好的模型预测先前未知数据的类别标签,即训练数据中不存在的数据样本。例如,尽管在训练过程中没有接触过兔子,但一个经过训练能对狮子和老虎进行分类的深度学习(DL)模型却能通过零样本学习准确地对兔子进行分类。这是通过利用与类别相关的语义关系或属性(如栖息地、皮肤类型、颜色等)来实现的,从而弥合已知类别与未知类别之间的差距。
零样本学习在计算机视觉(CV)和自然语言处理(NLP)等领域尤为重要,因为在这些领域中,获得标注数据集的机会有限。可以利用零样本学习模型对庞大的数据集进行标注,只需专业专家付出最少的努力即可标注特定领域的数据。例如,ZSL 可以帮助实现医疗图像注释自动化,从而提高诊断效率,或从未标明的医疗数据中学习复杂的 DNA 模式。
必须将零样本学习与单样本学习和小样本学习区分开来。在单样本学习中,每个未见类别都有一个样本。在小样本学习中,每个未见类别只有少量样本。模型从这些有限的数据中学习有关这些类别的信息,并利用这些信息预测未见样本的标签。
简单来说,Zero-shot Learning是那种即使没有见过某个类别的样本,也能预测出这个类别是什么的能力。One-shot Learning是Few-shot Learning的一种特殊情况,它只需要一个样本来识别一个新类别。而Few-shot Learning则是那种只需要几个样本来识别新类别的能力。
零样本学习的类型
有几种零样本学习技术可以应对特定的挑战。让我们来分析一下四种最常见的零样本学习方法。
基于属性的零样本学习
基于属性的 ZSL 包括使用标记数据的特定属性来训练分类模型。属性是指标签数据的各种特征,如颜色、形状、大小等。如果新类别与训练数据中的属性类别足够相似,ZSL 模型就能利用这些属性推断出新类别的标签。
基于语义嵌入的零样本学习
语义嵌入是语义空间中属性的向量表示,即与文本中单词、n-grams 和短语的含义或图像中形状、颜色和大小相关的信息。例如,图像或单词嵌入是一个高维向量,其中每个元素代表一个特定属性。Word2Vec、GloVe 和 BERT 等方法通常用于生成文本数据的语义嵌入。这些模型生成的高维向量中,每个元素都可以代表特定的语言属性或上下文。
零样本学习模型可以从标记数据中学习这些语义嵌入,并在训练过程中将它们与特定类别联系起来。训练完成后,这些模型就能将已知和未知类别投射到这个嵌入空间中。通过使用距离度量来测量嵌入之间的相似性,模型可以推断出未知数据的类别。
广义零样本学习(GZSL)
GZSL 扩展了传统的零样本学习技术,以模拟人类的识别能力。传统的 ZSL 只关注未知类别,而 GZSL 则不同,它在监督学习过程中对已知和未知类别进行模型训练。通过在已知类和未知类之间建立关系来训练 GZSL 模型,即利用已知类的语义属性将知识从已知类转移到未知类。领域适应是对这种方法的一种补充。
在这方面,领域适应是一种有用的迁移学习技术。它允许人工智能从业者通过转移语义信息,将预先训练好的模型重新用于包含未标记数据的不同数据集。研究人员 Pourpanah、Farhad 等人对 GZSL 方法进行了全面回顾。他们根据从已知类到未知类的知识转移和学习方式,将 GZSL 分成了两类:
基于嵌入的方法:通常基于注意力机制、自动编码器、图或双向学习。这些方法从训练集中已知类别的视觉特征中学习较低层次的语义表征,并通过测量未知样本与已知类别表征的相似度对其进行分类。
基于生成的方法:这些技术通常包括生成对抗网络(GAN)和变异自动编码器(VAE)。它们从已知类别特征中学习视觉表征,并从已知和未知类别描述中学习词嵌入,以训练生成训练样本的条件生成模型。这一过程可确保训练集包含已知和未知类别,从而将零样本学习转变为监督学习问题。
通过这些方法,GZSL 提供了一种更全面、适应性更强的方法来识别和分类更广泛类别的数据。
多模式零样本学习
多模态 ZSL 结合了来自文本、图像、视频和音频等多种数据模态的信息,以预测未知类别。例如,通过使用图像及其相关的文字描述来训练模型,人工智能从业者可以提取语义嵌入并发现有价值的关联。模型可以从这些数据中提取语义嵌入并学习有价值的关联。该模型具有 "0-shot "能力,可以推广到类似的未见数据集,并具有准确的预测性能。
零样本学习的基本架构
让我们考虑一个 ZSL 图像分类模型。从根本上讲,它包括语义和视觉嵌入模块以及计算两个嵌入之间相似度的零样本学习组件。
语义嵌入模块将文本或基于属性的信息(如文档、知识图或图像描述符)投影到高维向量空间上。
同样,视觉嵌入模块将视觉数据转换为可捕捉图像核心属性的嵌入。语义和视觉嵌入均传递到 ZSL 模块以计算它们的相似性并学习它们之间的关系。
零样本学习如何发挥作用?
学习过程涉及最小化正则化损失函数,该损失函数与模型在训练示例上的权重有关。损失函数包括从 ZSL 模块派生的相似度得分。经过训练后,一对多分类器模型可以通过将未知图像分配给相似度得分最高的文本描述类别来预测其标签。例如,如果图像嵌入接近“狮子”的文本嵌入,则模型会将图像分类为狮子。
语义和视觉嵌入模块是将图像和文本投影到嵌入空间的神经网络。这些模块可以是在辅助信息上训练的不同深度学习模型,如 ImageNet。这些模型的输出被输入到 ZSL 模块中,并通过最小化独立损失函数进行单独训练。或者,这些模块可以串联训练,如下所示。
预先训练的特征提取器将上图中的猫图像转换为 N 维向量。该向量表示输入神经网络的图像视觉特征。神经网络的输出是低维特征向量。然后,模型将这个低维特征向量与已知类属性向量进行比较,并使用反向传播来最小化损失(两个向量之间的差异)。
总之,当您获得一个新的、未知的类(不是训练数据的一部分)的图像时,您将:
- 使用特征提取器提取其特征。
- 使用投影网络将这些特征投影到语义空间中。
- 在语义空间中找到最接近的属性向量以确定图像的类别。
最近的生成方法
传统的零样本学习仍然受到限制,因为语义和视觉模块的投影功能仅学习将已知类别映射到嵌入空间。
学习算法在未知类别上的表现如何尚不明确,并且此类数据的投影可能不正确。 而这正是 GZSL 通过将已知和未知数据合并为训练集来发挥重要作用的地方。
但是,学习方法与上面描述的方法不同。 生成对抗网络 (GAN) 和变分自动编码器 (VAE) 是该领域的突出技术。
零样本学习中的生成对抗网络 (GAN) 简要概述
GAN 由鉴别器和生成器网络组成。生成器的目标是创建虚假数据点,鉴别器则学习确定数据点是真实的还是虚假的。
AI 从业者使用这一概念将零样本学习视为缺失数据问题。下图显示了 ZSL 的典型 GAN 架构。
该架构的工作原理如下:
- 特征提取器将图像转换为 N 维向量。
- 相应的属性向量用于预训练生成器网络。
- 生成器网络的结果输出是合成的 N 维向量。
- 然后,鉴别器将比较这两个向量以查看哪一个是假的。
然后,您可以将未知类的语义嵌入或属性向量输入生成器,以合成具有相关类标签的假特征向量。 结合实际特征向量,您可以训练神经网络对已知和未知的嵌入类别进行分类,以实现更好的模型准确性。