多模态推荐系统综述
多模态推荐系统综述
推荐系统(RS)已经成为在线服务不可或缺的工具。随着短视频、新闻等多媒体服务的出现,在推荐的同时了解这些内容变得至关重要。因此,多模态推荐系统(MRS)近年来受到了学术界和业界的广泛关注。本文将主要从技术角度对MRS模型进行全面的综述。
多模态推荐系统的流程
根据MRS的输入项,我们总结出MRS的统一流程,如图1所示。该方法分为三个步骤:原始特征提取、特征交互和推荐。
原始特征提取:每部电影都有两类特征,即表格特征和多模态特征,包括海报图像和文本介绍。嵌入层用于处理表格式特征,这类似于常见的基于内容的RS。多模态特征被送入不同的模态编码器。模态编码器提取表示,是用于其他领域的通用架构,如用于图像的ViT和BERT文本。然后,我们可以得到每个物品的表格特征和多模态特征(即图像和文本)的表示。
特征交互:我们得到了每个项目的不同模态的表示,但它们处于不同的语义空间。此外,不同用户对模态的偏好也存在差异。因此,在这个过程中,MRS试图融合和交互多模态表示,以获得项目和用户表示,这对推荐模型很重要。
推荐:在第二个过程之后,我们得到用户和物品的表示,分别表示为v𝑢和v𝑖。一般的推荐模型吸收了这两种表示并给出推荐概率。然而,数据稀疏性问题往往会降低推荐性能。因此,许多研究提出通过融合多模态信息来增强表示。
特征交互
多模态数据是指描述信息的多种模态。由于它们是稀疏的,并且在不同的语义空间中,将它们与推荐任务连接起来是至关重要的。特征交互可以实现特征空间到公共空间的非线性转换,最终提升推荐模型的性能和泛化能力。如图2所示,我们将交互分为三种类型:桥接、融合和过滤。
桥接:这里的桥梁指的是多通道信息传递通道的构建。它关注于捕获用户和物品之间的相互关系,同时考虑了多模态信息。图神经网络的消息传递机制可以通过用户与项目之间的信息交换增强用户表征,进一步捕获用户对不同模态信息的偏好。
融合:在多模态推荐场景中,用户和项目的多模态信息的种类和数量都非常大。因此,需要融合不同的多模态信息来生成推荐任务的特征向量。注意力机制是应用最广泛的特征融合方法,能够灵活地融合具有不同权重和侧重点的多模态信息。
过滤:由于多模态数据不同于用户交互数据,它包含了许多与用户偏好无关的信息。因此,过滤掉噪声数据通常可以提高推荐性能。它值得注意到噪声可能存在于交互图中,也可能存在于多模态特征本身,因此过滤可以分别嵌入到桥接和融合中。
多模态特征增强
同一物体的不同模态表示具有独特而共同的语义信息。因此,如果能够区分独特特征和共同特征,MRS的推荐性能和泛化能力将得到显著提升。近年来,为了解决这一问题,一些模型配备了解纠缠表示学习(DRL)和对比学习(CL)来进行基于交互的特征增强。
模型的优化
与传统推荐任务不同,由于多模态信息的存在,当多模态编码器和推荐模型一起训练时,模型训练的计算需求大大增加。因此,多模态推荐模型在训练过程中可以分为端到端训练和两步训练两类。
端到端训练:由于多模态推荐系统使用图片、文本、音频等多媒体信息,在处理这些多模态数据时,往往采用一些其他领域常用的编码器,如Vit、Resnet、BERT。这些预训练模型的参数通常非常大。为了解决这个问题,大多数MRS直接采用预训练编码器,并且仅以端到端的模式训练推荐模型。
两阶段训练:与端到端模式相比,两阶段训练模式能更好地定位下游任务,但对计算资源的要求较高。因此,很少有MRS采用两步训练。
应用以及资源
目前,用户在浏览网络购物平台时,会接收到大量的多模态商品信息,这些信息会在潜移默化中影响用户的购物行为。例如,在时尚推荐场景中,用户往往会因为布料的形象而诱惑购买他们不需要的东西。在电影推荐场景中,用户只有被电影海报和标题吸引时才会点击内容。充分利用这些多模态数据可以提高模型的推荐效果。
挑战
为了激励想要投身于该领域的研究人员,本文列出了一些有希望的研究面临的现有挑战:
- 一个通用的解决方案
- 模型可解释性
- 计算复杂性
- 通用MRS数据集
总结
多模态推荐系统凭借其在不同模态上的聚集优势,正成为推荐系统的前沿研究方向之一。文中针对多模态推荐模型在不同建模阶段面临的挑战,将其分为特征交互、特征增强和模型优化3类。总结了数据集和开源代码,以促进研究人员的工作。总之,我们相信通过总结这些分类法、技术和资源,我们的调查将通过提高对不同方法的认识和呈现新主题来指导和刺激进一步的研究。