多模态预训练、自适应与生成技术在推荐系统中的应用综述
多模态预训练、自适应与生成技术在推荐系统中的应用综述
原文链接:https://blog.csdn.net/qq_29868553/article/details/144168820
摘要
个性化推荐系统为用户提供了发现符合其兴趣信息的渠道。然而,传统的推荐模型主要依赖唯一的ID和分类特征进行用户与项目的匹配,可能会忽视文本、图像、音频和视频等多种形式的原始项目内容的细微差别。近年来,大型多模态模型的发展为内容感知推荐系统的开发提供了新的机遇。本文旨在全面探索多模态预训练、自适应与生成技术的最新进展及其在增强推荐系统中的应用。
1. 引言
推荐系统已在电子商务、广告、流媒体服务和社交媒体平台等在线应用中广泛应用,其主要目标是增强用户体验,提高用户参与度,并促进发现针对个人兴趣的项目。然而,传统的推荐模型主要依赖唯一ID(例如,用户/项目ID)和分类特征(例如,标签)进行用户项匹配,可能会忽略跨文本、图像、音频和视频等多种形式的原始项内容的细微差别。多模态数据的这种未充分利用对推荐系统造成了限制,特别是在新闻、音乐和短视频平台等多媒体服务中。
为了解决这个问题,研究人员已经广泛研究了多通道推荐技术超过十年,导致了大量的研究工作,探索多通道项目功能集成到推荐模型。近年来,预训练的大型模型在自然语言处理(NLP)、计算机视觉(CV)和多模态系统(MM)领域中非常流行。这些最新的进展为开发内容感知推荐系统提供了新的机遇和挑战。
在这项调查中,我们的目标是从一个新的角度全面概述多模式推荐技术,重点是利用预训练的多模式模型。我们探讨最新的进展和未来的轨迹,多模式预训练,适应和生成技术,沿着他们的应用程序的推荐系统。此外,我们深入研究了在将预训练的多模态模型应用于推荐任务方面的最新实践发展和剩余的开放性挑战。
2. 多模态预训练在推荐中的应用
与直接在特定领域数据上进行监督学习相比,自监督预训练从大规模未标记语料库中学习,然后将预训练模型适应下游任务。这种方法允许在预训练数据中获取丰富的外部知识,从而导致其有效性的广泛认可。在本节中,我们将首先回顾主要的预训练范例,然后介绍它们如何在推荐领域中使用。
2.1 自监督预训练范式
我们根据预训练任务将自我监督预训练范式大致分为三种类型。
重构性范式
这种预训练范式旨在教导模型在信息瓶颈框架内重建原始输入。示例包括用于部分重建的掩码预测方法和用于完全重建的自动编码器方法。掩码预测方法最初是在BERT中引入的,其中输入令牌被随机掩码,促使模型学习根据周围的上下文来预测它们。相反,自动编码器方法(例如,AE、VAE)将输入数据编码到一个简洁的潜在空间中,然后学习从这个潜在表示中完全恢复输入。这些方法在各种领域的自我监督预训练中得到了广泛的应用,例如文本、视觉、音频和多模态数据。在他们的成功之后,研究人员将重构性预训练范式应用于推荐任务。
对比性范式
这种预训练侧重于成对相似性,通过最大化负对之间的距离并最小化表示空间内的正对来区分相似和不相似的数据样本。它已被证明是有效的,在提高跨不同领域的代表性的质量。鉴于其捕捉成对相似性的能力,这种范式在调整用户-项目偏好方面有着广泛的用途。
自回归范式
这种范式最近取得了显著的成功,特别是随着大型语言模型(LLM)的兴起,如GPT家族。它以自回归的方式逐个令牌地生成序列数据,其中每个令牌都是基于先前的观察结果进行预测的。这种方法在CV领域和多模式领域中得到了快速采用。在推荐系统领域,用户行为序列自然适合顺序处理,促进了许多自回归顺序推荐模型的发展。
2.2 内容感知预训练在推荐中的应用
内容感知推荐系统努力将项目的语义内容,以提高推荐的准确性。因此,许多研究探索了内容增强的推荐系统的预训练方法。在本节中,我们根据预训练所采用的方式对现有研究进行分类,并讨论它们在一般情况下和推荐系统中的应用。
基于文本的预训练
文本是推荐系统中最普遍的内容形式之一,应用于新闻推荐和基于评论的推荐等环境。在自然语言处理(NLP)领域,已经开发了BERT和T5等预训练语言模型来捕获文本的上下文感知表示。这些模型通常遵循为特定任务量身定制的预训练-微调范式。最近,ChatGPT和LLaMa等大型语言模型(LLM)在语言相关任务中表现出了显著的能力,利用了提示和上下文学习等技术。在他们成功的基础上,文本增强的预训练在推荐系统中获得了牵引力。
基于音频的预训练
音乐推荐是一个重要的场景,它严重依赖于音频模态来捕获内容语义。类似于NLP域,各种预训练技术已被用于增强音频表示。在音乐推荐的背景下,研究人员探索利用这些音频预训练方法,利用用户-项目交互作为监督信号来微调音乐表示。
基于视觉的预训练
图像和视频构成了广告、电影和视频等多媒体推荐场景中的主要视觉数据。在CV领域,基于视觉的预训练的发展已经从基于CNN的架构(如ResNet)过渡到Transformer架构(如ViT和DINOv 2),从而能够提取通用的视觉特征。这些预先训练的模型具有显著先进的视觉感知推荐系统。在推荐任务中有前途的未来应用。
多模态预训练
在当前的文献中,大多数研究倾向于对内容的主要形式进行建模。然而,多媒体内容本质上涉及多种形式。近年来,多模态预训练得到了快速发展,导致了过多的预训练模型。这些进步为构建现代多模式推荐系统提供了有前途的机会。
3. 多模态自适应在推荐中的应用
虽然大多数现有的预训练模型都是在一般数据语料库上训练的,但将它们用于推荐系统需要战略方法来充分利用它们所学到的知识。本节总结了四种主要的适配技术:表示转移、模型微调、适配器调优和即时调优。每种技术都提供了一种独特的方法来利用预训练模型的好处。
3.1 表示迁移
表示迁移是将预先训练好的知识迁移到推荐模型中最常用的自适应技术之一。具体来说,项目表示是从冻结的预训练模型中提取的,并作为ID嵌入的附加特征。这些表示为推荐系统提供了补充的一般信息,解决了冷启动问题。基于表示转移的方法已经被广泛研究,并在各个领域被证明是有效的。
3.2 模型微调
模型微调是指在特定于任务的数据上进一步训练预训练模型的过程。它的目标是调整模型参数,以有效地捕捉特定领域的细微差别,从而提高其在特定下游任务上的性能。这种预训练-微调范例已在各种实际应用中证明是成功的。
3.3 适配器调优
为了减少预训练的大型模型的训练开销,已经开发了参数有效的微调(PEFT)方法。一种突出的方法是通过参数高效的适配器,如LoRA。该策略有效地减少了微调所需的参数数量,并促进了快速模型自适应。PEFT技术因其在各个领域的有效性而得到广泛认可,在推荐系统中获得了显著的吸引力。
3.4 提示调优
随着大型语言模型的出现,提示已成为利用其能力来生成所需输出或执行特定任务的关键技术。提示调优不是使用手工制作的提示,而是旨在从特定于任务的数据中学习可适应任务的提示,同时保持模型参数冻结。因此,即时调优可以避免灾难性的遗忘,并实现仅使用提示令牌作为可调参数的快速自适应。
4. 多模态生成在推荐中的应用
随着生成模型的最新进展,AI生成的内容(AIGC)在各种应用程序中获得了极大的普及。在本节中,我们将探索在推荐系统中使用AIGC技术的潜在研究途径。
4.1 文本生成
在强大的大型语言模型(LLM)的支持下,文本生成已经成为一种成熟的能力,现在正在推荐领域的各种任务中应用。
关键词生成:关键词标记在广告定位和推荐的内容理解中起着关键作用。以前的技术主要依赖于从文本内容中显式提取关键字,可能会遗漏文本中不存在的重要关键字。因此,关键字生成技术已被广泛应用于增强关键字标记过程。
新闻标题生成:对个性化和引人入胜的新闻内容的需求推动了新闻标题生成的探索。传统上,标题生成被框定为文本摘要任务,将输入文本或多模态内容压缩为标题。然而,典型的新闻标题可能对特定用户缺乏吸引力或相关性,从而需要个性化的方法。因此,个性化标题生成已经成为一个引人注目的研究课题,重点是生成针对个人用户的阅读偏好和可用新闻内容的标题。
营销文案生成:营销文案是指用于推广产品和激励消费者购买的文本。它在吸引用户兴趣和增强参与度方面发挥着至关重要的作用。最近的努力集中在基于LLM的自动营销文案。
解释生成:在交互式场景中,对可解释建议的需求正在显著增长。这涉及生成自然语言解释,以证明向各个用户推荐项目的合理性,从而增强用户对系统的理解和信任。
对话生成:对话生成在会话式推荐系统中是必不可少的,包括描述推荐项目。此外,它需要生成问题,以引导用户进行更多轮的对话和互动。
虽然这些任务受益于强大的LLM,但在推荐文本生成中存在两个关键挑战:1)可控生成:工业应用需要对生成的文本进行精确控制,以确保产品描述的正确性,使用独特的销售主张,或遵循特定的写作风格。2)知识增强的一代:现有的LLM通常缺乏对特定领域知识的明确认识,例如产品实体,类别和卖点。最近的研究集中在整合特定领域的知识库以取得更令人满意的结果。
4.2 图像和视频生成
随着扩散模型的流行,文本到图像的生成已经取得了显著的成功。在本节中,我们将深入研究它们在电子商务和广告中的潜在应用。与自然图像生成不同,生成产品图像和广告横幅涉及处理复杂的布局,包括产品,徽标和文本描述等各种元素。因此,独特的挑战出现在设计一个连贯的布局,并有效地整合文本与适当的字体和颜色,以创建视觉吸引力的海报。
最近,视频生成取得了重大进展。索拉作为一种开创性的技术出现,展示了为产品生成广告视频的巨大潜力。在这种情况下,Gong等人介绍了AtomoVideo,这是一种高保真的图像到视频生成解决方案,可以有效地将产品图像转换为用于广告目的的宣传视频。此外,Liu等人设计了一个系统,能够从给定的一组视觉材料自动生成视觉故事情节,为电子商务量身定制引人注目的宣传视频。此外,Wang等人开发了一种集成方法,将文本到图像模型,视频运动生成器,参考图像嵌入模块和帧插值模块合并到端到端视频生成管道中,这对微视频推荐平台很有价值。我们相信,这一领域正在迅速扩大,使基于AIGC的推荐和广告应用的发展成为可能。
4.3 个性化生成
随着AIGC的兴起,有一个显着的转向个性化生成,旨在提高生成内容的定制和个性化。这种趋势在推荐场景中具有特别的意义,在推荐场景中,个性化内容可以更好地迎合用户的兴趣。开创性的工作已经在各个领域进行,包括个性化新闻标题生成,电子商务中的个性化产品描述生成,个性化答案生成,具有身份保护的个性化图像生成和个性化多模态生成。将推荐系统与个性化生成技术相结合,有望开发出下一代推荐系统。
5. 应用领域
在本节中,我们总结了一些需要多模态推荐技术的常见应用领域。
电子商务推荐:电子商务是推荐系统研究中最广泛的应用领域之一,其目的是帮助用户发现他们可能购买的商品。电子商务中大量的多模态数据,对将不同模态与用户交互数据集成以提高推荐质量提出了挑战。为了应对这一挑战,已经进行了大量的研究工作。
广告推荐:在线广告用作许多web应用的主要收入来源。广告创意在这一生态系统中扮演着关键角色,涵盖了图像、标题和视频等多种格式。美学创意有可能吸引潜在用户,并提高产品的点击率(CTR)。还迫切需要更好地理解广告创意,以有效地使广告与用户的兴趣相一致。
新闻推荐:个性化新闻推荐是帮助用户发现感兴趣新闻的关键技术。为了提高推荐的准确性和多样性,推荐系统必须理解新闻内容,并从用户的阅读历史中提取语义信息。这通常涉及到学习新闻标题、摘要、正文和封面图片的语义表示。最近的研究集中在对来自多个模态的特征进行建模。
视频推荐:随着微视频平台的迅速普及,视频推荐在社会上引起了极大的关注。视频封装了多种形式,包括标题、缩略图、帧、音轨、抄本等。当前的研究工作集中在微视频推荐模型中集成和适配多模态信息。
音乐推荐:音乐流服务领域代表了另一个需要多模态推荐技术的重要领域。在这个领域中,涉及到多种多样的多模态数据,包括音乐音频、乐谱、歌词、标签和评论。利用这些不同类型的音乐数据已经证明在制作旨在吸引用户的更个性化的推荐方面是有效的。
时尚推荐:随着时尚产品的视觉和审美特性,时尚推荐已经成为一个独特的垂直领域。与传统的推荐系统不同,时尚推荐不仅推荐单个商品,还推荐与多个商品互补的服装。多模态理解能力在这一领域发挥着关键作用,包括从图像中定位时尚单品、识别其属性以及计算多个单品的兼容性评分等任务。此外,开创性的工作已经开发了文本到图像的扩散模型,允许用户虚拟地试穿衣服。这些技术有望增强时尚推荐的个性化,将用户体验提升到一个新的水平。
LBS推荐:基于位置的服务(LBS)已经变得无处不在,提供了广泛的服务,包括出租车旅行、食物递送和餐馆推荐。在这些上下文中,用户可以共享他们的兴趣点(POI)签到、照片、意见和评论,其中包含丰富的多模态时空数据阵列。集成该多模态信息并理解位置之间的时空相关性使得能够对用户偏好进行更准确的建模。
6. 挑战与机遇
在本节中,我们将讨论未来研究面临的持续挑战和新兴机遇。
多模态信息融合:多模态融合已经在研究中被广泛探索。在推荐系统中,目前的研究主要集中在融合和适应项目的多模态特征嵌入到推荐模型。然而,用于推荐的多模态信息本质上采用分层结构,从用户行为序列到单个项目,每个项目都包括多个模态,并进一步细分为语义令牌和对象。此外,来自不同模式和区域的信息的影响在不同用户之间可能有很大差异。因此,挑战在于以分层和个性化的方式有效地融合多模态信息以优化推荐。
多模式多域推荐:多模态信息为项目内容提供了丰富的语义见解。尽管对多模式推荐和跨域推荐进行了大量研究,但有效利用多模式信息来弥合跨域的信息差距仍然是一个公开的挑战。例如,基于用户的阅读习惯推荐音乐需要跨模态(音频与文本)和域(音乐与书籍)的语义对齐。
Multimodal Foundation Models for Recommendation:虽然大型语言模型和大型多模态模型已经成为NLP和CV领域的基础模型,但将这种探索扩展到推荐领域存在着令人信服的机会。一个理想的推荐基础模型应该表现出强大的上下文学习能力,同时保持跨不同任务和领域的通用性。潜在的探索途径包括使现有的多模态LLM适应推荐任务或者使用大规模多模态多域推荐数据从头开始进行多模态生成模型的预训练。
AIGC推荐:AIGC的集成代表了推荐系统的一个显著进步,为显著增强用户个性化、参与度和整体体验提供了机会。这包括个性化的新闻标题,定制的广告创意,以及跨不同推荐上下文的解释性内容。这个领域正在迅速扩大,主要挑战在于实现对内容和用户的全面理解,促进可控生成,并确保准确的格式以优化用户体验。此外,必须解决使用AIGC所产生的潜在道德和隐私问题。
Multimodal Recommendation Agent:基于LLM的代理通过广泛的知识和强大的推理能力,在自动化任务方面表现出了卓越的能力。这些代理的整合在推荐领域引入了创新前景,特别是在会话推荐中。这需要在任务完成过程中直接吸引用户,从而增强用户体验和推荐系统的有效性。作为一个具体的例子,整合对话和虚拟试穿生成功能可能会为时尚推荐提供新的机会。
训练和推理的效率:推荐任务通常具有严格的延迟要求以满足实时服务需求。因此,在实践中应用多模态预训练和生成技术时,确保训练和推理效率变得至关重要。有一个高需求的发展ofefficient战略,以利用多式联运模式的能力。这方面的先驱努力包括通过合并项目集来加速训练,以避免冗余编码操作,以及通过缓存项目和用户表示来提高推理速度。
7. 结论
多模态推荐是一个非常有前途的领域,近年来受到了极大的关注,这得益于多模态机器学习和推荐系统社区的进步。大型多通道模型的出现改变了多通道推荐的格局,赋予其增强的理解和内容生成能力。本文对当前的多模态推荐框架进行了系统的概述,重点讨论了多模态预训练、自适应和生成等关键方面。此外,我们深入研究了它的应用,挑战和未来前景。我们的目的是提供这个调查作为一个足智多谋的指南,以帮助在该领域的后续研究。