LLM在生成式推荐中的应用:综述与展望
LLM在生成式推荐中的应用:综述与展望
大语言模型(LLM)在推荐系统中的应用正日益受到关注。本文综述了基于LLM的生成式推荐的研究进展,包括其定义、与传统推荐系统的区别、ID创建方法、各类推荐任务的实现方式、面临的挑战与机遇,旨在为该领域的研究提供全面的参考,推动LLM与推荐系统的深度融合。
一、定义与背景
推荐系统中ID的广义定义
推荐系统中的标识符是能够唯一标识一个实体(如用户或物品)的符号序列。标识符可以有多种形式,比如embedding ID、数字符号序列以及文字符号序列(包括物品标题、物品描述,甚至是一篇完整的新闻文章),只要它能够唯一地标识该实体即可。
生成式推荐定义
传统推荐系统多采用多阶段过滤范式(先使用简单方法将候选物品的数量从数百万减少到几百个,然后再对这些物品应用推荐算法,进一步从中挑选出少量物品用于推荐),而LLM的生成能力有望将其转变为单阶段过滤,直接生成推荐,这种方式被定义为生成式推荐,符合人工智能从判别式向生成式转变的趋势。
二、推荐系统向生成式推荐发展的原因
判别式推荐的问题
当推荐平台上的物品数量庞大时,计算每个物品的排名分数计算成本高昂。工业界的推荐系统通常采用多阶段策略来缩小候选物品范围,早期采用简单模型或过滤策略,仅在最后阶段使用复杂模型。这导致学术研究与工业应用之间存在差距,许多复杂的推荐模型难以在实际中应用。
生成式推荐的优势
在LLM时代,有机会弥合这一差距。学术研究和工业应用可共享相同的LLM,其研究进展能使下游应用受益。对于推荐pipelines,生成式推荐可将多阶段简化为单阶段,即直接生成推荐物品。LLM能够通过有限的token表示几乎无限的物品,利用beam search算法可直接从物品池中生成推荐,这在计算上是可行的,并且与传统推荐系统从先前过滤步骤的子集中抽取物品不同,它隐式地枚举了所有候选物品。
三、ID创建方法
在基于LLM的生成式推荐中,为使输入(特别是用户和物品ID)与LLM兼容,创建合适ID的方法,具体内容如下:
传统ID表示的问题
直观上,可将用户和物品的元数据(如用户名、物品标题)作为ID,但存在两个问题。
- 当ID过长(如物品描述)时,生成计算成本高且难以在数据库中精确匹配;
- 自然语言的模糊性可能导致不同物品具有相同名称或相似物品具有不同标题,影响推荐准确性。
此外,传统RS中为每个ID关联embedding向量的方法在工业规模下存储成本高,且这些ID对LLM来说是未登录词(OOV),兼容性差。
新的ID创建方法
奇异值分解(Singular Value Decomposition)
通过对用户-物品交互数据进行截断奇异值分解获取物品的潜在因素,进而得到物品embedding矩阵。经过归一化、添加噪声、量化和偏移调整等操作,将每个物品的embedding转换为整数数组作为其ID序列。添加噪声操作可确保物品ID的唯一性,使相似物品具有不同ID,从而在有限token内区分大量物品。
协同索引(Collaborative Indexing)
先构建物品图,边权重表示物品在用户交互历史中的共现频率。计算图的邻接矩阵、拉普拉斯矩阵及其特征向量,利用特征向量进行谱聚类,将相似物品分组。递归执行此操作形成层次树,叶节点为物品。为每个节点分配令牌后,物品的ID序列即为从根节点到叶节点的路径,通过这种方式利用物品间的协同信息创建ID。
残差-量化变分自编码器(Residual-Quantized Variational AutoEncoder)
先用LLM对物品的文本描述进行编码得到embedding,再通过VAE的编码器获得潜在表示。将该表示作为初始残差向量,进行多步残差量化。每一步从码本(embedding表)中找到最接近残差向量的embedding,其索引作为物品ID序列的一个token,新残差向量通过旧残差向量减去该embedding计算得到,重复此过程形成完整的物品ID。
其他策略
除上述三种方法外,还有基于用户交互历史的顺序索引和基于物品元数据信息的语义索引等创建物品ID的有效策略,但相对简单,文中未详细阐述。这些ID创建方法旨在将传统RS中的协同过滤优势与新兴的LLM相结合,以实现更有效的推荐。
四、如何利用LLM执行不同的生成式推荐任务
任务概述与研究总结
为使LLM理解推荐任务,可构建包含任务描述的提示模板,并填充用户和物品信息(如ID)。在推理阶段,输出以自然语言生成的方式自回归生成。文中对七个典型的生成式推荐任务(评分预测、Top-N推荐、顺序推荐、可解释推荐、评论生成、评论总结、对话式推荐)的相关研究进行了总结,部分模型可执行多个任务。
各任务具体介绍
1. 评分预测(Rating Prediction)
传统RS中,给定用户和物品,推荐模型需估计用户对物品的评分。在LLM环境下,用户和物品ID变为token序列,填充到指令提示中,LLM生成1-5的数值表示评分可能性。但由于用户实际很少对交互物品留评,该任务在实际系统中实用性有限,促使了Top-N推荐任务的发展。
2. Top-N推荐(Top-N Recommendation)
旨在为用户选择N个推荐物品。因LLM上下文长度限制,无法处理所有物品,社区探索了两种方法。
- 直接推荐:仅用包含用户信息的提示让LLM生成推荐;
- 选择性推荐:提供用户信息和候选物品列表,让LLM从中选择。
部分研究还通过让LLM生成“是/否”回答判断用户与给定物品的交互可能性,这种方式属于判别式推荐。
3. 顺序推荐(Sequential Recommendation)
考虑用户交互的时间或顺序,预测用户下一个可能交互的物品。将用户交互历史按时间顺序填充到提示中,LLM生成预测的物品ID。许多基于LLM的模型致力于此任务,处理候选物品的方式各有不同。
4. 可解释推荐(Explainable Recommendation)
通过自然语言解释生成向用户解释推荐原因。输入与评分预测相同,可在提示中加入物品特征作为提示词引导LLM生成更有针对性的解释。多个研究按此方式执行任务,部分研究还尝试了不同的触发方式或利用连续提示向量。
5. 评论生成(Review Generation)
可采用与解释生成类似的方式,让LLM为用户与物品的交互生成评论,但目前相关研究较少,可能因其与解释生成相似且评论通常更长。
6. 评论总结(Review Summarization)
现有方法主要针对用户自己对物品的评论进行总结,将评论标题或提示作为总结内容。然而,总结用户未交互过的物品评论或进行多评论总结可能更有意义。
7. 对话式推荐(Conversational Recommendation)
目标是在多轮对话中为用户推荐物品,但研究人员在任务制定上尚未达成共识。有的采用token对话者标签后让LLM生成回应,有的让LLM调用工具缩小候选物品范围,有的直接与ChatGPT聊天探索相关原则。当前评价指标存在问题,过于强调生成内容与标注数据的匹配。
任务评价
对于推荐任务(评分预测、Top-N推荐、顺序推荐),可使用现有指标如均方根误差(RMSE)、平均绝对误差(MAE)、归一化折损累计增益(NDCG)、精确率、召回率等,也可采用在线A/B测试。对于自然语言生成任务(解释生成、评论生成、评论总结、对话式推荐),可使用BLEU(机器翻译)和ROUGE(文本摘要)评估生成质量,但存在过度强调与标注数据匹配的问题,还需考虑其他因素,如开发更先进的指标或进行人工评价,但人工评价需合理设计问卷且参与者数量可能受限。
五、生成式推荐面临的挑战与机遇
LLM-agent
模拟与应用潜力:模拟器在解决推荐系统(RS)数据稀缺问题中起重要作用,但应用于RS时存在悖论。一方面,模拟数据若与用户真实偏好不符则无用;另一方面,若能完美模拟偏好则无需推荐算法。LLM-agent不仅能模拟场景,还能调用工具、API和专家模型解决复杂推理任务,推动LLM-RS在实际应用中拓展,如行程推荐,能根据用户个性化需求制定行程,还可动态调整,甚至在车载系统中提供多种服务。
幻觉问题
问题严重性
幻觉指LLM生成内容偏离事实,在LLM-RS中,推荐不存在的物品会导致用户不满和低采纳率,在高风险推荐领域(如药物、医疗、金融投资推荐)可能造成严重损失。
解决方法
一是精心设计物品ID,如采用前缀树结构组织ID,确保beam search生成过程遵循树的根到叶路径,保证推荐物品存在;二是对LLM应用检索增强,使推荐物品与数据库匹配。将两者结合可有效解决问题。
偏差与公平性
偏差类型及表现
包括内容偏差(如性别、语言偏差)和推荐偏差。在内容偏差方面,生成的推荐解释可能存在性别差异,且LLM训练数据中的偏差可能被强化。在推荐偏差方面,ChatGPT在推荐新闻文章等时存在对特定来源或群体的倾向,但这也可能被视为一种个性化,需明确偏差与个性化界限。
解决尝试
有研究尝试通过将偏差融入连续提示等方式使LLM-推荐模型在敏感属性上更公平,但偏差与公平性仍是开放问题,需从公平性定义和偏差缓解等角度深入研究。
透明度与可解释性
问题阐述
使推荐透明可解释一直是RS和人工智能的重要问题,LLM-RS的可解释性包括生成自然语言解释和解释内部工作机制,后者目前研究较少。
解决方向
一种可能的方法是将LLM(如提示)与知识图谱等显式知识库对齐,使模型决策过程与知识图谱中的显式路径对应以进行解释,但此方向尚处于初步阶段,需要社区创新。
可控性
问题重要性
可控性对LLM至关重要,缺乏控制可能导致严重问题,在RS中,不同推荐任务或场景对可控性有不同要求,如控制推荐解释内容或推荐物品特征。
研究现状
当前LLM-推荐的可控性研究主要集中在控制解释,对控制推荐物品的研究亟待加强。
推理效率
效率重要性与现状
由于LLM参数众多且RS对延迟敏感,LLM-推荐模型的推理效率至关重要。训练效率可通过一些方法提高,但推理效率问题更突出。
改进策略与空间
已有预计算和缓存、去除离散提示等策略可略微提升推理效率,但仍有很大改进空间。
多模态推荐
多模态数据利用
LLM可利用其他模态数据(如图像、视频、音频),将其转换为令牌序列融入文本句子,如在推荐任务中结合物品图像、生成视觉解释、合成相关图像等。
应用前景与注意事项
在短视频和音乐推荐等领域有应用前景,当物品库中无满足用户兴趣的物品时,还可创建新物品(如时尚推荐中的衣服),但需保证生成内容的真实性,避免给用户带来负面体验。
冷启动推荐
LLM优势与潜力
LLM在预训练阶段学习的世界知识使其无需在推荐特定数据集上微调即可执行推荐任务,有望缓解新用户或物品的冷启动问题。
利用元数据推荐
虽交互数据不足,但可利用用户和物品的元数据(如人口统计信息、物品描述信息)进行推荐。