资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

LLM在生成式推荐中的应用：综述与展望

创作时间:

作者:

@小白创作中心

LLM在生成式推荐中的应用：综述与展望

引用

CSDN

https://blog.csdn.net/star_nwe/article/details/144927331

大语言模型（LLM）在推荐系统中的应用正日益受到关注。本文综述了基于LLM的生成式推荐的研究进展，包括其定义、与传统推荐系统的区别、ID创建方法、各类推荐任务的实现方式、面临的挑战与机遇，旨在为该领域的研究提供全面的参考，推动LLM与推荐系统的深度融合。

一、定义与背景

生成式推荐定义

传统推荐系统多采用多阶段过滤范式（先使用简单方法将候选物品的数量从数百万减少到几百个，然后再对这些物品应用推荐算法，进一步从中挑选出少量物品用于推荐），而LLM的生成能力有望将其转变为单阶段过滤，直接生成推荐，这种方式被定义为生成式推荐，符合人工智能从判别式向生成式转变的趋势。

二、推荐系统向生成式推荐发展的原因

判别式推荐的问题

当推荐平台上的物品数量庞大时，计算每个物品的排名分数计算成本高昂。工业界的推荐系统通常采用多阶段策略来缩小候选物品范围，早期采用简单模型或过滤策略，仅在最后阶段使用复杂模型。这导致学术研究与工业应用之间存在差距，许多复杂的推荐模型难以在实际中应用。

生成式推荐的优势

在LLM时代，有机会弥合这一差距。学术研究和工业应用可共享相同的LLM，其研究进展能使下游应用受益。对于推荐pipelines，生成式推荐可将多阶段简化为单阶段，即直接生成推荐物品。LLM能够通过有限的token表示几乎无限的物品，利用beam search算法可直接从物品池中生成推荐，这在计算上是可行的，并且与传统推荐系统从先前过滤步骤的子集中抽取物品不同，它隐式地枚举了所有候选物品。

三、ID创建方法

在基于LLM的生成式推荐中，为使输入（特别是用户和物品ID）与LLM兼容，创建合适ID的方法，具体内容如下：

传统ID表示的问题

直观上，可将用户和物品的元数据（如用户名、物品标题）作为ID，但存在两个问题。

当ID过长（如物品描述）时，生成计算成本高且难以在数据库中精确匹配；
自然语言的模糊性可能导致不同物品具有相同名称或相似物品具有不同标题，影响推荐准确性。

此外，传统RS中为每个ID关联embedding向量的方法在工业规模下存储成本高，且这些ID对LLM来说是未登录词（OOV），兼容性差。

新的ID创建方法

奇异值分解（Singular Value Decomposition）

通过对用户-物品交互数据进行截断奇异值分解获取物品的潜在因素，进而得到物品embedding矩阵。经过归一化、添加噪声、量化和偏移调整等操作，将每个物品的embedding转换为整数数组作为其ID序列。添加噪声操作可确保物品ID的唯一性，使相似物品具有不同ID，从而在有限token内区分大量物品。

协同索引（Collaborative Indexing）

先构建物品图，边权重表示物品在用户交互历史中的共现频率。计算图的邻接矩阵、拉普拉斯矩阵及其特征向量，利用特征向量进行谱聚类，将相似物品分组。递归执行此操作形成层次树，叶节点为物品。为每个节点分配令牌后，物品的ID序列即为从根节点到叶节点的路径，通过这种方式利用物品间的协同信息创建ID。

残差-量化变分自编码器（Residual-Quantized Variational AutoEncoder）

先用LLM对物品的文本描述进行编码得到embedding，再通过VAE的编码器获得潜在表示。将该表示作为初始残差向量，进行多步残差量化。每一步从码本（embedding表）中找到最接近残差向量的embedding，其索引作为物品ID序列的一个token，新残差向量通过旧残差向量减去该embedding计算得到，重复此过程形成完整的物品ID。

其他策略

除上述三种方法外，还有基于用户交互历史的顺序索引和基于物品元数据信息的语义索引等创建物品ID的有效策略，但相对简单，文中未详细阐述。这些ID创建方法旨在将传统RS中的协同过滤优势与新兴的LLM相结合，以实现更有效的推荐。

四、如何利用LLM执行不同的生成式推荐任务

任务概述与研究总结

为使LLM理解推荐任务，可构建包含任务描述的提示模板，并填充用户和物品信息（如ID）。在推理阶段，输出以自然语言生成的方式自回归生成。文中对七个典型的生成式推荐任务（评分预测、Top-N推荐、顺序推荐、可解释推荐、评论生成、评论总结、对话式推荐）的相关研究进行了总结，部分模型可执行多个任务。

各任务具体介绍

1. 评分预测（Rating Prediction）

传统RS中，给定用户和物品，推荐模型需估计用户对物品的评分。在LLM环境下，用户和物品ID变为token序列，填充到指令提示中，LLM生成1-5的数值表示评分可能性。但由于用户实际很少对交互物品留评，该任务在实际系统中实用性有限，促使了Top-N推荐任务的发展。

2. Top-N推荐（Top-N Recommendation）

旨在为用户选择N个推荐物品。因LLM上下文长度限制，无法处理所有物品，社区探索了两种方法。

直接推荐：仅用包含用户信息的提示让LLM生成推荐；
选择性推荐：提供用户信息和候选物品列表，让LLM从中选择。

部分研究还通过让LLM生成“是/否”回答判断用户与给定物品的交互可能性，这种方式属于判别式推荐。

3. 顺序推荐（Sequential Recommendation）

考虑用户交互的时间或顺序，预测用户下一个可能交互的物品。将用户交互历史按时间顺序填充到提示中，LLM生成预测的物品ID。许多基于LLM的模型致力于此任务，处理候选物品的方式各有不同。

4. 可解释推荐（Explainable Recommendation）

通过自然语言解释生成向用户解释推荐原因。输入与评分预测相同，可在提示中加入物品特征作为提示词引导LLM生成更有针对性的解释。多个研究按此方式执行任务，部分研究还尝试了不同的触发方式或利用连续提示向量。

5. 评论生成（Review Generation）

可采用与解释生成类似的方式，让LLM为用户与物品的交互生成评论，但目前相关研究较少，可能因其与解释生成相似且评论通常更长。

6. 评论总结（Review Summarization）

现有方法主要针对用户自己对物品的评论进行总结，将评论标题或提示作为总结内容。然而，总结用户未交互过的物品评论或进行多评论总结可能更有意义。

7. 对话式推荐（Conversational Recommendation）

目标是在多轮对话中为用户推荐物品，但研究人员在任务制定上尚未达成共识。有的采用token对话者标签后让LLM生成回应，有的让LLM调用工具缩小候选物品范围，有的直接与ChatGPT聊天探索相关原则。当前评价指标存在问题，过于强调生成内容与标注数据的匹配。

任务评价

对于推荐任务（评分预测、Top-N推荐、顺序推荐），可使用现有指标如均方根误差（RMSE）、平均绝对误差（MAE）、归一化折损累计增益（NDCG）、精确率、召回率等，也可采用在线A/B测试。对于自然语言生成任务（解释生成、评论生成、评论总结、对话式推荐），可使用BLEU（机器翻译）和ROUGE（文本摘要）评估生成质量，但存在过度强调与标注数据匹配的问题，还需考虑其他因素，如开发更先进的指标或进行人工评价，但人工评价需合理设计问卷且参与者数量可能受限。

五、生成式推荐面临的挑战与机遇

LLM-agent

模拟与应用潜力：模拟器在解决推荐系统（RS）数据稀缺问题中起重要作用，但应用于RS时存在悖论。一方面，模拟数据若与用户真实偏好不符则无用；另一方面，若能完美模拟偏好则无需推荐算法。LLM-agent不仅能模拟场景，还能调用工具、API和专家模型解决复杂推理任务，推动LLM-RS在实际应用中拓展，如行程推荐，能根据用户个性化需求制定行程，还可动态调整，甚至在车载系统中提供多种服务。