大模型prompt压缩技术总结：从硬提示到软提示代表方案实现思路

创作时间:

作者:

@小白创作中心

大模型prompt压缩技术总结：从硬提示到软提示代表方案实现思路

引用

CSDN

https://blog.csdn.net/2401_85325726/article/details/143562370

随着大模型在各个领域的广泛应用，prompt压缩技术成为了提高模型效率和性能的关键技术之一。本文总结了当前主流的prompt压缩方法，包括硬提示和软提示两种路线，并详细介绍了各自的实现方案和技术特点。

一、关于prompt压缩的技术总结

在技术路线上，prompt压缩可以分为硬提示和软提示两种路线。核心问题是：如何设计一个prompt压缩算法，既能最大化压缩prompt，又不影响LLMs的性能？被压缩的prompt能否直接用于下游任务？其泛化性如何？

这些问题都可以通过以下技术方案来解答：

《Prompt Compression for Large Language Models: A Survey》（https://arxiv.org/abs/2410.12388V2）提供了很好的索引，可以收藏后续查看。

1. 提示压缩方法的说明性示例

硬提示方法移除低信息量的语言标记或进行释义以实现简洁。软提示方法将文本压缩成更少的特殊标记。下面的网格可视化了注意力模式，其中y轴代表语言标记的序列，x轴显示所关注的标记。在原始提示中，每个标记都关注所有之前的标记。在硬提示中，每个标记不能关注之前删除的标记（Di）。在软提示中，经过压缩的标记（Ci）关注了所有先前的输入标记（Ii）之后，随后的输出标记（Oi）不能关注压缩标记之前的标记。

这些方法可以应用于多个场景，包括通用问答（General QA）、检索增强生成（Retrieval-Augmented Generation, RAG）、上下文学习（In-Context Learning, ICL）、基于代理的系统（Agent-based Systems）。

二、硬提示压缩方法

硬提示方法包括过滤（Filtering）方法和释义（Paraphrasing）方法两种，这类方法通过删除、重写等方式直接对自然语言提示词进行压缩。

1. 过滤（Filtering）方法

一个很简单的压缩思路就是删除那些不能为LLMs带来“信息”的文本，达到压缩Prompt的目的，这就是过滤的方案的核心，包括SelectiveContext、LLMLingua、LongLLMLingua、AdaComp等，也包括一些增强方案，如图：

SelectiveContext（Compressing Context to Enhance Inference Efficiency of Large Language Model，https://arxiv.org/abs/2310.06201）通过量化词汇单元的信息化量来识别并删除输入提示中的冗余或信息量较少的部分。使用Spacy的句法解析能力，将单个标记组合成名词短语，以保持文本连贯性。SelectiveContext不依赖外部模型或额外参数，可以应用于任何模型架构。
LLMLingua（LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models, https://arxiv.org/abs/2310.05736）使用一个较小的语言模型（如GPT-2）来计算内容的自我信息或困惑度，并在将自然语言提示输入到大模型之前移除冗余标记。LLMLingua在提示结构上操作，最初基于困惑度分数选择关键示例，然后应用token级过滤。
LongLLMLingua（LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression，https://arxiv.org/abs/2310.06839）利用Prompt压缩增强LLMs在Long Context Scenarios下感知prompt中关键信息的能力，能够有效缓解Lost in the Middle，计算Document与Query之间的条件熵，以此来判断Document相对于Query的“重要性”。此时有两种选择，计算给定Document下的Query的熵，计算给定Query下的Document的熵。很显然考虑到Document自身拥有的信息熵可能差距非常悬殊，而且难以归一化，所以直接计算给定Document下的Query的熵更加合理。因此，提出了它的两个核心点：粗粒度压缩（Question-Aware Coarse-Grained Compression）和细粒度压缩（Question-Aware Fine-Grained Compression）。

另一种是，在模型加上一层Linear来进行token级别的分类来做压缩。也就是使用分类器模型来做，专门训一个模型：

LLMLinga-2（LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression，https://aclanthology.org/2024.findings-acl.57.pdf）训练一个token级别分类模型来做token“重要性”的识别，以此达到压缩的目的，有趣的是，压缩的实际目标与基于小模型logits的信息熵并不一致；使用双向语言模型可以做到的压缩性能上限要高出单向语言模型，并在实现上使用BERT+Classification范式，形成一个BERT的token级别分类模型，将每个token输出的logits作为起“保留”的概率，设定一个压缩比例阈值来进行压缩。

2. 释义（Paraphrasing）方法，也叫改写式压缩

与其删词，不如换个写法，因此，可以释义（Paraphrasing）的方案，包括Nano-Capsulator、CompAct、FAVICOMP等：

Nano-Capsulator（Learning to Compress Prompt in Natural Language Formats, https://arxiv.org/abs/2402.18700）将原始提示总结成简洁的自然语言版本，然后输入到LLM中。这个过程移除了不相关的信息，并将提示重构为流畅的句子。压缩模型是独立于LLM操作的，并且包括语义保留损失以保留对下游任务重要的关键含义，以及一个奖励函数来优化提示对LLM的实用性。

硬提示方法通过直接操作自然语言标记来实现提示的压缩，通常保持使用自然语言单词或子单词，但结果提示可能在流畅性和语法正确性上有所欠缺。这些方法的优势在于可以泛化到具有不同嵌入配置的LLMs，并且不需要额外的内存成本。但也存在着诸多问题，例如，过滤后的硬提示可能会破坏语法正确性，并为LLM提供不熟悉的输入分布，可能影响其性能。此外，创建有效和精确的硬提示需要相当的人力，并且可能涉及训练模型来优化这些提示。