资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

LLM加速全攻略：教你降本增效，提升响应速度的必备技巧！

创作时间:

作者:

@小白创作中心

LLM加速全攻略：教你降本增效，提升响应速度的必备技巧！

引用

CSDN

https://blog.csdn.net/Code1994/article/details/143934609

最近，研究人员在深入研究和优化LLM（大语言模型）的应用链路时，发现了一些实用技巧，不仅可以显著降低使用成本，还能有效缩短响应延迟。这些问题在实际项目中经常遇到，而找到解决方案后，可以给模型性能带来显著提升。

LLM的成本构成

LLM的成本主要由输入（input tokens）和输出（output tokens）的tokens数量决定。以OpenAI的GPT-4 Turbo为例，每100万个tokens的输入收费10美元，输出收费30美元。

响应延迟的计算

响应延迟与tokens数量相关，但计算更复杂。提供了一种简化公式，指出输入tokens的处理时间远小于输出tokens的处理时间。处理一个output token的时间是input token的约200倍。

LLM Agents的特性

大约80%的tokens来自输入，包括初始提示词和推理过程中Agent的消耗。输出tokens对于响应时间有更大的影响。

在在线服务场景中，例如聊天机器人，大语言模型（Large Language Model, LLM）推理通常采用流式输出（streaming）的形式。其中，首个token的生成时延（即Time to First Token, TTFT）是用户感知到的响应时间的关键指标，直接影响整体用户体验。为了提升用户体验，在线服务通常要求首token时延尽可能低，理想情况下控制在一秒以内。

LLM的首token时延受到多个因素的影响，包括模型的参数规模、提示词（Prompt）的长度、批处理大小（Batch Size）以及所使用的GPU资源等。

首token时延直接影响用户体验

首token时延是用户从发送请求到收到LLM推理结果的第一个token所需的时间。这是用户感知服务速度的核心指标。在聊天机器人、实时翻译等场景中，延迟过长会导致用户体验下降，例如对对话流畅性的预期失落。理想的首token时延应控制在一秒以内，以提供更流畅的交互体验。

影响首token时延的关键因素

首token时延受到以下因素的综合影响：

模型参数规模：较大的模型（如GPT-4）由于参数量大，计算复杂度高，生成首token的时间通常较长。
Prompt长度：输入的提示词越长，模型需要解析和处理的数据越多，从而增加推理时间。
Batch Size（批处理大小）：批量处理的规模会影响单个请求的响应时间，Batch Size越大，单个请求的时延可能会增加。
GPU资源：硬件性能直接决定了计算速度，使用高性能GPU（如A100或H100）可以明显降低时延。

System Prompt重复计算导致的时延问题

在LLM推理中，System Prompt通常是一段较长的输入，用于定义模型的行为和上下文。例如，在聊天机器人中，System Prompt可能包括角色设定或服务规则。当用户进行多次请求时，每次推理都需要重复计算这段固定的输入内容，从而造成不必要的计算开销，显著增加了首token时延。

System Prompt Caching的优化作用

通过System Prompt Caching技术，可以将System Prompt的计算结果缓存下来，避免重复计算，从而大幅提高首token的生成速度。System Prompt Caching分为以下两种形式：

Prefix Sharing：在多用户或多请求场景下，共享计算后的System Prompt前缀，减少重复处理。
Prompt Cache：直接缓存用户的System Prompt计算结果，在后续请求中复用。

实际效果显示，通过使用缓存技术，首token时延可以减少30%-50%，显著提升用户体验。

TRT-LLM推理引擎支持System Prompt Caching

TRT-LLM是一款专为LLM推理优化的高性能引擎，已经支持System Prompt Caching功能。这使得它成为降低首token时延的理想选择之一。在实际测试中，通过启用System Prompt Caching，生成首token的时延显著降低，尤其适用于需要频繁处理长System Prompt的场景。当前版本中，System Prompt Caching与FP8 KV Cache和INT8 KV Cache功能不兼容，这意味着同时使用这些功能时会遇到冲突。期待在下一个版本中修复这一问题。

Triton & TRT-LLM是推荐的推理解决方案

在LLM推理领域，Triton与TRT-LLM是推荐的高性能解决方案：

Triton：支持RESTFul API，并且支持流式输出（streaming），可以满足各种在线服务的需求。
TRT-LLM：结合了强大的优化功能，例如System Prompt Caching和高效推理引擎，进一步降低时延并提高推理效率。

场景举例：在电商客服机器人场景中，用户连续提问多个问题，启用System Prompt Caching后，可以快速响应每个问题，显著减少用户等待时间，提升交互满意度。

通过这篇文章，我们深入探讨了优化大型语言模型（LLM）推理中首token时延的技术关键点，这一指标对提升用户体验至关重要。文章详细介绍了System Prompt Caching的核心概念，包括前缀共享（Prefix Sharing）和提示缓存（Prompt Cache），作为降低计算负载和减少首token生成时间的创新解决方案。同时，文章还分析了支持该功能的TRT-LLM推理引擎，特别是在处理长系统提示时所展现的显著性能提升。这篇内容不仅为开发者和工程师提供了LLM性能优化的实际指导，还揭示了未来与其他缓存方法增强兼容性的潜力，表明该领域正在快速进步。

热门推荐

中国团队破解3D打印“速度-韧性”难题，成果登《自然》