问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大模型推理中的KV Cache原理与显存占用分析

创作时间:

作者:

@小白创作中心

大模型推理中的KV Cache原理与显存占用分析

引用

CSDN

1.

https://blog.csdn.net/muyao987/article/details/140364179

在大模型推理过程中，KV Cache是一个关键的技术优化手段，它通过缓存K和V矩阵来减少重复计算，从而降低显存占用和提高推理效率。本文将详细解析KV Cache的工作原理及其显存占用情况。

Self-Attention 与 KV Cache

在Transformer模型中，Self-Attention机制是核心组成部分。当新生成的token x进入模型计算Attention时，会分别乘上参数矩阵$W_q$、$W_k$、$W_v$得到向量q，以及矩阵K、V。然后根据下面的公式计算当前token与前面tokens的注意力权重（本文为了简化，不考虑多头MHA）：

$$
Attention(q, K, V) = softmax(\frac{qK^T}{\sqrt{d_k}})V
$$

在自回归生成过程中，K和V矩阵并没有太大变化。例如，当计算单词"chill"时，实际上只需要在原始K矩阵追加一列，原始V矩阵追加一行，而不需要每生成一个token都重新计算一遍K、V矩阵。这就是KV Cache的意义。

因此，在推理时，我们不需要每次传入前面全部token序列的embedding，而只需传入KV Cache以及当前token x的embedding。Transformer在计算完当前token x的Attention之后，会把新的K'和V'更新到GPU显存中。如下图所示，Masked Multi Self Attention这块是唯一和前面序列有交互的模块，其他模块（比如Layer Norm、FFN、位置编码等）都不涉及与已生成token的交互。

KV Cache 显存占用分析

KV Cache的显存占用计算方式如下：

$$
2 * precision * n_{layer} * d_{model} * seq_len * batch_size
$$

2是指K跟V俩矩阵。
$precision$是模型每个参数的字节数，比如fp32精度下每个参数4字节。
$n_{layer}$和$d_{model}$分别是模型Decoder layer层数和embedding维度大小。
$seq_len$和$batch_size$分别是最大序列长度和global batch size。

以OPT-30B模型为例（bf16，48层，7168维，1024上下文，128 batch size），KV Cache占用的显存是：

$$
2 * 2 * 48 * 7168 * 1024 * 128 = 180,388,626,432 bytes ≈ 180GB
$$

而模型本身仅占显存：

$$
2 * 30B = 60B bytes = 60GB
$$

可以看出，光KV Cache就占了模型本身显存的3倍。当然，一般推理时batch size是1，这时候KV Cache显存占用会大幅减少（约1/128）。但是，batch模式能够最大化利用显存，这也是为什么各个大模型厂商的batch模式推理通常更便宜的原因。

参考资料：油管《The KV Cache: Memory Usage in Transformers》

热门推荐

《子路、曾皙、冉有、公西华侍坐》《庖丁解牛》文言文知识点详解

《子路、曾皙、冉有、公西华侍坐》《庖丁解牛》文言文知识点详解

房产税车船税契税分析课件

房产税车船税契税分析课件

全球著名赛道及其历史演变分析

全球著名赛道及其历史演变分析

如何看咳痰的颜色辨别疾病

如何看咳痰的颜色辨别疾病

儿童生长发育的三个常见误区

儿童生长发育的三个常见误区

DC系列电影观看顺序2025

DC系列电影观看顺序2025

千行百业春潮涌——四川着力扩内需促消费推动经济持续向好

千行百业春潮涌——四川着力扩内需促消费推动经济持续向好

开发APP的费用受哪些因素的影响?

开发APP的费用受哪些因素的影响?

什么是音乐中的和声

什么是音乐中的和声

爱格板是欧松板还是颗粒板？一文详解板材分类与选购要点

爱格板是欧松板还是颗粒板？一文详解板材分类与选购要点

地中海气候特点及分布

地中海气候特点及分布

洁白素雅！用纯净之色打开回族服饰

洁白素雅！用纯净之色打开回族服饰

茼蒿被称为“皇帝菜”　究竟是为啥？

茼蒿被称为“皇帝菜”　究竟是为啥？

小儿疫苗接种安全问题之：心因性反应

小儿疫苗接种安全问题之：心因性反应

西宁，不是中转站

西宁，不是中转站

海中胖虎——虎鲸

海中胖虎——虎鲸

五年制大专社会承认吗和三年制大专的区别

五年制大专社会承认吗和三年制大专的区别

按揭购房的最低首付比例是多少？

按揭购房的最低首付比例是多少？

头晕心慌心悸胸闷做什么检查能查出来

头晕心慌心悸胸闷做什么检查能查出来

云计算数据安全与合规管理策略

云计算数据安全与合规管理策略

博物馆陶器文物保护修复技术详解

博物馆陶器文物保护修复技术详解

苹果黄芪水：超简单的养生饮品制作方法

苹果黄芪水：超简单的养生饮品制作方法

马来西亚拉曼大学：专业设置、申请条件及费用详解

马来西亚拉曼大学：专业设置、申请条件及费用详解

手伤口感染吃什么药效果好

手伤口感染吃什么药效果好

常嘔酸水、胸骨後疼痛，小心胃食道逆流惹禍！中醫調脾胃、疏泄肝氣緩解

常嘔酸水、胸骨後疼痛，小心胃食道逆流惹禍！中醫調脾胃、疏泄肝氣緩解

儿童烫伤急救方法：专业医生详解关键四步

儿童烫伤急救方法：专业医生详解关键四步

【Windows自带工具】使用findstr.exe搜索包含特定字符串的文件

【Windows自带工具】使用findstr.exe搜索包含特定字符串的文件

海洋中速度最快的 15 种动物

海洋中速度最快的 15 种动物

如何评估创新业务模式的效果？

如何评估创新业务模式的效果？

希特勒是如何死的？最后下葬在哪里？苏联绝密资料，揭开谜案真相

希特勒是如何死的？最后下葬在哪里？苏联绝密资料，揭开谜案真相

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号