问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

怎样根据模型参数量计算推理时需要的显存？

创作时间:

作者:

@小白创作中心

怎样根据模型参数量计算推理时需要的显存？

引用

1

来源

1.

https://caovan.com/zenyanggenjumoxingcanshuliangjisuantuilishixuyaodexiancun/.html

随着开源大模型雨后春笋一样的发布，怎样根据模型的参数量来计算所需要的显存成了很多小伙伴关心的话题！我们今天就一起来了解下这个知识！

假如有一个块3090 24G的显卡，我比较关心的一定是我最大能跑多少参数的大模型？

目前模型的参数绝大多数都是float32类型, 占用4个字节。所以一个粗略的计算方法就是，每10亿个参数，占用4G显存(实际应该是10^9*4/1024/1024/1024=3.725G)，不过我们用4G来计算就可以了。

比如LLaMA的参数量为7000559616，那么全精度加载这个模型参数需要的显存为：

7000559616 * 4 /1024/1024/1024 = 26.08G

如果我们用半精度的FP16/BF16来加载，这样每个参数只占2个字节，所需显存就降为一半，半精度是个不错的选择，显存少了一半，模型效果因为精度的原因会略微降低，但一般在可接受的范围之内。

除了半精度，大模型还有8位精度和4位精度，对显存的需求量分别下降到原来的1/4和1/8，我们用Qwen1.5系列的模型来举例：

Qwen1.5版的模型一共推出了7个不同的参数量，分别是0.5B、1.8B、4B、7B、14B、32B、72B

以下皆是粗略计算！

如果是全精度的话，分别需要的显卡显存是：
2G、7.2G、16G、28G、56G、128G、288G

如果是半精度的话，分别需要的显卡显存是：
1G、3.6G、8G、14G、28G、64G、144G

如果是8位精度的话，分别需要的显卡显存是：
0.5G、1.8G、4G、7G、14G、32G、72G

如果是4位精度的话，分别需要的显卡显存是：
0.25G、0.9G、2G、3.5G、7G、16G、36G

不过上面只是加载模型需要用到的显存量，模型运算时的一些临时变量也需要申请空间，比如你beam search的时候。所以真正做推理的时候记得留一些Buffer，不然就容易OOM。

参考资料：https://blog.csdn.net/weixin_44292902/article/details/133767448

热门推荐

2024年美国大学学费报告最新发布！

2024年美国大学学费报告最新发布！

木材干燥技术的现状与展望

木材干燥技术的现状与展望

SQLite 数据库：优点、语法与快速入门指南

SQLite 数据库：优点、语法与快速入门指南

烦恼即是菩提！为什么把烦恼去掉，菩提也没有了？

烦恼即是菩提！为什么把烦恼去掉，菩提也没有了？

牛丼的诞生与发展：日本“国民快餐”背后的社会文化变迁

牛丼的诞生与发展：日本“国民快餐”背后的社会文化变迁

如何写通达信公式源码

如何写通达信公式源码

U20国足两连胜晋级！14年第一次，破17年魔咒，3天后争榜首

U20国足两连胜晋级！14年第一次，破17年魔咒，3天后争榜首

认真的倾听才是真正的尊重

认真的倾听才是真正的尊重

重庆美食概览

重庆美食概览

Z世代消费潜力爆表，品牌如何捕获95后的心？

Z世代消费潜力爆表，品牌如何捕获95后的心？

用什么方法可以简单的演示项目的内容

用什么方法可以简单的演示项目的内容

工伤必看丨微信截图如何证明劳动关系？

工伤必看丨微信截图如何证明劳动关系？

三分钟带你了解精益、绿色、智能化的工厂建设新模式

三分钟带你了解精益、绿色、智能化的工厂建设新模式

草木的抵近观察与美学书写——评蔡英生态散文精选《南方草木记》

草木的抵近观察与美学书写——评蔡英生态散文精选《南方草木记》

电机的Matlab/Simulink建模方法

电机的Matlab/Simulink建模方法

哪里可以找到行业标准的图片示例？

哪里可以找到行业标准的图片示例？

充电频率与电池寿命：你可能错的90%真相

充电频率与电池寿命：你可能错的90%真相

北京必去的免费博物馆，四层震撼环形巨幕，一整天都逛不完

北京必去的免费博物馆，四层震撼环形巨幕，一整天都逛不完

门禁考勤系统升级：提升员工体验与企业管理效率

门禁考勤系统升级：提升员工体验与企业管理效率

什么是高扭矩功率？详解电动汽车的核心技术指标

什么是高扭矩功率？详解电动汽车的核心技术指标

如何进入光遇的团队

如何进入光遇的团队

江南大学乔辉团队开发新型MXene基材料，助力高性能锂/钠离子电池

江南大学乔辉团队开发新型MXene基材料，助力高性能锂/钠离子电池

审查意见答复之放大申请文件与对比文件之间的区别

审查意见答复之放大申请文件与对比文件之间的区别

5分钟快速除霜秘籍！汽车挡风玻璃结霜不再愁

5分钟快速除霜秘籍！汽车挡风玻璃结霜不再愁

布政使、按察使都是省级大员，但相比督抚，少了一个重要的权力

布政使、按察使都是省级大员，但相比督抚，少了一个重要的权力

富裕心态：培养积极财富观的重要性

富裕心态：培养积极财富观的重要性

串门礼仪新解：这4种情况只随礼，别留下吃饭

串门礼仪新解：这4种情况只随礼，别留下吃饭

MATLAB使用教程：修改坐标轴范围、刻度和标签

MATLAB使用教程：修改坐标轴范围、刻度和标签

《自然》子刊：衰老加速，原来是这些小东西作祟！赵超/孙宁团队提出抗衰老新思路

《自然》子刊：衰老加速，原来是这些小东西作祟！赵超/孙宁团队提出抗衰老新思路

图解中医针灸秘术：鬼门十三针

图解中医针灸秘术：鬼门十三针

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号