大模型的显存占用计算方法
创作时间:
作者:
@小白创作中心
大模型的显存占用计算方法
引用
CSDN
1.
https://blog.csdn.net/RamendeusStudio/article/details/140154864
参数的数量和量化决定了模型的大小,这是使用LLM的一个主要限制。
要使用 LLM,我们必须将模型放入内存中。使用 32 位浮点 (FP32),1 个参数需要 4 字节 RAM。
使用 16 位量化(BFLOAT16 或 FP16),我们可以将其减少到 1 个参数的 2 字节 RAM。
对于 8 位整数 (INT8),我们需要 1 字节的 RAM 用于 1 个参数。
因此,在内存中存储 10 亿 (1B) 个 LLM 参数需要大约 4GB 内存(32 位全精度)、2GB 内存(16 位半精度)和 1GB 内存(8 位精度)。
举例来说,我的 GeForce 2060 显卡有 6 GB 的内存,可以容纳大约 1.5B 参数@32 位,或 3B 参数@16 位,或 6B 参数@8 位。
但是,仅加载 CUDA 内核就会消耗 1-2GB 的内存。因此,实际上,您无法仅使用参数填满整个 GPU 内存。
训练 LLM 需要更多的 GPU RAM,因为优化器状态、梯度和前向激活每个参数都需要额外的内存 [3]。
选择 LLM 时,请查看 GPU 有多少 GB 的内存,然后选择合适的模型。使用 1B 参数 = 2GB@16 位或 1GB@8 位作为经验法则。
本文原文来自CSDN博客
热门推荐
提莫西·查拉梅新作《无名小辈》引爆期待
为何会迎风流泪?医生提醒:这3种疾病要当心,尤其是老年人
春季易上火?中医5招教你有效预防
桂林文化:桂林历史文化与山水文化解说
官宣!武汉枢纽直通线来了!
电梯维修遇拖延?业主维权这样做!
崇川区创新“微治理”模式,筑牢社区电梯安全防线
小区电梯频发故障,物业到底咋回事?
上海老旧电梯之困:6年换梯路折射制度难题
广州第二机场获批开建,白云机场三期将达1.2亿人次吞吐量
雾化神器:布地奈德治咽炎
家长会称呼老师的正确姿势🔥
初次见面怎么称呼女生最讨喜?这些称呼最受欢迎
家长见面礼仪全攻略:从称呼到送礼,这些细节不能少
舒尔茨解读星巴克中国成功之道:坚持人文精神,灵活合作模式
A股低迷期,中国债券市场迎来投资机遇
刘昌松教你A股低迷期如何避险
A股低迷,制造业PMI再爆冷门:如何理性看待市场波动?
琼瑶逝世:她将红楼梦韵融入现代言情,影响几代读者
台湾作家琼瑶逝世,享年86岁:她是两岸影视交流的开拓者
琼瑶遗书呼吁安乐死合法化,台湾社会掀起善终权讨论热潮
糖尿病虚弱困扰如何破?饮食运动药物三管齐下
39%的年轻人爱上中医养生,国潮养生引领健康新风尚
冬季养生正当时:从日常习惯到中药调理
压力激活免疫反应,西奈山研究揭示大脑健康新机制
慢性肾病患者营养管理新指南发布,这三种营养素缺乏最常见
玉湖公园四季美景打卡攻略
🤖 聊天机器人的崛起:改变客户互动和业务自动化
有机蔬菜与绿色蔬菜的区别(前者禁用化学物质、后者按标准体系)
重庆大学城三中“阳光杯”马拉松火爆全网