问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

本地离线模型搭建指南:本地运行显卡选择

创作时间:
作者:
@小白创作中心

本地离线模型搭建指南:本地运行显卡选择

引用
CSDN
1.
https://blog.csdn.net/Master_Shifu_/article/details/139902029

随着人工智能技术的快速发展,越来越多的开发者开始尝试在本地搭建中文大语言模型。本文将详细介绍如何选择适合本地运行的显卡,帮助读者从硬件层面为模型搭建做好准备。

2. 本地运行显卡选择

在Awesome-Chinese-LLM仓库中,有许多中文大语言模型适合在本地运行。对于需要选择消费级别显卡的用户,可以参考以下信息:

2.1 适合消费级别显卡运行的模型参数大小

  • 大小为6B或7B,部分8B的模型,可以在消费级别的显卡上运行。显存建议8G起步,否则会出现模型加载不成功的问题。
  • 这些模型参数大小同样也可以在CPU上运行,但聊天文字生成速度只有同类型显卡的1/5-1/10。CPU配置最低建议16核心,32G内存。

2.2 推荐消费级别显卡

  • NVIDIA GeForce RTX 4060 至 4090 系列,显存12GB起步。
  • NVIDIA T4卡也可以运行本地模型。

2.3 性能比较

  • T4卡:服务器级别GPU计算图形显卡,本地运行模型推荐12G起步,大致对等评估,T4卡16G的性能和4070T16G显存性能一致。
  • RTX 4060-4090 系列:消费级显卡,性能强劲,显存从12GB到24GB不等,适合高性能计算和深度学习任务,本地运行模型推荐12G起步。


2.4 消费级显卡配置建议

  1. 优先选择单卡配置:单卡配置简单,易于管理。
  2. 双卡配置:消费级台式机最多支持两张显卡集火(NVIDIA SLI或NVLink)。
    若需突破双卡限制:
  • 请查阅并考虑使用华硕 ESC8000-G4 服务器配置,该服务器支持多达8张显卡的集火,适用于更大规模的计算需求。

2.5 本地部署模型实践运行配置

底座
包含模型
模型参数大小
机器配置
显存大小
是否可运行
ChatGLM
ChatGLM3-6B
6B
CPU 16核心 32G内存
可以
ChatGLM
ChatGLM3-6B
6B
显卡4070Ti
16G
可以
ChatGLM
ChatGLM4-9B
9B
显卡4070Ti
16G
可以
LLaMA
Chinese-LlaMA2
7B
显卡3060Ti
8G
可以
Qwen
Qwen1.5
7B
显卡4070Ti
16G
可以

注意:以上运行均值单独运行模型后是否可以运行以及显存是否够用,如果后期做RAG架构,ChatGLM4-9B模型在16G显存上不够,刚好差200M的显存,所以如果买新显卡,如果预算够,显存是第一优先考虑选项,之后才是显卡的计算能力。

2.6 相关模型链接

  • ChatGLM
  • ChatGLM2-6B
  • ChatGLM3-6B
  • Chinese-LLaMA-Alpaca
  • Chinese-LLaMA-Alpaca-2
  • Chinese-LlaMA2
  • Llama2-Chinese
  • Qwen/Qwen1.5

选择适合的显卡和配置,可以在本地高效地运行这些中文大语言模型。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号