问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

本地离线模型搭建指南-中文大语言模型底座选择依据

创作时间:

作者:

@小白创作中心

本地离线模型搭建指南-中文大语言模型底座选择依据

引用

CSDN

1.

https://blog.csdn.net/Master_Shifu_/article/details/139903072

搭建一个本地中文大语言模型（LLM）涉及多个关键步骤，从选择模型底座，到运行机器和框架，再到具体的架构实现和训练方式。以下是一个详细的指南，帮助你从零开始构建和运行一个中文大语言模型。

本地离线模型搭建指南将按照以下四个部分展开：

中文大语言模型底座选择依据
本地运行显卡选择
RAG架构实现
LLaMA-Factory训练框架及工具

1 中文大语言模型底座选择依据

在选择中文大语言模型（LLM）的底座时，可以参考以下几个关键因素：

1.1 模型规模与参数

根据具体应用场景选择不同规模的模型。比如：

ChatGLM系列：包含6B参数的模型，适合中小规模应用，且支持商业用途。
LLaMA系列：提供7B、8B、13B、33B和70B等多种规模，部分版本可商用。
Baichuan系列：提供7B和13B参数的模型，适合需要较大规模的应用。
Qwen系列：提供7B、14B、72B和110B参数的模型，支持较长的上下文长度，适合复杂场景。
BLOOM：从1B到176B-MT，多种规模选择。
Aquila系列：包括7B和34B参数版本。
InternLM系列：从7B到20B参数，支持代码应用。
Mixtral、Yi、DeepSeek、XVERSE等：提供多种参数规模，适合不同应用需求。

常见底座模型细节概览：

底座	包含模型	模型参数大小	训练token数	训练最大长度	是否可商用
ChatGLM	ChatGLM/2/3 Base&Chat	6B	1T/1.4	2K/32K	可商用
LLaMA	LLaMA/2/3 Base&Chat	7B/8B/13B/33B/70B	1T/2T	2k/4k	部分可商用
Baichuan	Baichuan/2 Base&Chat	7B/13B	1.2T/1.4T	4k	可商用
Qwen	Qwen/1.5 Base&Chat	7B/14B/72B/110B	2.2T/3T	8k/32k	可商用
BLOOM	BLOOM	1B/7B/176B-MT	1.5T	2k	可商用
Aquila	Aquila/2 Base/Chat	7B/34B	-	2k	可商用
InternLM	InternLM/2 Base/Chat/Code	7B/20B	-	200k	可商用
Mixtral	Base&Chat	8x7B	-	32k	可商用
Yi	Base&Chat	6B/9B/34B	3T	200k	可商用
DeepSeek	Base&Chat	1.3B/7B/33B/67B	-	4k	可商用
XVERSE	Base&Chat	7B/13B/65B/A4.2B	2.6T/3.2T	8k/16k/256k	可商用

1.2 训练数据与Token数

不同模型经过不同规模的数据训练，影响其在特定任务上的表现：

ChatGLM：经过1到1.4T的中英文标识符训练，适合中文问答和对话。
LLaMA：经过1T到2T的训练。
Baichuan：训练数据在1.2T到1.4T之间。
Qwen：训练数据量高达2.2T到3T，支持复杂任务。
BLOOM：经过1.5T的训练。
XVERSE：训练数据量达2.6T到3.2T。

1.3 上下文长度支持

根据应用需求选择支持较长上下文长度的模型：

ChatGLM2-6B：上下文长度扩展到32K。
Qwen：支持8K到32K的上下文长度。
Mixtral、Yi、DeepSeek：支持200k到256k的上下文长度。

1.4 商业用途许可

确保所选模型允许商业用途：

ChatGLM、LLaMA、Baichuan、Qwen、BLOOM、Aquila、InternLM、Mixtral、Yi、DeepSeek、XVERSE等模型均允许商业用途。

1.5 垂直领域微调与应用

考虑模型在特定领域的微调效果：

医疗、法律、金融、教育、科技、电商、网络安全、农业等领域的垂直应用。

1.6 具体模型推荐

以下是一些具体的模型推荐及其特点：

ChatGLM系列：适合中文问答和对话，经过中英文双语训练，支持商业用途。
LLaMA系列：提供多种规模，部分版本适合商用。
Baichuan系列：适合需要较大规模训练的应用。
Qwen系列：支持复杂任务和长上下文长度。
InternLM系列：适合代码相关应用。

更多详细信息和具体模型的链接，请访问Awesome-Chinese-LLM项目。

下一篇介绍：本地离线模型搭建指南-本地运行显卡选择

热门推荐

Wincc 7.5经典版与PLC通讯配置详解

Wincc 7.5经典版与PLC通讯配置详解

期货震荡期的特征是什么？如何应对期货震荡期的风险？

期货震荡期的特征是什么？如何应对期货震荡期的风险？

家庭养花大全及方法（25种家庭常见花卉养护技巧）

家庭养花大全及方法（25种家庭常见花卉养护技巧）

如何在日常生活中禅修

如何在日常生活中禅修

在我国5种合法的“一户多宅”，户口与房屋的关系被征收人知道吗

在我国5种合法的“一户多宅”，户口与房屋的关系被征收人知道吗

"菜刀哥"李坤朋突陷重病！ICU生死较量，家属：靠呼吸机维持

"菜刀哥"李坤朋突陷重病！ICU生死较量，家属：靠呼吸机维持

太康各界送别因病离世的暴雨救人英雄"菜刀哥"李坤朋

太康各界送别因病离世的暴雨救人英雄"菜刀哥"李坤朋

周末如何避开东湖“樱花堵”，官方交通攻略来了

周末如何避开东湖“樱花堵”，官方交通攻略来了

吃完饭胃胀胃顶着难受不消化怎么办

吃完饭胃胀胃顶着难受不消化怎么办

全麻有什么危害和后遗症吗

全麻有什么危害和后遗症吗

新生儿额温多少正常

新生儿额温多少正常

“咬春”正当时！吃这些“鲜客”，这样更能吃出“新鲜感”

“咬春”正当时！吃这些“鲜客”，这样更能吃出“新鲜感”

儒教的创立、发展和完成

儒教的创立、发展和完成

鲁迅文摘：哀其不幸，怒其不争！

鲁迅文摘：哀其不幸，怒其不争！

医务人员艾滋病职业暴露预防与处置指南

医务人员艾滋病职业暴露预防与处置指南

如何通过“看八字命格案例大全”深入理解个人命运

如何通过“看八字命格案例大全”深入理解个人命运

青海水上雅丹景点介绍青海水上雅丹旅游攻略（魔鬼城）

青海水上雅丹景点介绍青海水上雅丹旅游攻略（魔鬼城）

乒乓球，不止是竞技！18句文案让你爱上这项运动的魅力与乐趣！

乒乓球，不止是竞技！18句文案让你爱上这项运动的魅力与乐趣！

陈其美遇刺身亡，为何无人敢管？蒋介石：他是我一生铭记的结拜大哥

陈其美遇刺身亡，为何无人敢管？蒋介石：他是我一生铭记的结拜大哥

电热毯什么牌好？电热毯怎么正确使用？

电热毯什么牌好？电热毯怎么正确使用？

《苹果香》这首歌表达什么意思

《苹果香》这首歌表达什么意思

TCP重传机制详解：超时重传、快速重传、SACK与D-SACK

TCP重传机制详解：超时重传、快速重传、SACK与D-SACK

TCP 有超时重传，为什么还需要快速重传机制？

TCP 有超时重传，为什么还需要快速重传机制？

苏州吴中区：推动农文旅深度融合助力乡村振兴大放异彩

苏州吴中区：推动农文旅深度融合助力乡村振兴大放异彩

沙格列汀片正确服用方法

沙格列汀片正确服用方法

电动自行车充电桩收费标准全解析

电动自行车充电桩收费标准全解析

网卡的基本知识与选择指南：助你畅享网络生活

网卡的基本知识与选择指南：助你畅享网络生活

什么是网卡？网卡用途、网卡类型和网卡优点介绍

什么是网卡？网卡用途、网卡类型和网卡优点介绍

边牧的饲养与照顾指南（关注边牧的健康和幸福，让你的宠物成为最好的伙伴）

边牧的饲养与照顾指南（关注边牧的健康和幸福，让你的宠物成为最好的伙伴）

兰花消毒用什么药

兰花消毒用什么药

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号