本地离线模型搭建指南-中文大语言模型底座选择依据
创作时间:
作者:
@小白创作中心
本地离线模型搭建指南-中文大语言模型底座选择依据
引用
CSDN
1.
https://blog.csdn.net/Master_Shifu_/article/details/139903072
搭建一个本地中文大语言模型(LLM)涉及多个关键步骤,从选择模型底座,到运行机器和框架,再到具体的架构实现和训练方式。以下是一个详细的指南,帮助你从零开始构建和运行一个中文大语言模型。
本地离线模型搭建指南将按照以下四个部分展开:
- 中文大语言模型底座选择依据
- 本地运行显卡选择
- RAG架构实现
- LLaMA-Factory训练框架及工具
1 中文大语言模型底座选择依据
在选择中文大语言模型(LLM)的底座时,可以参考以下几个关键因素:
1.1 模型规模与参数
根据具体应用场景选择不同规模的模型。比如:
- ChatGLM系列:包含6B参数的模型,适合中小规模应用,且支持商业用途。
- LLaMA系列:提供7B、8B、13B、33B和70B等多种规模,部分版本可商用。
- Baichuan系列:提供7B和13B参数的模型,适合需要较大规模的应用。
- Qwen系列:提供7B、14B、72B和110B参数的模型,支持较长的上下文长度,适合复杂场景。
- BLOOM:从1B到176B-MT,多种规模选择。
- Aquila系列:包括7B和34B参数版本。
- InternLM系列:从7B到20B参数,支持代码应用。
- Mixtral、Yi、DeepSeek、XVERSE等:提供多种参数规模,适合不同应用需求。
常见底座模型细节概览:
底座 | 包含模型 | 模型参数大小 | 训练token数 | 训练最大长度 | 是否可商用 |
---|---|---|---|---|---|
ChatGLM | ChatGLM/2/3 Base&Chat | 6B | 1T/1.4 | 2K/32K | 可商用 |
LLaMA | LLaMA/2/3 Base&Chat | 7B/8B/13B/33B/70B | 1T/2T | 2k/4k | 部分可商用 |
Baichuan | Baichuan/2 Base&Chat | 7B/13B | 1.2T/1.4T | 4k | 可商用 |
Qwen | Qwen/1.5 Base&Chat | 7B/14B/72B/110B | 2.2T/3T | 8k/32k | 可商用 |
BLOOM | BLOOM | 1B/7B/176B-MT | 1.5T | 2k | 可商用 |
Aquila | Aquila/2 Base/Chat | 7B/34B | - | 2k | 可商用 |
InternLM | InternLM/2 Base/Chat/Code | 7B/20B | - | 200k | 可商用 |
Mixtral | Base&Chat | 8x7B | - | 32k | 可商用 |
Yi | Base&Chat | 6B/9B/34B | 3T | 200k | 可商用 |
DeepSeek | Base&Chat | 1.3B/7B/33B/67B | - | 4k | 可商用 |
XVERSE | Base&Chat | 7B/13B/65B/A4.2B | 2.6T/3.2T | 8k/16k/256k | 可商用 |
1.2 训练数据与Token数
不同模型经过不同规模的数据训练,影响其在特定任务上的表现:
- ChatGLM:经过1到1.4T的中英文标识符训练,适合中文问答和对话。
- LLaMA:经过1T到2T的训练。
- Baichuan:训练数据在1.2T到1.4T之间。
- Qwen:训练数据量高达2.2T到3T,支持复杂任务。
- BLOOM:经过1.5T的训练。
- XVERSE:训练数据量达2.6T到3.2T。
1.3 上下文长度支持
根据应用需求选择支持较长上下文长度的模型:
- ChatGLM2-6B:上下文长度扩展到32K。
- Qwen:支持8K到32K的上下文长度。
- Mixtral、Yi、DeepSeek:支持200k到256k的上下文长度。
1.4 商业用途许可
确保所选模型允许商业用途:
- ChatGLM、LLaMA、Baichuan、Qwen、BLOOM、Aquila、InternLM、Mixtral、Yi、DeepSeek、XVERSE等模型均允许商业用途。
1.5 垂直领域微调与应用
考虑模型在特定领域的微调效果:
- 医疗、法律、金融、教育、科技、电商、网络安全、农业等领域的垂直应用。
1.6 具体模型推荐
以下是一些具体的模型推荐及其特点:
- ChatGLM系列:适合中文问答和对话,经过中英文双语训练,支持商业用途。
- LLaMA系列:提供多种规模,部分版本适合商用。
- Baichuan系列:适合需要较大规模训练的应用。
- Qwen系列:支持复杂任务和长上下文长度。
- InternLM系列:适合代码相关应用。
更多详细信息和具体模型的链接,请访问Awesome-Chinese-LLM项目。
下一篇介绍:本地离线模型搭建指南-本地运行显卡选择
热门推荐
孕期无创亲子鉴定:原理、准确性及法律意义全解析
无创产前亲子鉴定准确吗?一文揭晓
美国一般公认审计准则(GAAS):基本框架与执行指南
凭抚养权能帮孩子办理户口迁移吗
梦的囚徒——梦境的奥秘:做梦与做梦剥夺
“哪吒热”带旺二次元经济
巨轮智能:在机遇与挑战中破浪前行
沟通技巧的实用案例分析
如何通过经营改善公司负债情况
量化分析师是如何解读数据背后的秘密的?
失业登记对个人有影响吗
医疗器械分为三类,它们之间有何区别?
突然火了!别乱来!严重会灼伤皮肤!医生紧急提醒……
「善意」取名的含义_善意名字寓意
一不小心得了胃癌?5类高危人群,做好早期预防,出现症状快就医
如何分析黄金加仓对价值的影响?这种影响如何进行评估?
拔牙时打麻醉的影响有哪些?了解麻醉对拔牙过程的作用与结果
7000对10万!辽沈战役中,谁下令这个独立师单独阻击廖耀湘兵团?
给予妇幼更好的健康呵护——2025年全国妇幼健康工作会议侧记
大学生如何为家庭分担经济压力?5个实用建议
给过去10年“最好的年代剧”排名,《人世间》仅排第3,第1没争议
eVTOL飞机行业的崛起与未来发展:航空结构供应商纷纷涌入
杨朱学派归属的探讨:道家还是道家的反对派?
二胎家庭选车指南:座椅布局实测,教你选最实用车型
看不见的力量——超声技术在工业中的应用
出现蛋白质尿是怎么回事?可能是这些原因
中国科学家突破二维金属碲化物材料批量制备难题
怎么一招辨别怀没怀孕?判断怀孕科学方法与注意事项!
我们不知道答案的125个科学问题(95)性格的形成
王者荣耀吕布攻略:超神团战技巧与出装策略详解