Ollama本地部署大模型(纯CPU推理)实践
创作时间:
作者:
@小白创作中心
Ollama本地部署大模型(纯CPU推理)实践
引用
CSDN
1.
https://blog.csdn.net/yang2330648064/article/details/137185603
说明
本文旨在分享在Linux(CentOS 8)平台使用Docker部署轻量化大模型的实践,仅供学习和体验,无法适用于生产环境。运维面板使用飞致云的开源面板1Panel,使用Ollama Docker方案快速部署大模型,总共需要两个Docker环境:Ollama容器环境和Ollama WebUI容器环境。
Ollama和Ollama WebUI简介
- Ollama:一个开源的大型语言模型服务,提供类似OpenAI的API接口和聊天界面,可以非常方便地部署最新版本的GPT模型并通过接口使用。支持热加载模型文件,无需重新启动即可切换不同的模型。
- Open WebUI:针对LLM用户友好的WebUI,支持的LLM运行程序包括Ollama、OpenAI兼容的API。
Ollama模型硬件要求
Ollama支持ollama.com/library上提供的一系列模型。
内存要求
注意:运行7B型号至少需要8GB可用RAM(内存),运行13B型号至少需要16GB可用RAM(内存),运行33B型号至少需要32GB可用RAM(内存)。
示例模型:
Model | Parameters | Size | Download |
|---|---|---|---|
Llama 2 | 7B | 3.8GB | ollama run llama2 |
Mistral | 7B | 4.1GB | ollama run mistral |
Dolphin Phi | 2.7B | 1.6GB | ollama run dolphin-phi |
Phi-2 | 2.7B | 1.7GB | ollama run phi |
Neural Chat | 7B | 4.1GB | ollama run neural-chat |
Starling | 7B | 4.1GB | ollama run starling-lm |
Code Llama | 7B | 3.8GB | ollama run codellama |
Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
Llama 2 13B | 13B | 7.3GB | ollama run llama2:13b |
Llama 2 70B | 70B | 39GB | ollama run llama2:70b |
Orca Mini | 3B | 1.9GB | ollama run orca-mini |
Vicuna | 7B | 3.8GB | ollama run vicuna |
LLaVA | 7B | 4.5GB | ollama run llava |
Gemma | 2B | 1.4GB | ollama run gemma:2b |
Gemma | 7B | 4.8GB | ollama run gemma:7b |
Ollama容器部署
- 在1Panel应用商店中选择Ollama进行安装
- 配置容器的启动配置:容器名称、端口,最后,点击启动即可
Ollama容器内模型下载和对话
- 根据机器内存和CPU性能可以进入容器,下载示例模型
Model | Parameters | Size | Download |
|---|---|---|---|
Llama 2 | 7B | 3.8GB | ollama run llama2 |
Mistral | 7B | 4.1GB | ollama run mistral |
Dolphin Phi | 2.7B | 1.6GB | ollama run dolphin-phi |
Phi-2 | 2.7B | 1.7GB | ollama run phi |
Neural Chat | 7B | 4.1GB | ollama run neural-chat |
Starling | 7B | 4.1GB | ollama run starling-lm |
Code Llama | 7B | 3.8GB | ollama run codellama |
Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
Llama 2 13B | 13B | 7.3GB | ollama run llama2:13b |
Llama 2 70B | 70B | 39GB | ollama run llama2:70b |
Orca Mini | 3B | 1.9GB | ollama run orca-mini |
Vicuna | 7B | 3.8GB | ollama run vicuna |
LLaVA | 7B | 4.5GB | ollama run llava |
Gemma | 2B | 1.4GB | ollama run gemma:2b |
Gemma | 7B | 4.8GB | ollama run gemma:7b |
- 按照操作,进入容器终端
- 点击连接进入容器内部,输入
下载模型,下载成功后,自动启动对话ollama run qwen:0.5b
存在的缺点:需要进入容器进行对话,只能在终端进行,不方便,不优雅
Ollama WebUI部署
有关Ollama WebUI镜像拉取缓慢的问题和部署的内容,请阅读以下两篇文章:
- Docker配置GitHub仓库ghcr国内镜像加速
- 使用1Panel部署Ollama WebUI(Docker版)浅谈
Ollama WebUI下载模型和对话
- 选择模型进行下载,然后刷新页面
- 然后,选择模型进行对话,这效果(只能图一乐)🤣😂🤣
轻量模型推荐
机器硬件信息概览
Linux系统内核和CPU信息如下(CPU确实垃圾)
[root@yang ~]# uname -a
Linux yang 4.18.0-348.7.1.el8_5.x86_64 #1 SMP Wed Dec 22 13:25:12 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
[root@yang ~]# cat /proc/cpuinfo
processor : 0
vendor_id : AuthenticAMD
cpu family : 21
model : 96
model name : AMD A10-8780P Radeon R8, 12 Compute Cores 4C+8G
stepping : 1
microcode : 0x600610b
cpu MHz : 2000.000
cache size : 1024 KB
physical id : 0
siblings : 4
core id : 0
cpu cores : 2
apicid : 16
initial apicid : 0
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc rep_good acc_power nopl nonstop_tsc cpuid extd_apicid aperfmperf pni pclmulqdq monitor ssse3 fma cx16 sse4_1 sse4_2 movbe popcnt aes xsave avx f16c rdrand lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs xop skinit wdt lwp fma4 tce nodeid_msr tbm topoext perfctr_core perfctr_nb bpext ptsc mwaitx cpb hw_pstate ssbd vmmcall fsgsbase bmi1 avx2 smep bmi2 xsaveopt arat npt lbrv svm_lock nrip_save tsc_scale vmcb_clean flushbyasid decodeassists pausefilter pfthreshold avic v_vmsave_vmload vgif overflow_recov
bugs : fxsave_leak sysret_ss_attrs null_seg spectre_v1 spectre_v2 spec_store_bypass
bogomips : 3992.38
TLB size : 1536 4K pages
clflush size : 64
cache_alignment : 64
address sizes : 48 bits physical, 48 bits virtual
power management: ts ttp tm 100mhzsteps hwpstate cpb eff_freq_ro acc_power [13]
如果你的机器CPU不同、也没有较好的显卡,这里推荐使用通义千问开源Qwen的轻量化模型,Ollama Qwen模型以来指导
# 推理的最低内存要求小于 2GB
ollama run qwen:0.5b
ollama run qwen:1.8b
ollama run qwen:4b
# 推理的最低内存要求8GB
ollama run qwen:7b
参数越大,回答普遍会越智能,当然对CPU和内存的要求也会越高,性能较低的机器体验也会很差
qwen:0.5b推理体验
对机器要求最低,推理很快,体验还算可以,先不说代码对不对,就这个速度还是可以的,简单的问题体验还可以,复杂的不想了
推理过程系统负载如下:
gemma:7b推理体验
参数越多的模型,对机器的运行要求较高,例如:gemma:7b (4.8GB)的推理下我的机器就无法承受了😭😭😭真就一个一个字算出来的
热门推荐
旅顺老人办公交卡攻略:大连最新指南
饮八宝茶的文化传承与历史渊源探索:茶香飘扬,记忆悠长千年綿延
泰国浪漫之旅:用泰语告白
《甄嬛怎么读》:揭示宫廷权谋与女性成长的深刻故事分析
丁香花种植小窍门:新手也能养爆盆!
秋冬养胃神器:丁香茶的正确泡法与饮用指南
临沂炒鸡火遍全网!在家轻松复刻
9 种减脂也能放心吃的水果,别只会吃小番茄啦
治疗滑膜炎的最佳方法:药物、物理与手术治疗全解析
李四光:科学与信念的探索者
莲子的植物学形态特征
荷花、莲花、睡莲傻傻分不清?可观赏可食用“这1种”还可当小船
如何在Chrome浏览器中清除网页的缓存数据
如何在Chrome浏览器中启用或禁用缓存存储
EXPMA:金融市场的技术分析神器?
EXPMA算法在量化交易中的应用
简单操作即可完成的令人惊艳的美食摆盘技巧
2-脱氧-D-核糖:脱发治疗的新希望
冬日暖心必备:羊蝎子火锅的美味与温情
70岁以上老人买什么保险?这里有份攻略照着买不亏
父母买意外险怎么买合适?父母意外险买哪种最划算?
意外险投保人年龄限制 意外险投保人年龄
保定白洋淀一日游攻略:邂逅华北明珠,畅游水乡风情
白洋淀风景区:北国江南的水上明珠
揭秘304不锈钢:成分如何决定耐蚀力?
高氮无镍不锈钢:医疗植入材料的革新选择
汽车排气系统的不锈钢应用:选材与焊接技术要点
蒜蓉虾仁和鸡胸肉蛋糕:低卡减肥餐新宠!
国家卫健委推荐:春季减肥食物搭配指南
图解|多地国庆旅游成绩单出炉,哪个城市最热门?