本地大模型傻瓜式部署指南：Koboldcpp使用详解

创作时间:

作者:

@小白创作中心

本地大模型傻瓜式部署指南：Koboldcpp使用详解

引用

网易

https://m.163.com/dy/article/J4JD5HD0051100B9.html

这两年的科技趋势发生了显著变化，AI大模型成为了科技圈的热点。随着用户需求的增长，大语言模型在休闲娱乐和实际工作中扮演着越来越重要的角色。然而，云端大模型也暴露出一些问题，如连接缓慢、成本高昂、数据隐私问题等。因此，本地部署大模型逐渐成为一种新的选择。

本地大模型与云端大模型的主要区别在于运行位置。云端大模型依赖远程服务器，可以实时更新数据，但断网时无法使用。而本地大模型则在设备本地实现AI智能化，可以避免服务器崩掉的问题，同时更有利于保护用户隐私。

目前，想要在自己的电脑上搭建本地大模型并不是一件容易的事情。较高的设备要求是一方面，另一方面，大多数项目都需要编程经验。不过，有一个名为Koboldcpp的工具可以让小白也能搞定本地大模型。

Koboldcpp是一个基于GGML/GGUF模型的推理框架，底层采用纯C/C++代码，无需任何额外依赖库，甚至可以直接通过CPU来推理运行。要使用Koboldcpp，需要前往Github下载所需的应用版本。目前有三个版本可供选择：

koboldcpp_cuda12：适用于NVIDIA显卡用户，只要有GTX 750以上的显卡就可以使用，模型推理速度最快。
koboldcpp_rocm：适用于AMD显卡用户，基于AMD ROCm开放式软件栈，同规格下推理耗时约为N卡版本的3倍-5倍。
koboldcpp_nocuda：仅用CPU进行推理的版本，功能较为精简，同规格下推理耗时为N卡版本的10倍以上。

打开软件后，首先需要关注Presets选项。软件首页的Presets里，分为旧版N卡、新版N卡、A卡、英特尔显卡等多种不同模式的选择。默认情况下，不设置任何参数启动将仅使用CPU的OpenBLAS进行快速处理和推理，运行速度会很慢。对于N卡用户，建议选用CuBLAS，该功能仅适用于Nvidia GPU。

另一个需要调节的部分是Context Size。想要获得更好的上下文体验，最好将其调整至4096，当然Size越大，能记住的上下文就越多，但是推理的速度也会受到显著影响。

再往下，就是载入大模型的部分。目前开源大模型主要都在huggingface.co下载，没有出海能力的话，也可以在国内HF-Mirror镜像站或是modelscope魔搭社区下载。结合个人实际体验，推荐两款不错的本地大模型：

CausalLM-7B：这是一款在LLaMA2的基础上，基于Qwen 的模型权重训练的本地大模型，其最大的特征就是原生支持中文，显卡内存8G以下的用户建议下载CausalLM-7B，8G以上的可以下载CausalLM-14B，效果更好。
MythoMax-L2-13B：原生语言为英语的大模型，特征是拥有较强的文学性，可以在要求下撰写出流畅且具有阅读性的小说文本，缺点是只能通过输入英语来获得理想的输出内容，建议普通消费者使用MythoMax-L2-13B。

一般来说，接下来还需要给大模型部署前端才能使用。不过Koboldcpp最大的特点，就是在llama.cpp的基础上，添加了一个多功能的Kobold API端口。这个端口，不仅提供了额外的格式支持、稳定的扩散图像生成、不错的向后兼容性，甚至还有一个具有持久故事、编辑工具、保存格式、内存、世界信息、作者注释、人物、场景自定义功能的简化前端——Kobold Lite。

大致上，界面就像这样：

功能也很简单。人工智能、新会话就不用说了，点击上方的「场景」，就可以快速启动一个新的对话场景，或是加载对应角色卡。

像这样，加载你拥有的AI对话情景。「保存/加载」也很一目了然，可以把你当前的对话保存下来，随时都能加载并继续。在「设置」中，你可以调节一些AI对话的选项。

其中，Temperature.代表着对话的随机性，数值越高，生成的对话也就会越不可控，甚至可能超出角色设定的范围。Repetition Penalty.可以抑制对话的重复性，让AI减少重复的发言。Amount to Gen.是生成的对话长度上限，上限越长，所需时间也会更长，重点是在实际体验中，过高的生成上限会导致AI胡言乱语，个人并不建议把这个值拉到240以上。Max Ctx. Tokens.是能给大模型反馈的关键词上限，数据越高，前后文关系越紧密，生成速度也会随之变慢。

完成设置后，就可以和todd howard来场酣畅淋漓的对话了。

聊不下去了？点击左下角的聊天工具，可以让大模型根据你的前文自动生成答复来推进对话。

回答错了，或是对话走向不如人意？点击右下角的聊天工具，不仅可以让你重复生成AI问答，甚至还能自己出手编辑回复以确保对话走向不跑偏。

当然，除了对话以外，Kobold Lite还有更多可能性。你可以将它和AI语音、AI绘图的端口连接在一起，这样在对话的同时，可以自动调用AI语言为生成的文本进行配音，也可以随时调用AI绘图来画出当前二人交谈的场景。

在此之上，你甚至可以使用更高阶的SillyTarven前端，来实现GIF、HTML内容在对话中的植入。

就我这大半年的体验来看，目前本地大模型的特征还是「可玩性强」。只要你的配置足够，你完全可以把大语言模型、AI语音、AI绘图和2D数字人连接在一起，搭建起属于自己的本地数字人，看着在屏幕中栩栩如生的AI角色，多少让人有种《serial experiments lain》那样的恍惚感。

不过这类开源大模型，通常数据都会比较滞后，因此在专业性知识上会有比较明显的欠缺，实测大部分知识库都是到2022年中旬为止，也没有任何调用外部网络资源的办法，辅助办公、查阅资料时会遇到很大的局限性。

在我看来，理想的大语言模型体验应该是端云互动的。即我可以在本地，利用自己的大模型建立自己的知识库，但是需要用到时效性信息的时候，又能借助互联网的力量获取最新资讯，这样既可以保护个人资料的隐私性，也算是有效解决了开源大模型信息滞后的问题。