如何使用服务器训练AI模型

创作时间:

作者:

@小白创作中心

如何使用服务器训练AI模型

引用

CSDN

https://blog.csdn.net/ECHOSON/article/details/142530120

本文将详细介绍如何使用服务器训练AI模型，包括获取服务器、访问服务器、上传文件、配置环境、训练模型和下载模型的完整流程。

获取服务器

如果你的实验室有服务器，可以直接使用实验室提供的服务器。通常，实验室的老师会提供服务器的IP地址、用户名以及密码等信息，这些信息在后续步骤中会用到。

如果没有服务器，可以从网上租用。服务器租用通常按小时或包年包月计费。建议进行学生认证以获取优惠。在选择服务器时，应考虑显卡类型和费用，并选择支持conda的镜像，以便创建不同的虚拟环境。

创建成功后，可以在容器实例中查看服务器信息，记住服务器的IP地址、端口号以及密码。

访问服务器

推荐使用MobaXterm工具访问服务器。下载地址：MobaXterm Xserver with SSH, telnet, RDP, VNC and X11 - Home Edition。

下载后解压并运行exe文件。首先从autodl获取服务器信息：

ssh -p 44638 root@connect.cqa1.seetacloud.com
abcxdfdsaf

启动MobaXterm，新建会话并输入用户名和密码。注意，密码输入时不会显示。登录成功后会看到类似上图的信息，其中红色方框标注的是常用目录，该目录下有较大的存储空间。

上传文件到服务器

在上传文件前，先了解MobaXterm界面的基本布局：左侧是文件浏览器，可以查看服务器上的文件；中间的黑框是命令行，类似于cmd。

上传文件时，在左侧文件浏览器中进行操作。建议在空间较大的目录下进行上传。这里以行人检测项目的文件为例，通常项目目录下会有readme文件，可以根据readme中的向导进行配置。

在服务器上配置环境

在服务器上常用的命令包括：

unzip：解压文件
cd：切换目录
pwd：查看当前目录
cat：查看文件内容

配置环境的过程与在cmd中配置环境类似。以下是一些关键步骤：

配置加速

conda config --remove-key channels
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --set show_channel_urls yes
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

创建和激活虚拟环境

conda create -n yolo python==3.8.5
conda activate yolo

安装torch

根据GPU型号选择合适的PyTorch版本：

conda install pytorch==1.8.0 torchvision torchaudio cudatoolkit=10.2 # 适用于10系列显卡
conda install pytorch==1.10.0 torchvision torchaudio cudatoolkit=11.3 # 适用于30系列及以上显卡
conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cpuonly # 适用于CPU