如何使用服务器训练AI模型
如何使用服务器训练AI模型
本文将详细介绍如何使用服务器训练AI模型,包括获取服务器、访问服务器、上传文件、配置环境、训练模型和下载模型的完整流程。
获取服务器
如果你的实验室有服务器,可以直接使用实验室提供的服务器。通常,实验室的老师会提供服务器的IP地址、用户名以及密码等信息,这些信息在后续步骤中会用到。
如果没有服务器,可以从网上租用。服务器租用通常按小时或包年包月计费。建议进行学生认证以获取优惠。在选择服务器时,应考虑显卡类型和费用,并选择支持conda的镜像,以便创建不同的虚拟环境。
创建成功后,可以在容器实例中查看服务器信息,记住服务器的IP地址、端口号以及密码。
访问服务器
推荐使用MobaXterm工具访问服务器。下载地址:MobaXterm Xserver with SSH, telnet, RDP, VNC and X11 - Home Edition。
下载后解压并运行exe文件。首先从autodl获取服务器信息:
ssh -p 44638 root@connect.cqa1.seetacloud.com
abcxdfdsaf
启动MobaXterm,新建会话并输入用户名和密码。注意,密码输入时不会显示。登录成功后会看到类似上图的信息,其中红色方框标注的是常用目录,该目录下有较大的存储空间。
上传文件到服务器
在上传文件前,先了解MobaXterm界面的基本布局:左侧是文件浏览器,可以查看服务器上的文件;中间的黑框是命令行,类似于cmd。
上传文件时,在左侧文件浏览器中进行操作。建议在空间较大的目录下进行上传。这里以行人检测项目的文件为例,通常项目目录下会有readme文件,可以根据readme中的向导进行配置。
在服务器上配置环境
在服务器上常用的命令包括:
unzip
:解压文件cd
:切换目录pwd
:查看当前目录cat
:查看文件内容
配置环境的过程与在cmd中配置环境类似。以下是一些关键步骤:
配置加速
conda config --remove-key channels
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --set show_channel_urls yes
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
创建和激活虚拟环境
conda create -n yolo python==3.8.5
conda activate yolo
安装torch
根据GPU型号选择合适的PyTorch版本:
conda install pytorch==1.8.0 torchvision torchaudio cudatoolkit=10.2 # 适用于10系列显卡
conda install pytorch==1.10.0 torchvision torchaudio cudatoolkit=11.3 # 适用于30系列及以上显卡
conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cpuonly # 适用于CPU
安装其他依赖库
pip install -v -e .
安装完成后,如果出现"successfully"提示,说明环境配置基本完成。
在服务器上训练模型
进入项目目录(如42_demo),执行训练脚本。训练前需要配置好数据集路径。在服务器上执行脚本时,直接使用python 脚本名
即可。由于是命令行环境,可视化内容无法显示,因此服务器主要用于训练和测试。
训练过程中会显示日志和模型存放的目录。
从服务器上下载训练好的模型
训练完成后,可以直接从服务器的指定目录(如红色方框标注的目录)将模型文件拖拽到本地使用。之后可以在Windows系统上继续执行相关操作,具体可以参考相关教程。