资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

NVIDIA Triton：使用OpenVINO后端部署AI模型

创作时间:

作者:

@小白创作中心

NVIDIA Triton：使用OpenVINO后端部署AI模型

引用

来源

https://www.atyun.com/59575.html

Triton Inference Server是一款开源软件，用于通过模型服务优化和部署机器学习模型。OpenVINO是一个开源工具包，专门用于在英特尔架构上优化和部署深度学习模型。本文将向你展示如何在带有OpenVINO后端的Triton Inference Server上部署模型，从下载和准备模型到从客户端向服务器发送推理请求。

设置

在开始之前，需要确保已经安装了Docker和wget。以下是具体的安装命令：

sudo apt install wget

部署ONNX模型

构建模型资源库并下载ONNX模型：

mkdir -p model_repository/densenet_onnx/1
wget -O model_repository/densenet_onnx/1/model.onnx \
https://contentmamluswest001.blob.core.windows.net/content/14b2744cf8d6418c87ffddc3f3127242/9502630827244d60a1214f250e3bbca7/08aed7327d694b8dbaee2c97b8d0fcba/densenet121-1.2.onnx

创建一个名为config.pbtxt的新文件：

name: "densenet_onnx"
backend: "openvino"
default_model_filename: "model.onnx"

将config.pbtxt文件放入模型资源库，其结构如下：

model_repository
|  
+-- densenet_onnx -- densenet_onnx
    |  
    +-- config.pbtxt
    +-- 1
        |  
+-- model.onnx

注意：该目录结构是Triton推理服务器读取配置和模型文件的方式，必须遵循所需的布局。除所需的模型文件外，请勿在模型资源库中放置任何其他文件夹或文件。

运行Triton推断服务器：

docker run --rm -p 8000:8000 -p 8001:8001 -p 8002:8002 -v /path/to/model_repository:/models nvcr.io/nvidia/tritonserver:24.04-py3 tritonserver --model-repository=/models

从GitHub下载Triton Client代码client.py到你想运行Triton Client的地方：

wget https://raw.githubusercontent.com/triton-inference-server/tutorials/main/Quick_Deploy/ONNX/client.py

在与client.py文件相同的位置运行Triton客户端，安装依赖项，并查询服务器：

docker run -it --rm --net=host -v ${PWD}:/workspace/ nvcr.io/nvidia/tritonserver:24.04-py3-sdk bash
pip install torchvision
wget -O img1.jpg "https://www.hakaimagazine.com/wp-content/uploads/header-gulf-birds.jpg"
python3 client.py

输出：

['11.549026:92' '11.232335:14' '7.528014:95' '6.923391:17' '6.576575:88']

部署PyTorch模型

下载并准备PyTorch模型。PyTorch模型（.pt）需要转换为OpenVINO格式。创建downloadAndConvert.py文件下载PyTorch模型，并使用OpenVINO模型转换器保存model.xml和model.bin：

import torchvision
import torch
import openvino as ov

model = torchvision.models.resnet50(weights='DEFAULT')
ov_model = ov.convert_model(model)
ov.save_model(ov_model, 'model.xml')

安装依赖项：

pip install openvino
pip install torchvision

运行downloadAndConvert.py：

python3 downloadAndConvert.py py

创建一个名为config.pbtxt的新文件：

name: "resnet50 "
backend: "openvino"
max_batch_size : 0
input [
  {
    name: "x"
    data_type: TYPE_FP32
    dims: [ 3, 224, 224 ]
    reshape { shape: [ 1, 3, 224, 224 ] }
  }
]
output [
  {
    name: "x.45"
    data_type: TYPE_FP32
    dims: [ 1, 1000 ,1, 1]
    reshape { shape: [ 1, 1000 ] }
  }
]

将config.pbtxt文件以及model.xml和model.bin文件放入模型资源库，文件夹结构如下：

model_repository
|  
+-- resnet50 -- resnet50
    |  
    +-- config.pbtxt
    +-- 1
        |  
        +-- model.xml
+-- model.bin

运行Triton推断服务器：

docker run --rm -p 8000:8000 -p 8001:8001 -p 8002:8002 -v /path/to/model_repository:/models nvcr.io/nvidia/tritonserver:24.04-py3 tritonserver --model-repository=/models

在另一个终端，从GitHub下载Triton Client代码client.py到你想运行Triton Client的地方：

wget https://raw.githubusercontent.com/triton-inference-server/tutorials/main/Quick_Deploy/PyTorch/client.py

在client.py文件中，由于模型与Triton教程中的模型略有不同，你需要更新模型的输入和输出名称，以便与后端所期望的名称一致。例如，将PyTorch模型中使用的原始输入名称(input__0)改为OpenVINO后端使用的名称(x)。

在与client.py文件相同的位置运行Triton客户端，安装依赖项并查询服务器：

docker run -it --net=host -v ${PWD}:/workspace/ nvcr.io/nvidia/tritonserver:24.04-py3-sdk bash
pip install torchvision
wget -O img1.jpg "https://www.hakaimagazine.com/wp-content/uploads/header-gulf-birds.jpg"
python3 client.py

输出：

[b'6.354599:14' b'4.292510:92' b'3.886345:90' b'3.333909:136' '6.354599:14' b'4.292510:92' b'3.886345:90' b'3.333909:136' 
b'3.096908:15']

部署TensorFlow模型

下载并准备TensorFlow模型。以SavedModel格式导出TensorFlow模型：

docker run -it --gpus all -v ${PWD}:/workspace nvcr.io/nvidia/tensorflow:24.04-tf2-py3
python3 export.py

模型需要转换为OpenVINO格式。创建convert.py文件，使用OpenVINO模型转换器保存model.xml和model.bin：

import openvino as ov

ov_model = ov.convert_model('path_to_saved_model_dir')
ov.save_model(ov_model, 'model.xml')

安装依赖项：

pip install openvino

运行convert.py：

python3 convert.py py

创建名为config.pbtxt的新文件：

name: "resnet50"
backend: "openvino"
max_batch_size : 0
input [
  {
    name: "input_1"
    data_type: TYPE_FP32
    dims: [-1, 224, 224, 3 ]
  }
]
output [
  {
    name: "predictions"
    data_type: TYPE_FP32
    dims: [-1, 1000]
  }
]

将config.pbtxt文件以及model.xml和model.bin文件放入模型资源库，结构如下：

model_repository
|  
+-- resnet50 -- resnet50
    |  
    +-- config.pbtxt
    +-- 1
        |  
        +-- model.xml
+-- model.bin

运行Triton推断服务器：

docker run --rm -p 8000:8000 -p 8001:8001 -p 8002:8002 -v /path/to/model_repository:/models nvcr.io/nvidia/tritonserver:24.04-py3 tritonserver --model-repository=/models

在另一个终端，从GitHub下载Triton Client代码client.py到你想运行Triton Client的地方：

wget https://raw.githubusercontent.com/triton-inference-server/tutorials/main/Quick_Deploy/TensorFlow/client.py

在与client.py文件相同的位置运行Triton客户端，安装依赖项并查询服务器：

docker run -it --net=host -v ${PWD}:/workspace/ nvcr.io/nvidia/tritonserver:24.04-py3-sdk bash
pip install --upgrade tensorflow
pip install image
wget -O img1.jpg "https://www.hakaimagazine.com/wp-content/uploads/header-gulf-birds.jpg"
python3 client.py

输出：

[b'0.301167:90' b'0.169790:14' b'0.161309:92' b'0.093105:94' '0.301167:90' b'0.169790:14' b'0.161309:92' b'0.093105:94' 
b'0.058743:136' b'0.050185:11' b'0.033802:91' b'0.011760:88' 
b'0.008309:989' b'0.004927:95' b'0.004905:13' b'0.004095:317' 
b'0.004006:96' b'0.003694:12' b'0.003526:42' b'0.003390:313' 
... 
b'0.000001:751' b'0.000001:685' b'0.000001:408' b'0.000001:116' 
b'0.000001:627' b'0.000001:933' b'0.000000:661' b'0.000000:148']