Python模型服务化：如何使用Triton Inference Server实现多模型并行推理。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Python模型服务化：使用Triton Inference Server实现多模型并行推理

大家好，今天我们来聊聊如何使用 Triton Inference Server 来实现 Python 模型的服务化，特别是多模型并行推理。在 AI 应用日益普及的今天，模型部署和服务化变得至关重要。Triton Inference Server 作为一个高性能、开源的推理服务引擎，能有效解决模型部署的各种难题，包括模型版本管理、动态批处理、多框架支持和硬件加速等。

本次讲座将从以下几个方面展开：

Triton Inference Server 简介： 了解 Triton 的基本概念和优势。
环境搭建： 安装 Docker 和 NVIDIA Container Toolkit，为 Triton 的部署做好准备。
Python Backend 模型部署： 详细讲解如何将 Python 模型转换为 Triton 可以识别的格式，并配置相应的模型配置文件。
多模型并行推理配置： 介绍如何在 Triton 中配置多个模型，并实现并行推理。
客户端请求和性能测试： 使用 Python 客户端向 Triton 发送推理请求，并进行简单的性能测试。
常见问题及解决方法： 列举在使用 Triton 过程中可能遇到的问题，并提供相应的解决方案。

1. Triton Inference Server 简介

Triton Inference Server 是 NVIDIA 开源的一个推理服务引擎，旨在简化 AI 模型的部署过程，并提供高性能的推理服务。它支持多种深度学习框架，包括 TensorFlow、PyTorch、ONNX Runtime、TensorRT 等。 Triton 具有以下显著优势：

多框架支持： 可以同时部署不同框架的模型，无需为每种框架单独搭建服务。
动态批处理： 自动将多个小请求合并成一个大批次，提高 GPU 利用率和吞吐量。
模型版本管理： 支持模型的多个版本，方便进行 A/B 测试和模型更新。
高性能： 针对 NVIDIA GPU 进行了优化，能够充分利用 GPU 的计算能力。
易于部署： 可以通过 Docker 容器快速部署，简化了部署流程。
自定义Backend: 支持自定义Backend，可以使用Python, C++等灵活控制推理流程。

2. 环境搭建

在使用 Triton Inference Server 之前，需要先搭建好相应的环境。这里我们使用 Docker 容器来部署 Triton。

步骤 1：安装 Docker

如果尚未安装 Docker，请根据您的操作系统安装 Docker。

Ubuntu:

sudo apt update
sudo apt install docker.io
sudo systemctl start docker
sudo systemctl enable docker

CentOS:

sudo yum update
sudo yum install docker
sudo systemctl start docker
sudo systemctl enable docker

macOS:

从 Docker 官网下载并安装 Docker Desktop：https://www.docker.com/products/docker-desktop/

步骤 2：安装 NVIDIA Container Toolkit

NVIDIA Container Toolkit 允许 Docker 容器访问 NVIDIA GPU。

Ubuntu:

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
echo "deb [arch=amd64] https://nvidia.github.io/nvidia-docker/$distribution main" | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt update
sudo apt install -y nvidia-docker2
sudo systemctl restart docker

CentOS:

distribution=$(. /etc/os-release; echo $ID$VERSION_ID | sed -e 's/.//g')
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
echo "deb [arch=amd64] https://nvidia.github.io/nvidia-docker/$distribution main" | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo yum update
sudo yum install -y nvidia-docker2
sudo systemctl restart docker

步骤 3：验证安装

运行以下命令验证 NVIDIA Container Toolkit 是否安装成功：

docker run --rm --gpus all nvidia/cuda:11.7.1-base-ubuntu20.04 nvidia-smi

如果成功显示 GPU 信息，则表示安装成功。

3. Python Backend 模型部署

Triton 支持 Python backend，允许我们使用 Python 脚本来定义模型的推理逻辑。

步骤 1：准备 Python 模型

首先，我们需要准备一个 Python 模型。这里我们以一个简单的加法模型为例。

# model.py
import numpy as np

def add(input1, input2):
  """
  简单的加法函数。
  """
  return input1 + input2

def triton_initialize(args):
  """
  Triton 初始化函数。
  """
  print("Initializing Python model...")
  global model
  model = add
  return

def triton_execute(input_data):
    """
    Triton 执行函数。
    """
    input1 = input_data[0]['data']
    input2 = input_data[1]['data']
    output = model(input1, input2)
    return {'output': output}

步骤 2：创建模型仓库

Triton 使用模型仓库来管理模型。我们需要创建一个模型仓库，并将 Python 模型放置在其中。

mkdir -p model_repository/add_model/1

其中 add_model 是模型名称，1 是模型版本号。

步骤 3：创建模型配置文件

模型配置文件 config.pbtxt 用于描述模型的输入输出格式、数据类型、后端类型等信息。

# model_repository/add_model/config.pbtxt
name: "add_model"
platform: "python"
max_batch_size: 0 # 禁用动态批处理
input [
  {
    name: "input1"
    data_type: TYPE_FP32
    dims: [ 1 ]
  },
  {
    name: "input2"
    data_type: TYPE_FP32
    dims: [ 1 ]
  }
]
output [
  {
    name: "output"
    data_type: TYPE_FP32
    dims: [ 1 ]
  }
]
instance_group [
  {
    count: 1
    kind: KIND_CPU
  }
]

parameters: {
    key: "script"
    value: {
      string_value: "model.py"
    }
  }

参数解释：

name: 模型名称。
platform: 模型平台，这里是 "python"。
max_batch_size: 最大批处理大小。0 表示禁用动态批处理。
input: 输入张量的描述，包括名称、数据类型和维度。
output: 输出张量的描述，包括名称、数据类型和维度。
instance_group: 实例组，指定模型运行的设备和实例数量。KIND_CPU 表示使用 CPU，count: 1 表示创建一个实例。
parameters: 传递给 backend 的参数，script指定了执行的Python文件。

步骤 4：将模型文件和配置文件放入模型仓库

将 model.py 和 config.pbtxt 复制到 model_repository/add_model/1 目录下。

cp model.py model_repository/add_model/1/
cp config.pbtxt model_repository/add_model/1/

4. 多模型并行推理配置

现在我们来配置 Triton，使其能够同时运行多个模型。除了上面定义的 add_model，我们再定义一个简单的乘法模型 multiply_model。

步骤 1：准备乘法模型

# model_multiply.py
import numpy as np

def multiply(input1, input2):
  """
  简单的乘法函数。
  """
  return input1 * input2

def triton_initialize(args):
  """
  Triton 初始化函数。
  """
  print("Initializing Python multiply model...")
  global model
  model = multiply
  return

def triton_execute(input_data):
    """
    Triton 执行函数。
    """
    input1 = input_data[0]['data']
    input2 = input_data[1]['data']
    output = model(input1, input2)
    return {'output': output}

步骤 2：创建乘法模型仓库

mkdir -p model_repository/multiply_model/1

步骤 3：创建乘法模型配置文件

# model_repository/multiply_model/config.pbtxt
name: "multiply_model"
platform: "python"
max_batch_size: 0 # 禁用动态批处理
input [
  {
    name: "input1"
    data_type: TYPE_FP32
    dims: [ 1 ]
  },
  {
    name: "input2"
    data_type: TYPE_FP32
    dims: [ 1 ]
  }
]
output [
  {
    name: "output"
    data_type: TYPE_FP32
    dims: [ 1 ]
  }
]
instance_group [
  {
    count: 1
    kind: KIND_CPU
  }
]

parameters: {
    key: "script"
    value: {
      string_value: "model_multiply.py"
    }
  }

步骤 4：将模型文件和配置文件放入模型仓库

cp model_multiply.py model_repository/multiply_model/1/
cp config.pbtxt model_repository/multiply_model/1/

步骤 5：启动 Triton Inference Server

使用以下命令启动 Triton Inference Server：

docker run --gpus all -p8000:8000 -p8001:8001 -p8002:8002 -v $(pwd)/model_repository:/models nvcr.io/nvidia/tritonserver:23.10-py3 tritonserver --model-repository=/models

参数解释：

--gpus all: 使用所有 GPU。如果只想使用特定的 GPU，可以指定 GPU 的 ID，例如 --gpus 0。
-p8000:8000: 将容器的 8000 端口映射到主机的 8000 端口，用于 HTTP 请求。
-p8001:8001: 将容器的 8001 端口映射到主机的 8001 端口，用于 gRPC 请求。
-p8002:8002: 将容器的 8002 端口映射到主机的 8002 端口，用于 Prometheus 指标。
-v $(pwd)/model_repository:/models: 将主机上的 model_repository 目录挂载到容器的 /models 目录，使 Triton 可以访问模型。
nvcr.io/nvidia/tritonserver:23.10-py3: Triton Inference Server 的 Docker 镜像。
tritonserver --model-repository=/models: 启动 Triton Inference Server，并指定模型仓库的路径。

现在，Triton Inference Server 已经启动，并且加载了 add_model 和 multiply_model 两个模型。这两个模型可以并行运行，从而提高推理效率。

5. 客户端请求和性能测试

启动 Triton Inference Server 后，我们可以使用 Python 客户端向其发送推理请求。

步骤 1：安装 Triton Python 客户端

pip install tritonclient[http]

步骤 2：编写客户端代码

# client.py
import tritonclient.http as httpclient
import numpy as np

# Triton 服务器地址
TRITON_SERVER_URL = "localhost:8000"

def infer_model(model_name, input1, input2):
    """
    向 Triton 服务器发送推理请求。
    """
    try:
        # 创建 Triton HTTP 客户端
        triton_client = httpclient.InferenceServerClient(
            url=TRITON_SERVER_URL, verbose=False
        )

        # 创建输入张量
        input1_data = np.array([input1], dtype=np.float32)
        input2_data = np.array([input2], dtype=np.float32)

        # 定义输入
        inputs = [
            httpclient.InferInput("input1", input1_data.shape, "FP32"),
            httpclient.InferInput("input2", input2_data.shape, "FP32"),
        ]

        # 设置输入数据
        inputs[0].set_data_from_numpy(input1_data)
        inputs[1].set_data_from_numpy(input2_data)

        # 定义输出
        outputs = [
            httpclient.InferRequestedOutput("output")
        ]

        # 发送推理请求
        results = triton_client.infer(
            model_name=model_name,
            inputs=inputs,
            outputs=outputs,
        )

        # 获取输出结果
        output_data = results.as_numpy("output")

        return output_data

    except Exception as e:
        print("Exception during inference: " + str(e))
        return None

if __name__ == "__main__":
    # 发送加法模型的推理请求
    add_result = infer_model("add_model", 1.0, 2.0)
    print("Add Result:", add_result)

    # 发送乘法模型的推理请求
    multiply_result = infer_model("multiply_model", 3.0, 4.0)
    print("Multiply Result:", multiply_result)

步骤 3：运行客户端代码

python client.py

如果一切正常，您将看到以下输出：

Add Result: [3.]
Multiply Result: [12.]

性能测试

可以使用 perf_analyzer 工具来测试 Triton Inference Server 的性能。

docker run --rm -v $(pwd)/model_repository:/models nvcr.io/nvidia/tritonserver:23.10-py3 perf_analyzer -m add_model -u localhost:8000 -i http --concurrency-range 1:32:2

该命令将使用 HTTP 协议，并发数从 1 到 32，步长为 2，对 add_model 进行性能测试。

perf_analyzer 会输出各种性能指标，例如延迟、吞吐量等，可以帮助您评估 Triton Inference Server 的性能。

表格：性能指标示例

指标	值	单位
延迟	1.23	毫秒
吞吐量	1234	请求/秒
GPU 利用率	90	%
内存使用量	1024	MB

6. 常见问题及解决方法

在使用 Triton Inference Server 过程中，可能会遇到一些问题。以下是一些常见问题及解决方法：

问题 1：Triton 无法加载模型
- 原因： 模型配置文件错误、模型文件缺失、模型仓库路径不正确等。
- 解决方法： 检查模型配置文件是否正确，确保模型文件存在，并检查模型仓库路径是否正确。
  可以通过Triton的日志查看具体错误信息。
问题 2：客户端无法连接到 Triton 服务器
- 原因： Triton 服务器未启动、端口映射错误、防火墙阻止连接等。
- 解决方法： 检查 Triton 服务器是否启动，确保端口映射正确，并检查防火墙设置。
问题 3：推理结果不正确
- 原因： 模型代码错误、输入数据格式不正确、输出数据格式不正确等。
- 解决方法： 检查模型代码是否正确，确保输入数据格式与模型期望的格式一致，并检查输出数据格式是否正确。
问题 4：性能不佳
- 原因： GPU 利用率低、批处理大小不合适、模型代码效率低等。
- 解决方法： 调整批处理大小，优化模型代码，使用 TensorRT 等加速技术。
问题 5: Python Backend 报错
- 原因： Python代码有错误，缺少依赖包等
- 解决方法： 检查Python代码，安装依赖包。可以指定Triton Python Backend使用的Python环境，通过triton_python_environment 参数指定。

总结

本次讲座介绍了如何使用 Triton Inference Server 来实现 Python 模型的服务化，并详细讲解了多模型并行推理的配置方法。通过使用 Triton，我们可以轻松地部署和管理多个模型，并实现高性能的推理服务。

希望本次讲座能帮助大家更好地理解和使用 Triton Inference Server。

快速部署和高性能是Triton的优势

Triton Inference Server 简化了模型部署，支持多框架，实现了多模型并行推理，利用 Docker 容器快速部署，并且通过动态批处理和 GPU 优化实现高性能。

细致配置和问题排查是关键

正确配置模型仓库、模型配置文件，并熟悉常见问题及解决方法，能够有效地使用 Triton Inference Server，提升 AI 应用的效率。