Triton推理服务器部署YOLOv8(onnxruntime后端和TensorRT后端)

发布于:2025-05-29 ⋅ 阅读:(20) ⋅ 点赞:(0)

一、Trition推理服务器基础知识

1)推理服务器设计概述

在这里插入图片描述

  • 设计思想和特点
    1、支持多种机器学习框架
    在这里插入图片描述
    2、支持多种部署场景

在这里插入图片描述
3、高性能推理
在这里插入图片描述
4、灵活的模型管理
在这里插入图片描述
5、可扩展性
在这里插入图片描述
6、强大的客户端支持
在这里插入图片描述

2)Trition推理服务器quickstart

(1)创建模型仓库(Create a model Repository)

在这里插入图片描述

(2)启动Triton (launching triton)并验证是否正常运行

cpu运行

$ docker run --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

在这里插入图片描述
GPU运行
在这里插入图片描述
命令

$ docker run --gpus=1 --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

输出

+----------------------+---------+--------+
| Model                | Version | Status |
+----------------------+---------+--------+
| <model_name>         | <v>     | READY  |
| ..                   | .       | ..     |
| ..                   | .       | ..     |
+----------------------+---------+--------+
...
...
...
I1002 21:58:57.891440 62 grpc_server.cc:3914] Started GRPCInferenceService at 0.0.0.0:8001
I1002 21:58:57.893177 62 http_server.cc:2717] Started HTTPService at 0.0.0.0:8000
I1002 21:58:57.935518 62 http_server.cc:2736] Started Metrics Service at 0.0.0.0:8002

在这里插入图片描述

  • 验证是否正常运行
    在这里插入图片描述
$ curl -v localhost:8000/v2/health/ready
...
< HTTP/1.1 200 OK
< Content-Length: 

网站公告

今日签到

点亮在社区的每一天
去签到