Triton

Triton Inference Server에서 gRPC 사용하기

November 11, 2023 2 분 소요

1. tritonclient의 InferenceServerClient를 사용 $ pip install tritonclient[grpc]

Transformers 모델을 Triton으로 배포하기 (ONNX, TensorRT)

August 13, 2023 23 분 소요

일반적인 PyTorch 혹은 Transformers 모델 배포 성능을 극대화하기 위해 모델 포맷을 ONNX, TensorRT로 변환하고 Triton Inference Server로 배포하는 과정을 정리해봤습니다.