Cloud TPU 추론
서빙은 추론에 사용할 수 있는 학습된 머신러닝 모델을 프로덕션 환경에 배포하는 프로세스입니다. 추론은 TPU v5e 이상 버전에서 지원됩니다. 서빙에서는 지연 시간 SLO가 우선시됩니다.
이 문서에서는 단일 호스트 TPU에서 모델을 서빙하는 방법을 설명합니다. 칩이 8개 이하인 TPU 슬라이스에는 TPU VM 또는 호스트가 1개 있으므로 단일 호스트 TPU라고도 합니다. 멀티 호스트 추론에 관한 자세한 내용은 경로를 사용하여 멀티 호스트 추론 실행을 참고하세요.
시작하기
Cloud TPU를 사용하려면 Google Cloud 계정 및 프로젝트가 필요합니다. 자세한 내용은 Cloud TPU 환경 설정을 참고하세요.
추론에 사용할 TPU 코어 수에 충분한 할당량이 있는지 확인합니다. TPU v5e는 학습 및 서빙에 별도의 할당량을 사용합니다. TPU v5e의 서빙 관련 할당량은 다음과 같습니다.
- 주문형 v5e 리소스:
TPUv5 lite pod cores for serving per project per zone
- 선점형 v5e 리소스:
Preemptible TPU v5 lite pod cores for serving per project per zone
다른 TPU 버전의 경우 학습 및 서빙 워크로드에서 동일한 할당량을 사용합니다. 자세한 내용은 Cloud TPU 할당량을 참고하세요.
vLLM으로 LLM 서빙
vLLM은 대규모 언어 모델 (LLM)의 빠른 추론 및 서빙을 위해 설계된 오픈소스 라이브러리입니다. Cloud TPU는 JAX 및 PyTorch 모델을 지원하는 tpu-inference
플러그인을 사용하여 vLLM과 통합됩니다. 자세한 내용은 tpu-inference
GitHub 저장소를 참고하세요.
vLLM을 사용하여 TPU에서 모델을 서빙하는 예는 다음을 참고하세요.
프로파일링
추론을 설정한 후 프로파일러를 사용하여 성능 및 TPU 사용률을 분석할 수 있습니다. 프로파일링에 관한 자세한 내용은 다음을 참조하세요.