Inferência do Cloud TPU
A publicação refere-se ao processo de implementação de um modelo de aprendizagem automática preparado num ambiente de produção, onde pode ser usado para inferência. A inferência é suportada na TPU v5e e versões mais recentes. Os SLOs de latência são uma prioridade para a publicação.
Este documento aborda a publicação de um modelo numa TPU de host único. As fatias de TPU com 8 ou menos chips têm uma VM ou um anfitrião de TPU e são denominadas TPUs de anfitrião único. Para obter informações sobre a inferência em vários anfitriões, consulte o artigo Realize a inferência em vários anfitriões com o Pathways.
Começar
Precisa de uma Google Cloud conta e um projeto para usar o Cloud TPU. Para mais informações, consulte o artigo Configure um ambiente do Cloud TPU.
Certifique-se de que tem quota suficiente para o número de núcleos de TPU que planeia usar para a inferência. A TPU v5e usa quotas separadas para preparação e publicação. As quotas específicas de serviço para a TPU v5e são:
- Recursos v5e a pedido:
TPUv5 lite pod cores for serving per project per zone
- Recursos v5e preemptíveis:
Preemptible TPU v5 lite pod cores for serving per project per zone
Para outras versões da TPU, as cargas de trabalho de preparação e publicação usam a mesma quota. Para mais informações, consulte as cotas do Cloud TPU.
Publique MDIs/CEs com o vLLM
O vLLM é uma biblioteca de código aberto concebida para a inferência e a publicação rápidas de grandes modelos de linguagem (GMLs). O Cloud TPU integra-se com o vLLM através do plugin tpu-inference
, que suporta modelos JAX e PyTorch. Para mais informações, consulte o tpu-inference
repositório do GitHub.
Para ver exemplos de utilização do vLLM para publicar um modelo em TPUs, consulte o seguinte:
- Comece a usar a TPU vLLM
- Publique um MDG com o TPU Trillium no GKE com o vLLM.
- Receitas para servir vLLM em TPUs Trillium (v6e)
Criação de perfis
Após a configuração da inferência, pode usar os perfis para analisar o desempenho e a utilização da TPU. Para mais informações sobre a criação de perfis, consulte:
- Criação de perfis no Cloud TPU
- Criação de perfis do TensorFlow
- Criação de perfis do PyTorch
- Perfil do JAX