Inferência do Cloud TPU

A publicação refere-se ao processo de implementação de um modelo de aprendizagem automática preparado num ambiente de produção, onde pode ser usado para inferência. A inferência é suportada na TPU v5e e versões mais recentes. Os SLOs de latência são uma prioridade para a publicação.

Este documento aborda a publicação de um modelo numa TPU de host único. As fatias de TPU com 8 ou menos chips têm uma VM ou um anfitrião de TPU e são denominadas TPUs de anfitrião único. Para obter informações sobre a inferência em vários anfitriões, consulte o artigo Realize a inferência em vários anfitriões com o Pathways.

Começar

Precisa de uma Google Cloud conta e um projeto para usar o Cloud TPU. Para mais informações, consulte o artigo Configure um ambiente do Cloud TPU.

Certifique-se de que tem quota suficiente para o número de núcleos de TPU que planeia usar para a inferência. A TPU v5e usa quotas separadas para preparação e publicação. As quotas específicas de serviço para a TPU v5e são:

  • Recursos v5e a pedido: TPUv5 lite pod cores for serving per project per zone
  • Recursos v5e preemptíveis: Preemptible TPU v5 lite pod cores for serving per project per zone

Para outras versões da TPU, as cargas de trabalho de preparação e publicação usam a mesma quota. Para mais informações, consulte as cotas do Cloud TPU.

Publique MDIs/CEs com o vLLM

O vLLM é uma biblioteca de código aberto concebida para a inferência e a publicação rápidas de grandes modelos de linguagem (GMLs). O Cloud TPU integra-se com o vLLM através do plugin tpu-inference, que suporta modelos JAX e PyTorch. Para mais informações, consulte o tpu-inferencerepositório do GitHub.

Para ver exemplos de utilização do vLLM para publicar um modelo em TPUs, consulte o seguinte:

Criação de perfis

Após a configuração da inferência, pode usar os perfis para analisar o desempenho e a utilização da TPU. Para mais informações sobre a criação de perfis, consulte: