Inferenza Cloud TPU

Il servizio si riferisce al processo di deployment di un modello di machine learning addestrato in un ambiente di produzione, dove può essere utilizzato per l'inferenza. L'inferenza è supportata su TPU v5e e versioni successive. Gli SLO di latenza sono una priorità per la pubblicazione.

Questo documento illustra l'hosting di un modello su una TPU single-host. Le sezioni TPU con 8 o meno chip hanno una VM o un host TPU e vengono chiamate TPU a host singolo. Per informazioni sull'inferenza multihost, consulta Eseguire l'inferenza multihost utilizzando Pathways.

Inizia

Per utilizzare Cloud TPU, devi disporre di un account e di un progetto Google Cloud . Per saperne di più, consulta Configurare un ambiente Cloud TPU.

Assicurati di disporre di una quota sufficiente per il numero di core TPU che prevedi di utilizzare per l'inferenza. TPU v5e utilizza quote separate per l'addestramento e la pubblicazione. Le quote specifiche per la pubblicazione per TPU v5e sono:

  • Risorse v5e on demand: TPUv5 lite pod cores for serving per project per zone
  • Risorse v5e prerilasciabili: Preemptible TPU v5 lite pod cores for serving per project per zone

Per le altre versioni della TPU, i carichi di lavoro di addestramento e serving utilizzano la stessa quota. Per ulteriori informazioni, consulta Quote Cloud TPU.

Gestire LLM con vLLM

vLLM è una libreria open source progettata per l'inferenza e la pubblicazione rapide di modelli linguistici di grandi dimensioni (LLM). Cloud TPU si integra con vLLM utilizzando il plug-in tpu-inference, che supporta i modelli JAX e PyTorch. Per maggiori informazioni, consulta il repository GitHub tpu-inference.

Per esempi di utilizzo di vLLM per pubblicare un modello sulle TPU, consulta quanto segue:

Profilazione

Dopo aver configurato l'inferenza, puoi utilizzare i profiler per analizzare le prestazioni e l'utilizzo della TPU. Per ulteriori informazioni sulla profilazione, vedi: