Inferenza Cloud TPU
Il servizio si riferisce al processo di deployment di un modello di machine learning addestrato in un ambiente di produzione, dove può essere utilizzato per l'inferenza. L'inferenza è supportata su TPU v5e e versioni successive. Gli SLO di latenza sono una priorità per la pubblicazione.
Questo documento illustra l'hosting di un modello su una TPU single-host. Le sezioni TPU con 8 o meno chip hanno una VM o un host TPU e vengono chiamate TPU a host singolo. Per informazioni sull'inferenza multihost, consulta Eseguire l'inferenza multihost utilizzando Pathways.
Inizia
Per utilizzare Cloud TPU, devi disporre di un account e di un progetto Google Cloud . Per saperne di più, consulta Configurare un ambiente Cloud TPU.
Assicurati di disporre di una quota sufficiente per il numero di core TPU che prevedi di utilizzare per l'inferenza. TPU v5e utilizza quote separate per l'addestramento e la pubblicazione. Le quote specifiche per la pubblicazione per TPU v5e sono:
- Risorse v5e on demand:
TPUv5 lite pod cores for serving per project per zone
- Risorse v5e prerilasciabili:
Preemptible TPU v5 lite pod cores for serving per project per zone
Per le altre versioni della TPU, i carichi di lavoro di addestramento e serving utilizzano la stessa quota. Per ulteriori informazioni, consulta Quote Cloud TPU.
Gestire LLM con vLLM
vLLM è una libreria open source progettata per
l'inferenza e la pubblicazione rapide di modelli linguistici di grandi dimensioni (LLM). Cloud TPU
si integra con vLLM utilizzando il plug-in tpu-inference
, che supporta i modelli JAX e
PyTorch. Per maggiori informazioni, consulta il repository GitHub
tpu-inference
.
Per esempi di utilizzo di vLLM per pubblicare un modello sulle TPU, consulta quanto segue:
- Iniziare a utilizzare vLLM TPU
- Gestisci un LLM utilizzando TPU Trillium su GKE con vLLM.
- Ricette per l'hosting di vLLM su TPU Trillium (v6e)
Profilazione
Dopo aver configurato l'inferenza, puoi utilizzare i profiler per analizzare le prestazioni e l'utilizzo della TPU. Per ulteriori informazioni sulla profilazione, vedi: