Menjalankan inferensi LLM di GPU Cloud Run dengan vLLM
Codelab berikut menunjukkan cara menjalankan layanan backend yang menjalankan vLLM, yang merupakan
mesin inferensi untuk sistem produksi, bersama dengan Gemma 2 Google, yang merupakan
model yang disesuaikan dengan petunjuk 2 miliar parameter.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-10-19 UTC."],[],[]]