vLLM을 사용하여 Cloud Run GPU에서 LLM 추론 실행

다음 Codelab은 프로덕션 시스템을 위한 추론 엔진인 vLLM과 20억 개의 파라미터 명령 조정 모델인 Google의 Gemma 2를 실행하는 백엔드 서비스를 실행하는 방법을 보여줍니다.

달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.

최종 업데이트: 2025-10-19(UTC)