Thanks to visit codestin.com
Credit goes to cloud.google.com

기본 콘텐츠로 건너뛰기
Google Cloud
문서 기술 영역
  • AI 및 ML
  • 애플리케이션 개발
  • 애플리케이션 호스팅
  • 컴퓨팅
  • 데이터 분석 및 파이프라인
  • 데이터베이스
  • 분산, 하이브리드, 멀티 클라우드
  • 생성형 AI
  • 업종별 솔루션
  • 네트워킹
  • 관측 가능성 및 모니터링
  • 보안
  • Storage
크로스 프로덕트 도구
  • 액세스 및 리소스 관리
  • 비용 및 사용량 관리
  • Google Cloud SDK, 언어, 프레임워크, 도구
  • 코드형 인프라
  • 이전
관련 사이트
  • Google Cloud 홈
  • 무료 체험판 및 무료 등급
  • 아키텍처 센터
  • 블로그
  • 영업팀에 문의
  • Google Cloud Developer Center
  • Google Developer Center
  • Google Cloud Marketplace
  • Google Cloud Marketplace 문서
  • Google Cloud Skills Boost
  • Google Cloud Solutions Center
  • Google Cloud 지원팀
  • Google Cloud Tech YouTube 채널
/
  • English
  • Deutsch
  • Español
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어
콘솔 로그인
  • Cloud Run
가이드 참조 샘플 리소스
문의하기 무료로 시작하기
Google Cloud
  • 문서
    • 가이드
    • 참조
    • 샘플
    • 리소스
  • 기술 영역
    • 더보기
  • 크로스 프로덕트 도구
    • 더보기
  • 관련 사이트
    • 더보기
  • 콘솔
  • 문의하기
  • 무료로 시작하기
  • Discover
  • 제품 개요
  • Cloud Run 리소스 모델
  • 컨테이너 런타임 계약
  • 내 앱이 Cloud Run 서비스에 적합한가요?
  • 함수를 언제 배포해야 하나요?
  • 시작하기
  • 개요
  • 샘플 웹 서비스 배포
    • 샘플 컨테이너 배포
    • 템플릿 저장소 만들기 및 git 저장소에서 배포
    • 소스 코드에서 Hello World 서비스 배포
      • Go
      • Node.js
      • Python
        • Flask
        • FastAPI
        • Gradio
        • Streamlit
      • Java
      • Kotlin
      • C#
      • C++
      • PHP
      • Ruby
      • 기타
      • 프레임워크
        • 개요
        • Angular SSR
        • Next.js
        • Nuxt.js
        • SvelteKit
  • 샘플 작업자 풀 컨테이너 배포
  • 샘플 작업 실행
    • 작업 실행
    • 소스 코드에서 작업 실행
      • Go
      • Node.js
      • Python
      • Java
      • Shell
  • 샘플 함수 배포
    • 콘솔을 사용하여 함수 배포
    • gcloud를 사용하여 함수 배포
  • 개발
  • 환경 설정
  • 서비스 계획 및 준비
    • 서비스 개발
    • 코드 컨테이너화
    • Google Cloud 서비스에 연결
    • 컨테이너에 시스템 패키지 설치
    • 컨테이너 내에서 gcloud 명령어 실행
  • AI 에이전트
    • AI 에이전트 호스팅
    • A2A 에이전트 호스팅
      • 호스트 A2A 에이전트 개요
      • A2A 에이전트 배포
      • A2A 에이전트 배포 테스트 및 모니터링
    • 도구
      • 브라우저 및 OS 자동화
      • 코드 실행
  • MCP 서버
    • MCP 서버 호스팅
    • 원격 MCP 서버 빌드 및 배포
  • 함수 계획 및 준비
    • 개요
    • Cloud Run Functions 비교
    • Cloud Run 함수 작성
    • 런타임
      • 개요
      • Node.js
        • 개요
        • Node.js 종속 항목
      • Python
        • 개요
        • Python 종속 항목
      • Go
        • 개요
        • Go 종속 항목
      • Java
        • 개요
        • Java 종속 항목
      • .NET
      • Ruby
      • PHP
    • 로컬 함수 개발
    • 함수 트리거
    • 튜토리얼
      • BigQuery 결과를 반환하는 함수 만들기
      • Spanner 결과를 반환하는 함수 만들기
      • Cloud 데이터베이스와 통합
      • Codelabs
  • 빌드 및 테스트
    • 소스를 컨테이너로 빌드
    • 함수를 컨테이너로 빌드
    • 로컬 테스트
  • HTTP 요청 처리
  • 서비스 배포
    • 컨테이너 이미지 배포
    • git에서 지속적 배포
    • 소스 코드에서 배포
    • 함수 배포
  • 웹 트래픽 제공
    • 커스텀 도메인 매핑
    • CDN으로 정적 애셋 제공
    • 여러 리전의 트래픽 제공
    • 세션 어피니티 사용 설정
    • Nginx를 사용한 프런트엔드 프록시
  • 서비스 관리
    • 서비스 보기, 복사 또는 삭제
    • 버전 보기 또는 삭제
    • 트래픽 마이그레이션, 점진적 출시, 롤백
  • 서비스 구성
    • 개요
    • 용량
      • 메모리 한도
      • CPU 한도
      • GPU
        • GPU 구성
        • GPU 성능 권장사항
        • Ollama를 사용하여 Cloud Run GPU에서 LLM 추론 실행
        • Cloud Run에서 Gemma 3 모델 실행
        • vLLM을 사용하여 Cloud Run GPU에서 LLM 추론 실행
        • GPU 가속을 사용하여 Cloud Run에서 OpenCV 실행
        • Hugging Face Transformers.js를 사용하여 Cloud Run GPU에서 LLM 추론 실행
        • Hugging Face TGI를 사용하여 Cloud Run GPU에서 LLM 추론 실행
      • 요청 시간 종료
      • 최대 동시 요청 수
        • 인스턴스당 최대 동시 요청 수 정보
        • 최대 동시 요청 수 구성
      • 결제
      • 추천자로 서비스 구성 최적화
    • 환경
      • 컨테이너 포트 및 진입점
      • 환경 변수
      • 볼륨 마운트
        • Cloud Storage 볼륨
        • NFS 볼륨
        • 인메모리 볼륨
      • 실행 환경
        • 개요
        • 실행 환경 선택
      • 컨테이너 상태 점검
      • HTTP/2 요청
      • 보안 비밀
      • 서비스 ID
    • 크기 조정
      • 서비스 인스턴스 자동 확장 정보
      • 최대 인스턴스
        • 서비스 최대 인스턴스 정보
        • 최대 인스턴스 구성
      • 최소 인스턴스
      • 수동 확장
    • Metadata
      • 설명
      • 라벨
      • 태그
    • 소스 배포 구성
      • 지원되는 언어 런타임 및 기본 이미지
      • 기본 이미지 자동 업데이트 구성
      • 빌드 환경 변수
      • 빌드 서비스 계정
      • 빌드 작업자 풀
  • 서비스 호출 및 트리거
    • HTTPS 요청으로 호출
    • 웹훅 대상 호스팅
    • WebSocket으로 스트리밍
      • 개요
      • WebSocket 채팅 서비스 빌드 튜토리얼
    • 비동기식 호출
      • 일정에 따라 서비스 호출
      • 워크플로 만들기
        • 워크플로의 일부로 서비스 호출
        • Cloud Functions 및 Cloud Run에서 일련의 서비스 연결 튜토리얼
      • 비동기 작업 실행
      • Pub/Sub 푸시 구독에서 서비스 호출
        • Pub/Sub에서 서비스 트리거
        • Pub/Sub 샘플에 이미지 처리 통합 튜토리얼
    • 이벤트에서 트리거
      • Eventarc로 트리거 만들기
      • Pub/Sub 트리거
        • Pub/Sub EventArc 트리거 만들기
        • Eventarc를 사용하여 Pub/Sub에서 함수 트리거
        • 라우팅된 로그 항목에서 함수 트리거
      • Cloud Storage 트리거
        • Cloud Storage로 트리거 만들기
        • Eventarc를 사용하여 Cloud Storage에서 서비스 트리거
        • Eventarc를 사용하여 Cloud Storage에서 함수 트리거
      • Firestore 트리거
        • Firestore로 트리거 만들기
        • Firestore 데이터베이스의 이벤트에서 함수 트리거
    • gRPC를 사용하여 다른 서비스와 연결
  • 권장사항
    • 서비스를 위한 일반적인 개발 팁
    • Java 서비스 최적화
    • Python 서비스 최적화
    • Node.js 서비스 최적화
    • 부하 테스트 권장사항
    • 영역 중복화 이해하기
    • 함수 권장사항
      • 개요
      • 이벤트 기반 함수 재시도 사용 설정
  • 작업 태스크를 완료될 때까지 실행
  • 작업 만들기
  • 작업 실행
    • 작업 실행
    • 예약된 작업 실행
    • VPC SC 경계에서 예약된 작업 실행
    • Workflows에서 작업 실행
  • 작업 구성
    • 컨테이너 진입점
    • CPU 한도
    • 메모리 한도
    • GPU
      • GPU 구성
      • GPU 권장사항
      • Cloud Run 작업을 사용하여 GPU로 LLM 파인 튜닝
      • Cloud Run 작업을 사용하여 GPU로 일괄 추론 실행
      • FFmpeg를 사용한 GPU 가속 동영상 트랜스코딩
    • 환경 변수
    • 컨테이너 상태 점검
    • 볼륨 마운트
      • Cloud Storage 볼륨
      • NFS 볼륨
      • 인메모리 볼륨
      • 기타 네트워크 파일 시스템
    • 라벨
    • 최대 재시도 수
    • 동시 로드
    • 보안 비밀
    • 서비스 ID
    • 태스크 제한 시간
    • 태그
  • 작업 관리
    • 작업 보기 또는 삭제
    • 작업 실행 보기 또는 중지
  • 권장사항
  • 지속적인 백그라운드 작업 수행
  • 작업자 풀 배포
    • 작업자 풀 배포
    • 소스 코드에서 작업자 풀 배포
  • 작업자 풀 관리
    • 작업자 풀 보기 또는 삭제
    • 작업자 풀 버전 보기 또는 삭제
  • 작업자 풀 구성
    • 용량
      • 메모리 한도
      • CPU 한도
      • GPU
        • GPU 구성
        • GPU 권장사항
    • 환경
      • 컨테이너 및 진입점
      • 환경 변수
      • 볼륨 마운트
        • Cloud Storage 볼륨
        • NFS 볼륨
        • 인메모리 볼륨
        • 기타 네트워크 파일 시스템
      • 컨테이너 상태 점검
      • 보안 비밀
      • 서비스 ID
    • 인스턴스 개수
    • Metadata
      • 설명
      • 라벨
      • 태그
  • 외부 측정항목을 기준으로 확장
    • Kafka 자동 확장 처리
    • 작업자 풀로 GitHub 러너 호스팅
  • 네트워킹 구성
  • Cloud Run 네트워킹 권장사항
  • 비공개 네트워킹 구성
  • VPC 네트워크로 트래픽 전송
    • 개요
    • 직접 VPC 이그레스
    • 이중 스택 서비스 및 작업
    • 표준 VPC 커넥터를 직접 VPC 이그레스로 마이그레이션
    • VPC 커넥터
  • 공유 VPC 네트워크로 트래픽 전송
    • 개요
    • 직접 VPC 이그레스
    • 공유 VPC 커넥터를 직접 VPC 이그레스로 마이그레이션
    • 서비스 프로젝트의 커넥터
    • 호스트 프로젝트의 커넥터
  • 고정 아웃바운드 IP 주소
  • 네트워크 보안
    • 인그레스 제한(서비스)
    • VPC 서비스 제어(VPC SC) 사용
  • Cloud Service Mesh
  • 보안
  • 보안 설계 개요
  • 요청 인증
    • 개요
    • 공개 액세스 허용
    • 커스텀 잠재고객
    • 개발자 인증
    • 서비스 간
    • 사용자 인증
    • 최종 사용자 인증 튜토리얼
  • 리소스 보호
    • IAM으로 액세스 제어
    • Cloud Run용 IAP 구성
    • 서비스 ID 소개
    • Cloud Armor로 서비스 보호
    • Binary Authorization 사용
    • Cloud Run Threat Detection 사용
    • 고객 관리 암호화 키 사용
    • 프로젝트의 맞춤 제약조건 관리
    • 소프트웨어 공급망 보안 인사이트 보기
    • 안전한 Cloud Run 서비스 튜토리얼
  • 모니터링 및 로깅
  • 모니터링 및 로깅 개요
  • 기본 제공 측정항목 보기
  • Prometheus 측정항목 작성
  • OpenTelemetry 측정항목 작성
  • 로깅 및 로그 보기
  • 감사 로깅
  • 오류 보고
  • 서비스에 분산 tracing 사용
  • 마이그레이션
  • 기존 웹 서비스
  • App Engine에서
  • Cloud Run Functions (1세대)에서 연결
  • AWS Lambda에서
  • Heroku에서 추가
  • Cloud Foundry에서
    • 마이그레이션 개요
    • OCI 준수 전략 선택
    • OCI 컨테이너로 마이그레이션
    • 구성 마이그레이션
    • 샘플 마이그레이션: Spring Music
  • VMWare Tanzu에서
  • Migrate to Containers를 사용하여 VM에서
  • Kubernetes에서
  • GKE에서
  • 문제 해결
  • 소개
  • 오류 문제 해결하기
  • 로컬 문제 해결 튜토리얼
  • 알려진 문제
  • 샘플
  • 모든 Cloud Run 코드 샘플
  • 모든 Cloud Run Functions 코드 샘플
  • 모든 제품에 대한 코드 샘플
  • AI 및 ML
  • 애플리케이션 개발
  • 애플리케이션 호스팅
  • 컴퓨팅
  • 데이터 분석 및 파이프라인
  • 데이터베이스
  • 분산, 하이브리드, 멀티 클라우드
  • 생성형 AI
  • 업종별 솔루션
  • 네트워킹
  • 관측 가능성 및 모니터링
  • 보안
  • Storage
  • 액세스 및 리소스 관리
  • 비용 및 사용량 관리
  • Google Cloud SDK, 언어, 프레임워크, 도구
  • 코드형 인프라
  • 이전
  • Google Cloud 홈
  • 무료 체험판 및 무료 등급
  • 아키텍처 센터
  • 블로그
  • 영업팀에 문의
  • Google Cloud Developer Center
  • Google Developer Center
  • Google Cloud Marketplace
  • Google Cloud Marketplace 문서
  • Google Cloud Skills Boost
  • Google Cloud Solutions Center
  • Google Cloud 지원팀
  • Google Cloud Tech YouTube 채널
  • 홈
  • Documentation
  • Application hosting
  • Cloud Run
  • 가이드

vLLM을 사용하여 Cloud Run GPU에서 LLM 추론 실행

다음 Codelab은 프로덕션 시스템을 위한 추론 엔진인 vLLM과 20억 개의 파라미터 명령 조정 모델인 Google의 Gemma 2를 실행하는 백엔드 서비스를 실행하는 방법을 보여줍니다.

vLLM을 사용하여 Cloud Run GPU에서 LLM 추론 실행에서 전체 Codelab을 확인하세요.

달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.

최종 업데이트: 2025-10-19(UTC)

  • Google을 사용해야 하는 이유

    • Google Cloud 선택
    • 신뢰성 및 보안
    • 최신 인프라 클라우드
    • 멀티 클라우드
    • 글로벌 인프라
    • 고객 및 우수사례
    • 분석 보고서
    • 백서
  • 제품 및 가격 책정

    • 모든 제품 보기
    • 모든 솔루션 보기
    • 스타트업을 위한 Google Cloud
    • Google Cloud Marketplace
    • Google Cloud 가격 책정
    • 영업팀에 문의
  • 지원

    • Community forums
    • 지원
    • 출시 노트
    • 시스템 상태
  • 리소스

    • GitHub
    • Google Cloud 시작하기
    • Google Cloud 문서
    • 코드 샘플
    • 클라우드 아키텍처 센터
    • 교육 및 자격증
    • Developer Center
  • 참여

    • 블로그
    • 이벤트
    • X(트위터)
    • YouTube의 Google Cloud 채널
    • Google Cloud Tech의 YouTube 채널
    • 파트너 되기
    • Google Cloud Affiliate Program
    • 보도자료 코너
  • Google 정보
  • 개인정보처리방침
  • 사이트 약관
  • Google Cloud 약관
  • Manage cookies
  • Google의 기후 행동 30년: 동참하기
  • Google Cloud 뉴스레터 구독하기 구독
  • English
  • Deutsch
  • Español
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어