Se usó la API de Cloud Translation para traducir esta página.

Aloja apps y agentes de IA en Cloud Run

En esta página, se destacan algunos casos de uso de Cloud Run como plataforma de hosting para los siguientes casos de uso de IA:

Aloja aplicaciones de IA en Cloud Run

Las aplicaciones de IA usan modelos de IA para operar o realizar una tarea específica. Por ejemplo, una aplicación de IA puede usar un modelo de IA para resumir documentos o ser una interfaz de chat que usa una base de datos de vectores para recuperar más contexto.

Cloud Run es una de las infraestructuras de alojamiento de aplicaciones que proporciona un entorno completamente administrado para las cargas de trabajo de tu aplicación de IA. Cloud Run se integra con modelos de IA, como la API de Gemini, los extremos de Vertex AI o los modelos alojados en un servicio de Cloud Run habilitado para GPU. Cloud Run también se integra con Cloud SQL para PostgreSQL y AlloyDB para PostgreSQL, que son dos bases de datos que ofrecen la extensión pgvector para la generación aumentada por recuperación (RAG).

Aloja agentes de IA en Cloud Run

Los agentes de IA combinan la inteligencia de los modelos de IA avanzados con el acceso a herramientas para realizar acciones en nombre del usuario y bajo su control.

Puedes implementar agentes de IA como servicios de Cloud Run para coordinar un conjunto de tareas asíncronas y proporcionar información a los usuarios a través de múltiples interacciones de solicitud-respuesta.

Arquitectura del agente de IA en Cloud Run

Una arquitectura típica de agentes de IA implementada en Cloud Run puede incluir varios componentes de Google Cloud y fuera de Google Cloud:

Arquitectura de un agente de IA en Cloud Run

Publicación y organización: Un servicio de Cloud Run actúa como un extremo de API escalable y puede controlar varios usuarios simultáneos a través del escalamiento automático, a pedido y rápido de instancias. Este servicio ejecuta la lógica principal del agente y, a menudo, usa un framework de orquestación de IA, como LangGraph o el Kit de desarrollo de agentes (ADK). Esta capa coordina las llamadas a otros componentes. Cloud Run admite respuestas HTTP de transmisión al usuario a través de WebSockets. La identidad de servicio integrada de Cloud Run proporciona credenciales seguras y automáticas para llamar a las APIs Google Cloud sin administrar claves de API.
Modelos de IA: La capa de organización llama a los modelos para obtener capacidades de razonamiento. Estos pueden ser los siguientes:
- La API de Gemini
- Modelos personalizados o modelos de base implementados en extremos de Vertex AI
- Tus propios modelos ajustados que se entregan desde un servicio de Cloud Run habilitado para GPU independiente
Memoria: Los agentes suelen necesitar memoria para conservar el contexto y aprender de las interacciones pasadas.
- La memoria a corto plazo se puede implementar conectando Cloud Run a Memorystore para Redis.
- La memoria a largo plazo para almacenar el historial de conversaciones o recordar las preferencias del usuario se puede implementar conectando Cloud Run a Firestore, una base de datos NoSQL escalable y sin servidores.
Bases de datos y recuperación: Para la generación mejorada por recuperación (RAG) o la recuperación de datos estructurados:
- Conecta Cloud Run a bases de datos vectoriales, como Cloud SQL para PostgreSQL o AlloyDB para PostgreSQL, con la extensión pgvector para consultar información específica de entidades o realizar búsquedas de similitud en embeddings.
Herramientas: El orquestador usa herramientas para realizar tareas específicas para las que los modelos no son adecuados o para interactuar con servicios, APIs o sitios web externos. Esto puede incluir lo siguiente:
- Utilidades básicas: Los cálculos matemáticos precisos, las conversiones de tiempo y otras utilidades similares se pueden ejecutar en el servicio de Cloud Run de orquestación.
- Llamadas a la API: Realiza llamadas a otras APIs internas o de terceros (acceso de lectura o escritura).
- Generación de imágenes o gráficos: Usa modelos de generación de imágenes o ejecuta bibliotecas de gráficos para crear contenido visual de forma rápida y eficaz.
- Automatización del SO y el navegador: Ejecuta un sistema operativo gráfico completo o sin encabezado dentro de instancias de contenedores para permitir que el agente navegue por la Web, extraiga información de sitios web o realice acciones con clics y entradas de teclado. El servicio de Cloud Run devuelve píxeles de pantallas. Usa bibliotecas como Puppeteer para controlar el navegador.
- Ejecución de código: Cloud Run proporciona un entorno seguro con aislamiento de múltiples capas y se puede configurar para el servicio de ejecución de código con permisos de IAM mínimos o nulos. Se puede usar un trabajo de Cloud Run para ejecutar código de forma asíncrona y un servicio de Cloud Run con una simultaneidad de 1 para la ejecución síncrona.

¿Qué sigue?

Mira Build AI agents on Cloud Run.
Prueba el codelab para aprender a compilar e implementar una app con LangChain en Cloud Run.
Aprende a implementar el Agent Development Kit (ADK) en Cloud Run.
Prueba el codelab para usar un servidor de MCP en Cloud Run con un agente de ADK.
Prueba el codelab para implementar tu agente de ADK en Cloud Run con GPU.
Encuentra muestras de agentes listas para usar en Muestras del Kit de desarrollo de agentes (ADK).
Aloja servidores de Model Context Protocol (MCP) en Cloud Run.