En esta página, se destacan algunos casos de uso de Cloud Run como plataforma de hosting para los siguientes casos de uso de IA:
Aloja aplicaciones de IA en Cloud Run
Las aplicaciones de IA usan modelos de IA para operar o realizar una tarea específica. Por ejemplo, una aplicación de IA puede usar un modelo de IA para resumir documentos o ser una interfaz de chat que usa una base de datos de vectores para recuperar más contexto.
Cloud Run es una de las infraestructuras de alojamiento de aplicaciones que proporciona un entorno completamente administrado para las cargas de trabajo de tu aplicación de IA.
Cloud Run se integra con modelos de IA, como la API de Gemini, los extremos de Vertex AI o los modelos alojados en un servicio de Cloud Run habilitado para GPU.
Cloud Run también se integra con Cloud SQL para PostgreSQL y AlloyDB para PostgreSQL, que son dos bases de datos que ofrecen la extensión pgvector
para la generación aumentada por recuperación (RAG).
Aloja agentes de IA en Cloud Run
Los agentes de IA combinan la inteligencia de los modelos de IA avanzados con el acceso a herramientas para realizar acciones en nombre del usuario y bajo su control.
Puedes implementar agentes de IA como servicios de Cloud Run para coordinar un conjunto de tareas asíncronas y proporcionar información a los usuarios a través de múltiples interacciones de solicitud-respuesta.
Arquitectura del agente de IA en Cloud Run
Una arquitectura típica de agentes de IA implementada en Cloud Run puede incluir varios componentes de Google Cloud y fuera de Google Cloud:
Publicación y organización: Un servicio de Cloud Run actúa como un extremo de API escalable y puede controlar varios usuarios simultáneos a través del escalamiento automático, a pedido y rápido de instancias. Este servicio ejecuta la lógica principal del agente, a menudo con un marco de trabajo de organización de IA, como LangGraph o el Agent Development Kit (ADK). Esta capa coordina las llamadas a otros componentes. Cloud Run admite respuestas HTTP de transmisión al usuario a través de WebSockets. La identidad de servicio integrada de Cloud Run proporciona credenciales seguras y automáticas para llamar a las APIs de Google Cloud sin administrar claves de API.
Modelos de IA: La capa de organización llama a los modelos para obtener capacidades de razonamiento. Estos pueden ser los siguientes:
- La API de Gemini
- Modelos personalizados o modelos de base implementados en extremos de Vertex AI
- Tus propios modelos ajustados que se entregan desde un servicio de Cloud Run habilitado para GPU independiente
Memoria: Los agentes suelen necesitar memoria para conservar el contexto y aprender de las interacciones pasadas.
- La memoria a corto plazo se puede implementar conectando Cloud Run a Memorystore para Redis.
- La memoria a largo plazo para almacenar el historial de conversaciones o recordar las preferencias del usuario se puede implementar conectando Cloud Run a Firestore, una base de datos NoSQL escalable y sin servidores.
Bases de datos y recuperación: Para la generación mejorada por recuperación (RAG) o la recuperación de datos estructurados:
- Conecta Cloud Run a bases de datos vectoriales, como Cloud SQL para PostgreSQL o AlloyDB para PostgreSQL, con la extensión
pgvector
para consultar información específica de entidades o realizar búsquedas de similitud en embeddings.
- Conecta Cloud Run a bases de datos vectoriales, como Cloud SQL para PostgreSQL o AlloyDB para PostgreSQL, con la extensión
Herramientas: El orquestador usa herramientas para realizar tareas específicas para las que los modelos no son adecuados o para interactuar con servicios, APIs o sitios web externos. Esto puede incluir lo siguiente:
- Utilidades básicas: Los cálculos matemáticos precisos, las conversiones de tiempo y otras utilidades similares se pueden ejecutar en el servicio de Cloud Run de orquestación.
- Llamadas a la API: Realiza llamadas a otras APIs internas o de terceros (acceso de lectura o escritura).
- Generación de imágenes o gráficos: Usa modelos de generación de imágenes o ejecuta bibliotecas de gráficos para crear contenido visual de forma rápida y eficaz.
- Automatización del SO y el navegador: Ejecuta un sistema operativo gráfico completo o sin encabezado dentro de instancias de contenedores para permitir que el agente navegue por la Web, extraiga información de sitios web o realice acciones con clics y entradas de teclado. El servicio de Cloud Run devuelve píxeles de pantallas. Usa bibliotecas como Puppeteer para controlar el navegador.
- Ejecución de código: Cloud Run proporciona un entorno seguro con aislamiento de múltiples capas y se puede configurar para el servicio de ejecución de código con permisos de IAM mínimos o nulos. Se puede usar un trabajo de Cloud Run para ejecutar código de forma asíncrona y un servicio de Cloud Run con una simultaneidad de 1 para la ejecución síncrona.
¿Qué sigue?
- Mira Build AI agents on Cloud Run.
- Prueba el codelab para aprender a compilar e implementar una app con LangChain en Cloud Run.
- Aprende a implementar el Agent Development Kit (ADK) en Cloud Run.
- Encuentra muestras de agentes listas para usar en Muestras del Kit de desarrollo de agentes (ADK).
- Aloja servidores de Model Context Protocol (MCP) en Cloud Run.