Mati Staniszewski y Piotr Dabkowski, que crecieron en Polonia a principios de la década de los 2000, no podían soportar el mal doblaje de las películas que tenían que ver. El presupuesto para doblar películas extranjeras al polaco es limitado, lo que significaba que la mayoría de las películas tenían un solo orador que recitaba las líneas de cada personaje con poca profundidad, matiz o emoción.
Esas experiencias de la infancia se les quedaron grabadas a los amigos cuando hicieron carrera en el sector tecnológico y, al final, les surgió una idea: ¿y si pudieran resolver el terrible problema del doblaje, y muchos otros, creando voces sintéticas realistas, emotivas y con conciencia del contexto?
Esa idea condujo al lanzamiento en 2022 de ElevenLabs, que aprovechó los avances en IA y aprendizaje profundo para convertirse en la primera empresa en desarrollar voces artificiales capaces de crear un habla (e incluso risa) similar a la humana. Ese avance situó a la startup en la vanguardia de la tecnología de audio con IA. En la actualidad, ElevenLabs ofrece un conjunto de productos cada vez más amplio que incluye un motor de texto a voz para contenidos de audio y vídeo, herramientas de diseño de voz para el desarrollo de personajes, un estudio de traducción y doblaje, y un kit de herramientas para chatbots de IA conversacional que pueden interactuar con los clientes.
La monetización de esos productos a medida que la empresa crecía requería un socio de pago igual de avanzado. ElevenLabs, establecida en Londres y Nueva York, recurrió a Stripe en 2023 para lanzar suscripciones de tarifa plana para sus herramientas de audio con IA. Desde entonces, ElevenLabs ha dependido de la profundidad de los productos de Stripe para expandirse a servicios de nivel empresarial y apoyar su modelo de negocio en rápida evolución. Por ejemplo, la empresa ha confiado en Stripe para desarrollar iniciativas importantes como su marketplace, donde los actores de doblaje pueden obtener licencias de sus voces para uso comercial.
«Empezamos hace dos años y medio y ya somos una empresa unicornio», afirma Luke Harries, jefe de crecimiento de ElevenLabs. «Tenemos cientos de miles de suscriptores de autoservicio y empresas como Perplexity, la revista Time y Bertelsmann utilizan nuestra plataforma. Todos estos pagos los ha gestionado nuestro primer ingeniero que configuró Stripe».
Soporte de suscripciones, transferencias y flujos de trabajo agénticos con un ingeniero de facturación
ElevenLabs comenzó con 11 voces de IA similares a las humanas. A diferencia de las voces robóticas de IA anteriores, la tecnología de ElevenLabs reproduce los matices de edad, acento, género, entonación y otros factores que hacen que cada voz humana sea única. Ese realismo, combinado con la capacidad de la plataforma para calibrar las emociones a partir de pistas textuales, hizo que el motor de texto a voz de ElevenLabs fuese un éxito entre los creadores que buscaban locutar guiones de vídeo, podcasts, noticias, audiolibros y casi cualquier otro tipo de contenido de audio o vídeo.
ElevenLabs eligió Stripe Billing para empezar fácilmente, iterar rápidamente y escalar sin inconvenientes su servicio de suscripción para herramientas de voz a texto para creadores de contenido y editores. La facilidad de trabajar con la API y el SDK de Stripe hizo que el equipo confiara en que podría crear rápidamente varios niveles de tarifas sin dedicar prácticamente tiempo de ingeniería a la tarea. La flexibilidad de Billing también permitió a la empresa ampliar sus ofertas de suscripción para dar cabida a clientes más grandes a medida que desplegaba productos a escala empresarial, como un estudio de producción de audio completo y servicios de doblaje.
Con el alcance global de Stripe, ElevenLabs pudo aceptar al instante suscriptores de todo el mundo, y la empresa utilizó el paquete de optimización del checkout de Stripe para diseñar una página de registro de suscripciones sencilla y eficaz para el público internacional. Por ejemplo, la empresa integró el formulario preintegrado de Checkout en su página, lo que facilitó la oferta de monederos digitales y métodos de pago locales como Apple Pay, Google Pay y Revolut Pay sin más necesidad de programación. ElevenLabs también añadió la solución de proceso de compra acelerado de Stripe, Link, para permitir a los clientes completar automáticamente su información de pago guardada en cualquier lugar de la red Link. Los usuarios del paquete optimizado del checkout se benefician de un aumento de las tasas de conversión, y la experiencia del proceso de compra de Link más fácil y rápido representa ahora el 20 % de los pagos de ElevenLabs.
Como empresa de IA, ElevenLabs vio el potencial de la IA de Stripe para tener un impacto significativo en el recorrido del suscriptor. En lugar de basarse en normativas rígidas, los modelos de IA integrados en el paquete optimizado del checkout determinan dinámicamente qué métodos de pago mostrar y en qué orden en cada proceso de compra, lo que ayuda a ElevenLabs a ofrecer una experiencia del usuario más personalizada.
Los productos de Stripe también permitieron a ElevenLabs gestionar eficazmente una serie de tareas de facturación y pago, como la gestión de las transferencias y la simplificación del proceso de onboarding. De hecho, ElevenLabs logró sus integraciones de Stripe y está gestionando sus diversos flujos de trabajo de facturación y pago con un solo ingeniero. «Si tuviéramos que realizar toda la infraestructura de suscripción internamente para gestionar nuestras diferentes regiones geográficas, necesitaríamos un equipo de ingeniería completo dedicado exclusivamente a los pagos», afirma Harries.
Cuando ElevenLabs desarrolló una sofisticada tecnología de clonación de voces, la empresa vio la oportunidad de apoyar a la comunidad de actores de doblaje profesionales y añadir un nuevo nivel a su modelo de negocio. Con Stripe Connect, ElevenLabs creó un marketplace en el que los actores pueden clonar sus voces para proyectos comerciales, establecer condiciones y recibir transferencias cada vez que un usuario de ElevenLabs elige su voz para un proyecto. Connect ofrecía funcionalidades listas para usar para gestionar el onboarding de actores de doblaje, incluido el soporte de transferencias internacionales y la gestión de obstáculos normativos como los requisitos de «Conocimiento del cliente» (KYC). Por ejemplo, el cumplimiento de las normativas KYC puede suponer un obstáculo considerable para las plataformas a lo largo del proceso de onboarding. Las funciones de Stripe volvieron a ahorrar tiempo de desarrollo y recursos que ElevenLabs pudo dedicar a sus principales proyectos de IA de audio.
ElevenLabs vio que muchas empresas utilizaban sus modelos de texto a voz y voz a texto para crear agentes de IA. A menudo, las empresas tardaban meses en entrar en producción y reconstruían la misma pila tecnológica subyacente. Así que ElevenLabs lanzó su propia plataforma para crear una voz de IA conversacional para que los clientes pudieran entrar en producción con mayor rapidez y centrarse en construir la lógica de negocio del agente en lugar de la infraestructura. Con el kit de herramientas de agente de Stripe , la plataforma de agente de ElevenLabs podría permitir a los agentes completar los flujos de trabajo de atención al cliente o ventas. Por ejemplo, el agente de IA de una empresa podría acceder a su cuenta de Stripe para emitir un reembolso o completar una transacción enviando un enlace de finalización de compra. «El mayor cambio en los agentes conversacionales de IA va a ser el paso de la mera respuesta a preguntas al uso de su propia autonomía para ejecutar determinadas acciones», afirma Harries.
Un socio para mantener a ElevenLabs por delante de la competencia
A partir de esas 11 primeras voces, ElevenLabs cuenta ahora con más de 5000 voces disponibles en su plataforma, impulsada en parte por su avanzado marketplace. La plataforma ha pagado más de 4 millones de dólares a actores de doblaje, y algunos de los que más ganan superan los 10.000 $ al mes.
Los usuarios ya han creado más de 550.000 agentes de IA en la plataforma, lo que es solo el principio, teniendo en cuenta el número de casos de uso que permiten los bots verdaderamente conversacionales y los flujos de trabajo de los agentes. ElevenLabs también sigue añadiendo más idiomas a sus funciones de texto a voz y doblaje, que ahora son compatibles con 33 idiomas, desde el inglés, el francés y el español hasta nuevas incorporaciones como el croata y el tamil.
Harries compara la competencia en el ámbito del audio con IA con Fórmula 1, en la que todas las empresas buscan la próxima iteración tecnológica o el producto más innovador para situarse en primera línea. Por ello, no espera que el ritmo de innovación de ElevenLabs disminuya en un futuro próximo. También ve a Stripe como un socio clave para continuar esa innovación.
«Me entusiasma seguir escalando un volumen mucho mayor de pagos a través de Stripe, [realizando] muchos más millones de pagos a actores de doblaje en nuestra plataforma, y expandiéndonos a muchos más países y opciones de pago», dijo Harries.
We started about two and a half years ago, and we are now a unicorn. We have hundreds of thousands of self-service subscribers and enterprises like Perplexity, Time magazine, and Bertelsmann using our platform. All these payments have been handled by our first engineer setting up Stripe.
Supporting subscriptions, payouts, and agentic workflows with one billing engineer
ElevenLabs started with 11 human-like AI voices. Unlike previous robotic AI voices, ElevenLabs technology replicates the nuances of age, accent, gender, intonation, and other factors that make each human voice unique. That realism, combined with the platform’s ability to gauge emotion from textual clues, made ElevenLabs’ Text to Speech engine a hit among creators looking to voice video scripts, podcasts, news reports, audiobooks, and almost any other type of audio or video content.
ElevenLabs chose Stripe Billing to get started easily, iterate rapidly, and seamlessly scale its subscription service for voice-to-text tools for content creators and publishers. The ease of working with the Stripe API and SDK made the team confident they could quickly build multiple pricing tiers with virtually no engineering time dedicated to the task. Billing’s flexibility also meant the company could scale its subscription offerings to accommodate larger customers as it rolled out enterprise-scale products such as a full-fledged audio production studio and dubbing services.
With Stripe’s global reach, ElevenLabs was able to instantly accept subscribers from all over the world, and the company used Stripe’s Optimized Checkout Suite to design a simple, effective subscription sign-up page for the global audience. For example, the company embedded the prebuilt Checkout form on its page, which made it easy to offer digital wallets and local payment methods such as Apple Pay, Google Pay, and Revolut Pay with no additional coding required. ElevenLabs also added Stripe’s accelerated checkout solution, Link, to enable customers to autofill their saved payment information anywhere across the Link network. Optimized Checkout Suite users benefit from an uplift in conversion rates, and Link’s easy, faster checkout experience now accounts for 20% of ElevenLabs’ payments. By running Stripe on AWS, ElevenLabs is supported by built-in AI tools to localize, personalize, and optimize the buying experience for its customers.
As an AI company, ElevenLabs saw the potential for Stripe’s AI to make a significant impact on the subscriber journey. Instead of relying on rigid rules, the AI models built into the Optimized Checkout Suite dynamically determine which payment methods to display in what order for every checkout, helping ElevenLabs provide a more personalized user experience.
Stripe products also enabled ElevenLabs to efficiently manage a range of billing and payment tasks, such as managing payouts and simplifying the onboarding process. In fact, ElevenLabs accomplished its Stripe integrations and is managing its various billing and payment workflows with just one engineer.
If we had to do all the subscription infrastructure in-house to handle all our different geographic regions, I’d expect we’d need a full engineering team dedicated purely to payments.
When ElevenLabs developed sophisticated voice cloning technology, the company saw an opportunity to support the professional voice actor community and add another new layer to its business model. Using Stripe Connect, ElevenLabs created a marketplace where actors can clone their voices for commercial projects, set terms, and receive payouts any time an ElevenLabs user selects their voice for a project. Connect offered ready-to-use capabilities to handle voice actor onboarding, including supporting international payouts and managing regulatory hurdles such as Know Your Customer (KYC) requirements. For instance, compliance with KYC rules can pose a considerable hurdle for platforms throughout the onboarding process. Stripe’s features again saved development time and resources that ElevenLabs could dedicate to its core audio AI projects.
ElevenLabs saw many companies using their Text to Speech and Speech to Text models to build AI agents. The companies often took months to get in production and were rebuilding the same underlying stack. So ElevenLabs launched their own platform to create a Conversational AI voice for customers to get to production quicker and focus on building the agent business logic rather than infrastructure. With the Stripe agent toolkit, ElevenLabs’ agent platform could enable agents to complete customer service or sales workflows. For example, a business’s AI agent could reach into its Stripe account to issue a refund or complete a transaction by sending out a checkout link. “The biggest shift in conversational AI agents is going to be from just pure question answering, to now using their own autonomy to execute certain actions,” said Harries.
A partner to keep ElevenLabs ahead of the competition
Building on those first 11 voices, ElevenLabs now has more than 5,000 voices available on its platform—driven in part by its advanced marketplace. The platform has paid out more than $4 million to voice actors, with some top earners making more than $10,000 a month.
Already, users have made more than 550,000 AI agents on the platform, which is just the start, considering the number of use cases enabled by truly conversational bots and agentic workflows. ElevenLabs also continues to add more languages to its Text to Speech and dubbing capabilities, which now supports 33 languages ranging from English, French, and Spanish to newer additions such as Croatian and Tamil.
Harries likens the competition in the AI audio space to Formula 1, where every company is looking for the next technology iteration or breakthrough product to power it to the front of the field. As a result, he doesn’t expect the pace of innovation to slow anytime soon for ElevenLabs. And he sees Stripe as a key partner for continuing that innovation.
I’m excited to keep scaling up much more volume of payments through Stripe, [making] many more millions of payments to voice actors on our platform, and expanding into far more countries and payment options.