Supertonic 3: TTS on-device, 31 idiomas y sin APIs de pago

Por Iván Vázquez Caballero • 21 de mayo de 2026 •9 min lectura

Supertonic 3: TTS on-device, 31 idiomas y sin APIs de pago

📌 TL;DR — Supertonic 3 es la tercera generación del sistema TTS de Supertone: pesos abiertos, ejecución local vía ONNX en CPU, soporte para 31 idiomas y etiquetas de expresión inline. No envía datos a la nube, no cobra por llamada y es compatible con la interfaz de la versión anterior. Para empresas y desarrolladores que trabajan con voz, es una opción que merece evaluación seria, con un matiz importante: «open-weight» no equivale automáticamente a licencia libre para uso comercial.

Por qué importa un TTS que corre en tu máquina

El mercado de texto a voz lleva años dominado por servicios en la nube: Google Cloud TTS, Amazon Polly, ElevenLabs, Azure Cognitive Services. Todos funcionan bien. Todos tienen un coste por carácter o por minuto de audio. Todos implican que tus textos —y los de tus clientes— viajan a servidores externos.

Eso es un problema cuando:

El volumen de texto es alto y el coste por llamada se acumula.
Los datos son sensibles (documentos legales, historiales médicos, comunicaciones internas).
Necesitas latencia mínima sin depender de la conectividad.
Quieres integrar voz en un dispositivo de borde, una app móvil o un navegador sin montar infraestructura de inferencia.

Supertonic 3 ataca exactamente ese espacio. No es el primer TTS on-device, pero sí uno de los más completos en soporte de idiomas y uno de los pocos con pesos públicamente accesibles y formato ONNX listo para producción [1][3].

Qué es Supertonic 3 y qué cambia respecto a la versión anterior

Supertone —empresa especializada en tecnología de voz con IA— ha publicado Supertonic 3 como modelo de pesos abiertos distribuido en Hugging Face [1]. La arquitectura se basa en cuatro componentes ONNX: duration_predictor, text_encoder, vector_estimator y vocoder. Esos cuatro ficheros son los mismos que en Supertonic 2, lo que significa que actualizar desde v2 a v3 no requiere reescribir el código de inferencia [1].

Los cambios concretos entre versiones:

De 5 a 31 idiomas

Supertonic 2 soportaba 5 idiomas. La versión 3 llega a 31, incluyendo inglés, español, portugués, francés, alemán, italiano, coreano, japonés, árabe, ruso, turco, vietnamita y otros europeos [1][5]. Para proyectos con audiencia internacional —o simplemente para una empresa española que necesita locuciones en varios idiomas sin contratar estudios de grabación—, este salto es significativo.

Menos fallos de lectura

Uno de los problemas habituales en TTS es la inestabilidad: el modelo repite sílabas, omite palabras o genera audio corrupto en textos largos o con puntuación inusual. Supertonic 3 reduce estos fallos de repetición y omisión respecto a v2, y mejora la consistencia de voz cuando se comparten idiomas entre hablantes [1][5].

Etiquetas de expresión inline

Esta es la funcionalidad más interesante desde el punto de vista de producto. Supertonic 3 soporta etiquetas como <laugh>, <breath> y <sigh> directamente en el texto de entrada [1]. Eso significa que puedes escribir:

"Bueno, <breath> déjame pensarlo un momento. <sigh> No es una decisión fácil."

...y el modelo genera el audio con esas pausas y matices sin necesidad de modelos adicionales, postprocesado de audio ni edición manual. Para bots de voz conversacionales, contenidos educativos o experiencias interactivas, esto reduce significativamente la complejidad de producción.

Diseño para CPU y edge

El modelo está optimizado para inferencia en CPU, sin requerir GPU [1][4]. Eso lo hace viable en dispositivos de borde, aplicaciones móviles, extensiones de navegador o servidores modestos. La huella del modelo es relativamente pequeña para lo que ofrece, aunque Supertone no publica benchmarks estandarizados por terceros que permitan comparar de forma objetiva con otros sistemas [5].

Casos de uso reales: dónde tiene sentido aplicarlo

Para empresas

Formación interna multilingüe. Una empresa con equipos en varios países puede generar versiones de audio de sus materiales de formación en cada idioma sin contratar locutores ni pagar por cada carácter a un servicio en la nube. El contenido no sale de la infraestructura propia.

Atención al cliente automatizada. Un bot de voz que usa Supertonic 3 puede responder en el idioma del usuario sin latencia de red adicional y sin que las transcripciones de las conversaciones pasen por terceros. Relevante en sectores con requisitos de privacidad estrictos (salud, legal, finanzas).

Audioguías y contenido de producto. Ecommerce o plataformas de contenido que quieren ofrecer versiones en audio de sus fichas, artículos o guías pueden automatizar la producción sin coste variable por volumen.

Aplicaciones offline. Cualquier producto que necesite funcionar sin conexión a internet —quioscos, dispositivos industriales, apps para zonas con conectividad limitada— puede incorporar TTS sin depender de disponibilidad de API.

Para desarrolladores

Prototipado rápido de productos de voz. ONNX es compatible con múltiples runtimes (Python, JavaScript vía onnxruntime-web, .NET, Java, C++). Integrar Supertonic 3 en un prototipo es cuestión de horas, no días.

Aplicaciones web con TTS en el navegador. Con onnxruntime-web, el modelo puede ejecutarse directamente en el cliente, sin servidor intermedio. Eso abre posibilidades para lectores de pantalla personalizados, herramientas de accesibilidad o experiencias educativas interactivas.

Migración desde Supertonic 2. Si ya tienes una integración con v2, la compatibilidad de interfaz permite actualizar los ficheros ONNX y ganar 26 idiomas adicionales y etiquetas de expresión con cambios mínimos de código [1].

Lo que hay que tener claro antes de adoptarlo

«Open-weight» no es lo mismo que «libre para todo uso comercial»

Este es el matiz más importante del post. Supertone distribuye Supertonic 3 como modelo de pesos abiertos, lo que significa que los pesos del modelo son públicamente accesibles. Pero «open-weight» no implica automáticamente una licencia permisiva para uso comercial sin restricciones [1].

Antes de integrar Supertonic 3 en un producto comercial, revisa las condiciones de licencia en el repositorio de Hugging Face [1] y en el repositorio de GitHub [3]. Si las condiciones no son claras o no cubren tu caso de uso, consulta con el equipo de Supertone directamente.

Las comparaciones de calidad no están estandarizadas

Supertone posiciona Supertonic 3 como competitivo con modelos TTS abiertos de mayor tamaño [1][4]. Eso puede ser cierto en determinados escenarios y métricas, pero no existe una auditoría externa estandarizada que lo valide de forma universal. La calidad de un TTS depende del idioma, el acento, el tipo de texto y el caso de uso concreto.

La conclusión práctica: no adoptes Supertonic 3 basándote en afirmaciones de marketing. Pruébalo en tus idiomas objetivo, con tus textos reales, y compáralo con las alternativas que ya usas o estás evaluando. Hugging Face tiene un Space oficial donde puedes probar el modelo sin instalación [2].

El rendimiento en idiomas no principales puede variar

Soportar 31 idiomas es un logro técnico, pero la calidad no es necesariamente uniforme entre todos ellos. Los modelos TTS suelen rendir mejor en los idiomas con más datos de entrenamiento. Para idiomas menos comunes en el catálogo, conviene hacer pruebas específicas antes de comprometer una integración de producción.

Lecciones accionables

Evalúa TTS on-device cuando la privacidad, el coste o la latencia sean restricciones reales. No como sustituto automático de los servicios en la nube, sino como alternativa o complemento según el caso. Si procesas volúmenes altos o datos sensibles, el cálculo económico y de riesgo puede favorecer claramente la ejecución local.
Lee la licencia antes de integrar. «Open-weight» no es sinónimo de «uso libre». Dedica 30 minutos a revisar las condiciones en Hugging Face [1] y GitHub [3] antes de comprometer tiempo de desarrollo. Si hay ambigüedad, contacta con Supertone.
Si usas Supertonic 2, planifica la migración a v3 ahora. La compatibilidad de interfaz ONNX hace que el coste de migración sea bajo. Ganarás 26 idiomas adicionales, mayor estabilidad de lectura y etiquetas de expresión. No hay razón para esperar si ya tienes la integración funcionando.
Haz pruebas A/B antes de decidir. Compara Supertonic 3 con tu TTS actual en los idiomas y tipos de texto que realmente usas. Mide calidad percibida, latencia y coste total. El Space de Hugging Face [2] es el punto de partida más rápido para una primera evaluación.
Aprovecha las etiquetas de expresión para mejorar la naturalidad sin complejidad adicional. Si estás construyendo un bot de voz o un producto educativo, <breath> y <sigh> son el tipo de detalle que marca la diferencia en la percepción del usuario. Implementarlas no requiere cambios de arquitectura, solo ajustar el texto de entrada.

Dónde encaja esto en el panorama TTS actual

El espacio TTS está evolucionando rápido en dos direcciones simultáneas: modelos en la nube cada vez más expresivos y naturales (ElevenLabs, Google, Azure), y modelos locales cada vez más capaces y ligeros. Supertonic 3 pertenece claramente al segundo grupo.

No compite con ElevenLabs en naturalidad máxima ni en clonación de voz. Compite en el segmento donde la ejecución local, el coste cero por llamada y la privacidad son requisitos, no opcionales. En ese segmento, tener 31 idiomas, formato ONNX estándar y etiquetas de expresión lo convierte en una opción técnicamente sólida.

El ecosistema de TTS abiertos está madurando. Hace dos años, integrar un TTS local de calidad aceptable en una aplicación real era un proyecto de semanas. Hoy, con modelos como Supertonic 3 distribuidos en ONNX con documentación y demos públicas, el tiempo de integración se mide en horas. Eso cambia el cálculo para muchos proyectos.

Cómo empezar

Si quieres evaluar Supertonic 3 sin instalar nada, el Space oficial en Hugging Face [2] permite probar el modelo directamente en el navegador. Para una integración real, el repositorio de GitHub [3] incluye instrucciones de uso con los ficheros ONNX.

El flujo básico de integración:

Descarga los cuatro ficheros ONNX desde Hugging Face [1].
Usa onnxruntime (Python, JS, o el runtime de tu plataforma) para cargar los modelos.
Preprocesa el texto con el tokenizador correspondiente al idioma.
Ejecuta la inferencia en el orden: text_encoder → duration_predictor → vector_estimator → vocoder.
El vocoder genera el audio en formato WAV.

La documentación oficial en Hugging Face y GitHub cubre los detalles de cada paso [1][3].

Conclusión

Supertonic 3 no es una revolución. Es una evolución sólida y bien ejecutada de un sistema TTS que ya funcionaba. El salto de 5 a 31 idiomas, la estabilidad mejorada y las etiquetas de expresión lo convierten en una opción relevante para proyectos donde la ejecución local no es un capricho técnico sino un requisito de negocio.

El trabajo real está en la evaluación: probar en tus idiomas, con tus textos, y revisar la licencia con cuidado. Nadie debería adoptar un modelo de voz en producción sin hacer ese trabajo previo, independientemente de lo que diga la nota de prensa.

¿Estás valorando incorporar voz generada por IA en un producto o proceso de negocio? Si el proyecto tiene escala o requisitos específicos de privacidad, en alfia.es trabajamos este tipo de integraciones con empresas. Si quieres entender mejor cómo evaluar y aplicar modelos de IA en tu trabajo, echa un vistazo a las formaciones disponibles. Y si tienes una pregunta concreta, escríbeme.

Fuentes

[1] Supertonic 3 — Hugging Face (modelo y pesos): https://huggingface.co/Supertone/supertonic-3

[2] Supertonic 3 (demo interactiva) — Hugging Face Space: https://huggingface.co/spaces/Supertone/supertonic-3

[3] supertone-inc/supertonic — GitHub (código e instrucciones de integración): https://github.com/supertone-inc/supertonic

[4] Supertonic 3 TTS: Lightning Fast On-Device Text-to-Speech System — sitio oficial: https://supertonictts.com

[5] Supertone Releases Supertonic v3: On-Device Text-to-Speech Model with 31-Language Support — MarkTechPost: https://www.marktechpost.com/2026/05/15/supertone-releases-supertonic-v3-on-device-text-to-speech-model-with-31-language-support-fewer-reading-failures-and-expression-tags/

[6] Supertone — Voice Intelligence Platform & AI Voice Tech: https://www.supertone.ai/en