Deepgram vs Azure vs Soniox: Guia completa de proveedores ASR para agentes de voz

Q: ¿Qué proveedor ASR usa Retell AI por defecto?

Retell AI selecciona automáticamente Deepgram para idiomas comunes como español o inglés, Azure para idiomas menos comunes no cubiertos por Deepgram, y Soniox cuando el agente necesita manejar combinaciones de múltiples idiomas fuera del catálogo de Deepgram.

Q: ¿Cuál es el ASR más preciso para español en 2025?

Según el benchmark de Soniox de 2025 con audio real de YouTube, Soniox alcanzó un 5,3% de WER en español frente al 9,5% de Azure. Deepgram no publicó datos de WER para español en ese estudio. Es importante tener en cuenta que el benchmark es de Soniox, por lo que podría existir sesgo a su favor.

Q: ¿Qué ASR soporta catalán, euskera y gallego?

Los tres proveedores cubren catalán. Deepgram añadió soporte para catalán en noviembre de 2025 con su modelo Nova-3. Azure y Soniox cubren además euskera y gallego. En los benchmarks de 2025, Soniox obtuvo mejor precisión que Azure tanto en catalán (10,7% vs 24,6% WER) como en gallego (11,1% vs 21,9% WER).

Q: ¿Cuál es el ASR más rápido para agentes de voz?

Soniox y Deepgram ofrecen las latencias más bajas: Soniox por debajo de 200ms y Deepgram por debajo de 300ms. Azure Speech se sitúa entre 400 y 800ms, lo que puede afectar a la fluidez de la conversación en un agente de voz telefónico.

Última actualización: mayo 2026. Todos los datos están verificados con fuentes públicas enlazadas en cada sección.

Cuando construyes un agente de voz para llamadas telefónicas, hay una pieza que casi nadie menciona pero que determina si tu agente suena inteligente o torpe: el motor de reconocimiento de voz (ASR).

El ASR es el componente que convierte lo que dice el cliente por teléfono en texto. Si transcribe mal, el modelo de lenguaje (LLM) recibe basura y responde con basura. Si tarda demasiado, la conversación se siente lenta y antinatural.

Plataformas como Retell AI ofrecen tres proveedores de ASR entre los que puedes elegir: Deepgram, Microsoft Azure Speech y Soniox. En este artículo te explico quién está detrás de cada uno, en qué se diferencian y cuándo usar cada uno para tus agentes de voz.

Qué es el ASR y por qué importa en un agente de voz

En cada llamada telefónica gestionada por un agente de voz hay tres pasos:

ASR (Automatic Speech Recognition): la voz del cliente se convierte en texto.
LLM (Large Language Model): el texto llega al modelo de lenguaje, que genera una respuesta.
TTS (Text-to-Speech): la respuesta de texto se convierte en voz para que el cliente la escuche.

El ASR es el primer eslabón. Si falla, todo lo demás falla con él. Un ASR lento añade latencia a cada turno de conversación. Un ASR impreciso hace que el LLM interprete mal lo que dijo el cliente y responda fuera de contexto.

Según la propia documentación de Retell AI: «ASR quality directly impacts every part of the AI voice agent experience. If the transcription is inaccurate, downstream intent detection, response generation, and analytics are all compromised» (fuente: retellai.com).

Retell AI ofrece tres proveedores para esta tarea crítica. Veamos quién es cada uno.

Deepgram: el especialista rápido

La empresa

Deepgram es una startup fundada en 2015 en San Francisco por Scott Stephenson, un físico de partículas con un PhD de la Universidad de Michigan. Antes de crear Deepgram, Stephenson investigaba materia oscura en un laboratorio subterráneo, donde aplicó técnicas de deep learning al análisis de formas de onda de audio (fuente: deepgram.com/about).

La empresa ha recaudado un total de 229 millones de dólares y en enero de 2026 alcanzó una valoración de 1.300 millones de dólares, convirtiéndose en unicornio. Cuenta con más de 180 empleados y más de 1.300 organizaciones como clientes, incluyendo NASA, Spotify, Twilio y Citibank (fuente: Silicon Valley Invest Club).

El modelo: Nova-3

El modelo principal de Deepgram se llama Nova-3. Es un modelo end-to-end propio, entrenado con audio conversacional real. Procesa audio 40 veces más rápido que en tiempo real y alcanza latencias por debajo de 300 milisegundos en streaming.

En noviembre de 2025, Deepgram amplió Nova-3 con soporte para catalán y otras lenguas europeas, elevando el total a más de 36 idiomas (fuente: Deepgram changelog). También incorporó Keyterm Prompting, una funcionalidad que permite indicarle al modelo nombres propios, siglas o términos de dominio para mejorar su reconocimiento sin necesidad de reentrenar.

Puntos fuertes

Latencia muy baja (menos de 300ms), ideal para conversaciones telefónicas fluidas.
Muy sólido en español, inglés, francés, alemán y otros idiomas principales.
API sencilla y developer-first.
Amplio historial de producción con miles de clientes.
Keyterm Prompting para nombres propios y vocabulario especializado.

Limitaciones

No incluye traducción en tiempo real.
No cubre euskera ni gallego.
Los benchmarks independientes muestran menor precisión que Soniox en varios idiomas.

Azure Speech: el gigante enterprise

La empresa

Azure Speech no es un producto independiente. Es uno de los servicios cognitivos de Microsoft Azure, respaldado por décadas de investigación en reconocimiento de voz. Forma parte del ecosistema Azure AI, que incluye también síntesis de voz (TTS), traducción, reconocimiento de locutor y Custom Speech para entrenar modelos adaptados a tu dominio.

El modelo

Azure utiliza modelos neuronales optimizados individualmente por idioma (Azure Neural Speech). Su gran fortaleza es la cobertura: soporta más de 140 idiomas, el catálogo más amplio de los tres proveedores. Incluye soporte para catalán, euskera, gallego y prácticamente cualquier lengua que necesites.

Puntos fuertes

Mayor catálogo de idiomas del mercado (140+), incluyendo todas las lenguas cooficiales de España.
Infraestructura enterprise global con SLA del 99,9%.
Custom Speech para entrenar modelos adaptados a tu vocabulario.
Integración natural con el ecosistema Microsoft.
Incluye TTS de alta calidad (Neural Voices).

Limitaciones

Latencia más alta: entre 400 y 800ms, que se nota en la fluidez de la conversación.
Precisión inferior a Soniox en español, catalán y gallego según benchmarks de 2025.
Precio más elevado, especialmente si combinas STT + traducción + Custom Speech.
Mayor complejidad de integración.

Soniox: el nuevo con los mejores benchmarks

La empresa

Soniox es una startup fundada en 2020 con sede en Foster City, California. Fue creada por Klemen Simonic, un investigador de IA con experiencia en Facebook, Google, Stanford y la Universidad de Ljubljana (Eslovenia), junto a Ambroz Bizjak como cofundador (fuente: soniox.com/about).

Es una empresa muy pequeña: aproximadamente 15 empleados según PitchBook (fuente). Su inversor conocido es Samsung Venture Investment. A pesar de su tamaño, Soniox está siendo adoptada por plataformas de agentes de voz como proveedor de transcripción por su combinación de precisión y bajo coste.

El modelo: Omnio

A diferencia de Deepgram y Azure, que usan modelos separados por idioma, Soniox utiliza un único modelo llamado Omnio que cubre más de 60 idiomas simultáneamente. Fue entrenado usando técnicas de aprendizaje no supervisado, lo que Soniox describió como una innovación propia en 2022 (fuente: Databricks).

Omnio está diseñado específicamente para los casos donde otros proveedores fallan: mezcla de idiomas dentro de una misma frase, nombres propios, códigos alfanuméricos, DNIs deletreados y habla rápida o con acento marcado.

Puntos fuertes

Mejores benchmarks de precisión en la mayoría de idiomas evaluados (ver siguiente sección).
Latencia muy baja, por debajo de 200ms en streaming.
Un solo modelo para 60+ idiomas, incluidos catalán, gallego y euskera.
Transcripción, traducción en tiempo real, diarización y timestamps incluidos en un solo precio.
Diseñado nativamente para reconocer nombres propios y alfanuméricos.
Precio bajo: aproximadamente 0,10-0,12 USD por hora de audio.

Limitaciones

Equipo muy pequeño (~15 personas), lo que puede generar dudas sobre soporte y continuidad.
Menos historial en producción masiva que Deepgram o Azure.
Los benchmarks publicados son propios de Soniox (posible sesgo a su favor).

Comparativa de precisión (WER) por idioma

El WER (Word Error Rate) es la métrica estándar para medir la precisión de un sistema de reconocimiento de voz. Cuanto menor, mejor.

En 2025, Soniox publicó un estudio de benchmark evaluando 10 proveedores en 60 idiomas con audio real de YouTube. Estos son los resultados más relevantes para agentes de voz en España:

WER (Word Error Rate) por idioma — Benchmark Soniox 2025
Idioma	Soniox	Deepgram	Azure
Español	5,3%	No publicado	9,5%
Inglés	6,5%	9,3%	~13%
Catalán	10,7%	No publicado	24,6%
Gallego	11,1%	No publicado	21,9%

Fuentes: Soniox vs Azure (español), Soniox vs Deepgram, Soniox vs Azure (gallego).

Nota importante: estos benchmarks son de Soniox, por lo que puede existir sesgo a su favor. Además, son pruebas con audio pregrabado (batch), no en streaming en tiempo real, donde las condiciones pueden variar. Si vas a tomar decisiones de producción, prueba siempre con audio real de tus propios clientes.

Tabla comparativa completa

Comparativa de proveedores ASR en Retell AI (mayo 2026)
Criterio	Deepgram	Azure Speech	Soniox
Tipo de empresa	Startup (229M financiación)	Big Tech (Microsoft)	Startup (~15 empleados)
Modelo	Nova-3	Azure Neural Speech	Omnio
Latencia streaming	Menos de 300ms	400-800ms	Menos de 200ms
Idiomas	36+	140+ (el más amplio)	60+
Español	Alta precisión	Buena	Muy alta (5,3% WER)
Catalán	Sí (desde nov. 2025)	Sí	Sí (10,7% WER)
Euskera	No	Sí	Sí
Gallego	No	Sí	Sí (11,1% WER)
Nombres propios / DNI	Keyterm Prompting	Irregular	Diseñado nativamente
Traducción integrada	No	Sí (servicio aparte)	Sí (incluida)
Madurez en producción	Alta (1.300+ clientes)	Muy alta (enterprise)	Media
Precio relativo	Medio	Alto	Bajo (~0,10-0,12 USD/h)

Cómo elige Retell AI el proveedor automáticamente

En el dashboard de Retell AI, dentro de la configuración de cada agente, encontrarás la sección Transcription Mode con tres opciones:

Optimize for speed: prioriza la menor latencia posible.
Optimize for accuracy: prioriza la precisión de la transcripción.
Custom Settings: tú eliges manualmente el proveedor.

En los dos primeros modos, Retell selecciona automáticamente el proveedor con esta lógica:

Configuración del agente	Proveedor seleccionado
Un solo idioma común (español, inglés, francés, catalán…)	Deepgram
Un solo idioma poco común no cubierto por Deepgram (euskera…)	Azure
Varios idiomas dentro del set multilingüe de Deepgram	Deepgram multilingual
Varios idiomas con combinación amplia fuera de Deepgram	Soniox

Además, Retell AI incluye un sistema de failover automático: si Deepgram se cae, cambia a Azure a mitad de llamada sin perder audio, y viceversa (fuente: Retell AI changelog).

Con Custom Settings puedes forzar manualmente cualquiera de los tres proveedores. Es útil cuando detectas problemas concretos de transcripción en un agente: nombres mal transcritos, acentos regionales, etc.

Cuándo usar cada uno en tus proyectos

Usa Deepgram (o deja el modo automático) cuando:

Tu agente habla en español estándar u otro idioma común, en un solo idioma.
La prioridad máxima es velocidad y fluidez en la conversación.
Necesitas la mayor fiabilidad y el menor riesgo (es el proveedor más probado).
Tienes problemas con nombres propios: prueba primero Keyterm Prompting antes de cambiar de proveedor.

Usa Azure cuando:

Tu agente necesita funcionar en euskera (Deepgram no lo cubre, Soniox tiene menos historial).
El cliente ya está integrado en el ecosistema Microsoft y necesita coherencia.
Necesitas voces Azure Neural TTS en el mismo flujo.
Hay un requisito contractual de SLA enterprise (99,9% garantizado).
Necesitas un idioma muy específico que solo Azure cubre entre sus 140+.

Usa Soniox (Custom Settings) cuando:

Tu agente necesita manejar mezcla de idiomas (por ejemplo, español y catalán en la misma conversación).
Tienes problemas frecuentes con la transcripción de nombres propios, DNIs o códigos.
Quieres máxima precisión en catalán o gallego (mejores benchmarks que Azure).
Los clientes tienen acentos muy marcados o hablan muy rápido.
Buscas el menor coste por hora de transcripción.

La recomendación práctica

Para la gran mayoría de agentes de voz en español estándar (el 90% de los proyectos), deja el modo automático de Retell. Deepgram funcionará bien y te dará la mejor combinación de velocidad y fiabilidad.

Solo cambia a Custom Settings cuando tengas un problema concreto de transcripción que necesites resolver, y prueba siempre con llamadas reales antes de tomar la decisión final.

Preguntas frecuentes

¿Qué proveedor ASR usa Retell AI por defecto?

Retell selecciona automáticamente Deepgram para idiomas comunes, Azure para idiomas menos comunes, y Soniox para combinaciones multilingües amplias. Puedes cambiarlo manualmente con Custom Settings.

¿Cuál es el ASR más preciso para español en 2025?

Según el benchmark de Soniox (2025) con audio real de YouTube, Soniox alcanzó un 5,3% de WER en español frente al 9,5% de Azure (fuente). Deepgram no publicó datos de WER para español en ese estudio. Ten en cuenta que el benchmark es de Soniox y podría existir sesgo.

¿Qué ASR soporta catalán, euskera y gallego?

Los tres cubren catalán. Deepgram lo añadió en noviembre de 2025 (fuente). Euskera y gallego están cubiertos por Azure y Soniox, pero no por Deepgram.

¿Cuál es el ASR más rápido para agentes de voz?

Soniox (menos de 200ms) y Deepgram (menos de 300ms) son los más rápidos. Azure se sitúa entre 400 y 800ms.

¿El proveedor ASR afecta al precio de Retell AI?

En Retell AI, el coste del ASR está incluido en el precio por minuto de la plataforma. No pagas directamente a Deepgram, Azure o Soniox. Lo que sí puede variar es la calidad del resultado, que afecta indirectamente al coste (más errores = más llamadas fallidas = más gasto).

¿Puedo cambiar de proveedor ASR a mitad de proyecto?

Sí. En Retell AI es un cambio de configuración en el dashboard del agente. No requiere modificar el prompt, el flujo ni la integración. Puedes probar los tres y comparar con llamadas reales.

¿Quieres aprender a construir agentes de voz paso a paso? En IA al Teléfono tenemos la mayor comunidad en español sobre voz e inteligencia artificial para llamadas. Únete gratis.