
Última actualización: mayo 2026. Todos los datos están verificados con fuentes públicas enlazadas en cada sección.
Cuando construyes un agente de voz para llamadas telefónicas, hay una pieza que casi nadie menciona pero que determina si tu agente suena inteligente o torpe: el motor de reconocimiento de voz (ASR).
El ASR es el componente que convierte lo que dice el cliente por teléfono en texto. Si transcribe mal, el modelo de lenguaje (LLM) recibe basura y responde con basura. Si tarda demasiado, la conversación se siente lenta y antinatural.
Plataformas como Retell AI ofrecen tres proveedores de ASR entre los que puedes elegir: Deepgram, Microsoft Azure Speech y Soniox. En este artículo te explico quién está detrás de cada uno, en qué se diferencian y cuándo usar cada uno para tus agentes de voz.
Qué es el ASR y por qué importa en un agente de voz
En cada llamada telefónica gestionada por un agente de voz hay tres pasos:
- ASR (Automatic Speech Recognition): la voz del cliente se convierte en texto.
- LLM (Large Language Model): el texto llega al modelo de lenguaje, que genera una respuesta.
- TTS (Text-to-Speech): la respuesta de texto se convierte en voz para que el cliente la escuche.
El ASR es el primer eslabón. Si falla, todo lo demás falla con él. Un ASR lento añade latencia a cada turno de conversación. Un ASR impreciso hace que el LLM interprete mal lo que dijo el cliente y responda fuera de contexto.
Según la propia documentación de Retell AI: «ASR quality directly impacts every part of the AI voice agent experience. If the transcription is inaccurate, downstream intent detection, response generation, and analytics are all compromised» (fuente: retellai.com).
Retell AI ofrece tres proveedores para esta tarea crítica. Veamos quién es cada uno.
Deepgram: el especialista rápido
La empresa
Deepgram es una startup fundada en 2015 en San Francisco por Scott Stephenson, un físico de partículas con un PhD de la Universidad de Michigan. Antes de crear Deepgram, Stephenson investigaba materia oscura en un laboratorio subterráneo, donde aplicó técnicas de deep learning al análisis de formas de onda de audio (fuente: deepgram.com/about).
La empresa ha recaudado un total de 229 millones de dólares y en enero de 2026 alcanzó una valoración de 1.300 millones de dólares, convirtiéndose en unicornio. Cuenta con más de 180 empleados y más de 1.300 organizaciones como clientes, incluyendo NASA, Spotify, Twilio y Citibank (fuente: Silicon Valley Invest Club).
El modelo: Nova-3
El modelo principal de Deepgram se llama Nova-3. Es un modelo end-to-end propio, entrenado con audio conversacional real. Procesa audio 40 veces más rápido que en tiempo real y alcanza latencias por debajo de 300 milisegundos en streaming.
En noviembre de 2025, Deepgram amplió Nova-3 con soporte para catalán y otras lenguas europeas, elevando el total a más de 36 idiomas (fuente: Deepgram changelog). También incorporó Keyterm Prompting, una funcionalidad que permite indicarle al modelo nombres propios, siglas o términos de dominio para mejorar su reconocimiento sin necesidad de reentrenar.
Puntos fuertes
- Latencia muy baja (menos de 300ms), ideal para conversaciones telefónicas fluidas.
- Muy sólido en español, inglés, francés, alemán y otros idiomas principales.
- API sencilla y developer-first.
- Amplio historial de producción con miles de clientes.
- Keyterm Prompting para nombres propios y vocabulario especializado.
Limitaciones
- No incluye traducción en tiempo real.
- No cubre euskera ni gallego.
- Los benchmarks independientes muestran menor precisión que Soniox en varios idiomas.
Azure Speech: el gigante enterprise
La empresa
Azure Speech no es un producto independiente. Es uno de los servicios cognitivos de Microsoft Azure, respaldado por décadas de investigación en reconocimiento de voz. Forma parte del ecosistema Azure AI, que incluye también síntesis de voz (TTS), traducción, reconocimiento de locutor y Custom Speech para entrenar modelos adaptados a tu dominio.
El modelo
Azure utiliza modelos neuronales optimizados individualmente por idioma (Azure Neural Speech). Su gran fortaleza es la cobertura: soporta más de 140 idiomas, el catálogo más amplio de los tres proveedores. Incluye soporte para catalán, euskera, gallego y prácticamente cualquier lengua que necesites.
Puntos fuertes
- Mayor catálogo de idiomas del mercado (140+), incluyendo todas las lenguas cooficiales de España.
- Infraestructura enterprise global con SLA del 99,9%.
- Custom Speech para entrenar modelos adaptados a tu vocabulario.
- Integración natural con el ecosistema Microsoft.
- Incluye TTS de alta calidad (Neural Voices).
Limitaciones
- Latencia más alta: entre 400 y 800ms, que se nota en la fluidez de la conversación.
- Precisión inferior a Soniox en español, catalán y gallego según benchmarks de 2025.
- Precio más elevado, especialmente si combinas STT + traducción + Custom Speech.
- Mayor complejidad de integración.
Soniox: el nuevo con los mejores benchmarks
La empresa
Soniox es una startup fundada en 2020 con sede en Foster City, California. Fue creada por Klemen Simonic, un investigador de IA con experiencia en Facebook, Google, Stanford y la Universidad de Ljubljana (Eslovenia), junto a Ambroz Bizjak como cofundador (fuente: soniox.com/about).
Es una empresa muy pequeña: aproximadamente 15 empleados según PitchBook (fuente). Su inversor conocido es Samsung Venture Investment. A pesar de su tamaño, Soniox está siendo adoptada por plataformas de agentes de voz como proveedor de transcripción por su combinación de precisión y bajo coste.
El modelo: Omnio
A diferencia de Deepgram y Azure, que usan modelos separados por idioma, Soniox utiliza un único modelo llamado Omnio que cubre más de 60 idiomas simultáneamente. Fue entrenado usando técnicas de aprendizaje no supervisado, lo que Soniox describió como una innovación propia en 2022 (fuente: Databricks).
Omnio está diseñado específicamente para los casos donde otros proveedores fallan: mezcla de idiomas dentro de una misma frase, nombres propios, códigos alfanuméricos, DNIs deletreados y habla rápida o con acento marcado.
Puntos fuertes
- Mejores benchmarks de precisión en la mayoría de idiomas evaluados (ver siguiente sección).
- Latencia muy baja, por debajo de 200ms en streaming.
- Un solo modelo para 60+ idiomas, incluidos catalán, gallego y euskera.
- Transcripción, traducción en tiempo real, diarización y timestamps incluidos en un solo precio.
- Diseñado nativamente para reconocer nombres propios y alfanuméricos.
- Precio bajo: aproximadamente 0,10-0,12 USD por hora de audio.
Limitaciones
- Equipo muy pequeño (~15 personas), lo que puede generar dudas sobre soporte y continuidad.
- Menos historial en producción masiva que Deepgram o Azure.
- Los benchmarks publicados son propios de Soniox (posible sesgo a su favor).
Comparativa de precisión (WER) por idioma
El WER (Word Error Rate) es la métrica estándar para medir la precisión de un sistema de reconocimiento de voz. Cuanto menor, mejor.
En 2025, Soniox publicó un estudio de benchmark evaluando 10 proveedores en 60 idiomas con audio real de YouTube. Estos son los resultados más relevantes para agentes de voz en España:
| Idioma | Soniox | Deepgram | Azure |
|---|---|---|---|
| Español | 5,3% | No publicado | 9,5% |
| Inglés | 6,5% | 9,3% | ~13% |
| Catalán | 10,7% | No publicado | 24,6% |
| Gallego | 11,1% | No publicado | 21,9% |
Fuentes: Soniox vs Azure (español), Soniox vs Deepgram, Soniox vs Azure (gallego).
Nota importante: estos benchmarks son de Soniox, por lo que puede existir sesgo a su favor. Además, son pruebas con audio pregrabado (batch), no en streaming en tiempo real, donde las condiciones pueden variar. Si vas a tomar decisiones de producción, prueba siempre con audio real de tus propios clientes.
Tabla comparativa completa
| Criterio | Deepgram | Azure Speech | Soniox |
|---|---|---|---|
| Tipo de empresa | Startup (229M financiación) | Big Tech (Microsoft) | Startup (~15 empleados) |
| Modelo | Nova-3 | Azure Neural Speech | Omnio |
| Latencia streaming | Menos de 300ms | 400-800ms | Menos de 200ms |
| Idiomas | 36+ | 140+ (el más amplio) | 60+ |
| Español | Alta precisión | Buena | Muy alta (5,3% WER) |
| Catalán | Sí (desde nov. 2025) | Sí | Sí (10,7% WER) |
| Euskera | No | Sí | Sí |
| Gallego | No | Sí | Sí (11,1% WER) |
| Nombres propios / DNI | Keyterm Prompting | Irregular | Diseñado nativamente |
| Traducción integrada | No | Sí (servicio aparte) | Sí (incluida) |
| Madurez en producción | Alta (1.300+ clientes) | Muy alta (enterprise) | Media |
| Precio relativo | Medio | Alto | Bajo (~0,10-0,12 USD/h) |
Cómo elige Retell AI el proveedor automáticamente
En el dashboard de Retell AI, dentro de la configuración de cada agente, encontrarás la sección Transcription Mode con tres opciones:
- Optimize for speed: prioriza la menor latencia posible.
- Optimize for accuracy: prioriza la precisión de la transcripción.
- Custom Settings: tú eliges manualmente el proveedor.
En los dos primeros modos, Retell selecciona automáticamente el proveedor con esta lógica:
| Configuración del agente | Proveedor seleccionado |
|---|---|
| Un solo idioma común (español, inglés, francés, catalán…) | Deepgram |
| Un solo idioma poco común no cubierto por Deepgram (euskera…) | Azure |
| Varios idiomas dentro del set multilingüe de Deepgram | Deepgram multilingual |
| Varios idiomas con combinación amplia fuera de Deepgram | Soniox |
Además, Retell AI incluye un sistema de failover automático: si Deepgram se cae, cambia a Azure a mitad de llamada sin perder audio, y viceversa (fuente: Retell AI changelog).
Con Custom Settings puedes forzar manualmente cualquiera de los tres proveedores. Es útil cuando detectas problemas concretos de transcripción en un agente: nombres mal transcritos, acentos regionales, etc.
Cuándo usar cada uno en tus proyectos
Usa Deepgram (o deja el modo automático) cuando:
- Tu agente habla en español estándar u otro idioma común, en un solo idioma.
- La prioridad máxima es velocidad y fluidez en la conversación.
- Necesitas la mayor fiabilidad y el menor riesgo (es el proveedor más probado).
- Tienes problemas con nombres propios: prueba primero Keyterm Prompting antes de cambiar de proveedor.
Usa Azure cuando:
- Tu agente necesita funcionar en euskera (Deepgram no lo cubre, Soniox tiene menos historial).
- El cliente ya está integrado en el ecosistema Microsoft y necesita coherencia.
- Necesitas voces Azure Neural TTS en el mismo flujo.
- Hay un requisito contractual de SLA enterprise (99,9% garantizado).
- Necesitas un idioma muy específico que solo Azure cubre entre sus 140+.
Usa Soniox (Custom Settings) cuando:
- Tu agente necesita manejar mezcla de idiomas (por ejemplo, español y catalán en la misma conversación).
- Tienes problemas frecuentes con la transcripción de nombres propios, DNIs o códigos.
- Quieres máxima precisión en catalán o gallego (mejores benchmarks que Azure).
- Los clientes tienen acentos muy marcados o hablan muy rápido.
- Buscas el menor coste por hora de transcripción.
La recomendación práctica
Para la gran mayoría de agentes de voz en español estándar (el 90% de los proyectos), deja el modo automático de Retell. Deepgram funcionará bien y te dará la mejor combinación de velocidad y fiabilidad.
Solo cambia a Custom Settings cuando tengas un problema concreto de transcripción que necesites resolver, y prueba siempre con llamadas reales antes de tomar la decisión final.
Preguntas frecuentes
¿Qué proveedor ASR usa Retell AI por defecto?
Retell selecciona automáticamente Deepgram para idiomas comunes, Azure para idiomas menos comunes, y Soniox para combinaciones multilingües amplias. Puedes cambiarlo manualmente con Custom Settings.
¿Cuál es el ASR más preciso para español en 2025?
Según el benchmark de Soniox (2025) con audio real de YouTube, Soniox alcanzó un 5,3% de WER en español frente al 9,5% de Azure (fuente). Deepgram no publicó datos de WER para español en ese estudio. Ten en cuenta que el benchmark es de Soniox y podría existir sesgo.
¿Qué ASR soporta catalán, euskera y gallego?
Los tres cubren catalán. Deepgram lo añadió en noviembre de 2025 (fuente). Euskera y gallego están cubiertos por Azure y Soniox, pero no por Deepgram.
¿Cuál es el ASR más rápido para agentes de voz?
Soniox (menos de 200ms) y Deepgram (menos de 300ms) son los más rápidos. Azure se sitúa entre 400 y 800ms.
¿El proveedor ASR afecta al precio de Retell AI?
En Retell AI, el coste del ASR está incluido en el precio por minuto de la plataforma. No pagas directamente a Deepgram, Azure o Soniox. Lo que sí puede variar es la calidad del resultado, que afecta indirectamente al coste (más errores = más llamadas fallidas = más gasto).
¿Puedo cambiar de proveedor ASR a mitad de proyecto?
Sí. En Retell AI es un cambio de configuración en el dashboard del agente. No requiere modificar el prompt, el flujo ni la integración. Puedes probar los tres y comparar con llamadas reales.
¿Quieres aprender a construir agentes de voz paso a paso? En IA al Teléfono tenemos la mayor comunidad en español sobre voz e inteligencia artificial para llamadas. Únete gratis.
