Optimiza tu Agente de Voz
Comandos, etiquetas y configuraciones esenciales para maximizar la expresividad y precisión de tus agentes conversacionales.
[ ] directamente en el texto. Funcionan mejor en inglés, incluso para contenido en español. Se pueden combinar: [dramatic][whispers]
[excited] refuerza el énfasis de forma notable.
<break>. Los puntos suspensivos ... son el reemplazo natural.
→ pronuncia «Claughton»
API → «a-pe-i»
SQL → «ese-cu-el»
[giggles]. Se recomienda probar con voces Instant Voice Clone (IVC) para obtener mejores resultados con v3. Stability debe estar en modo Creative o Natural.
Esta mañana me desperté con una notificación que me hizo abrir el portátil antes de llegar a la cocina: Retell AI acaba de incorporar ElevenLabs v3 a su catálogo de voces.
La noticia viene acompañada de algo no tan bueno — el coste se dobla respecto a los modelos anteriores — pero después de pasar el día haciendo pruebas, os puedo decir que la conversación sobre precio merece contexto.
En este artículo te explico exactamente qué es v3, qué cambia en la práctica dentro de Retell, cómo configurarlo bien desde el primer día, y cuándo (de verdad) merece la pena pagar el extra.
¿Qué es ElevenLabs v3 y por qué importa ahora?
ElevenLabs v3 es el modelo de síntesis de voz más avanzado de ElevenLabs hasta la fecha. Está actualmente en research preview (alpha), lo que significa que todavía evoluciona, pero ya es lo suficientemente sólido como para producción en los casos de uso correctos.
La diferencia con los modelos anteriores no es solo técnica — es filosófica. Los modelos anteriores leían texto. V3 interpreta texto.
Esto no es marketing. Cuando insertas [sighs] antes de una frase y escuchas cómo la voz suena realmente cansada… o cuando usas [nervous] y el agente transmite esa ligera vacilación antes de dar una mala noticia… entiendes que estamos hablando de otra categoría de producto.
Para quienes llevamos tiempo construyendo agentes de voz para clientes reales — clínicas, inmobiliarias, servicios de atención al cliente — esto resuelve el problema número uno que nos ponen los clientes: «suena robótico».
El doble de precio: ¿cuándo tiene sentido?
Seré directa: no todos los proyectos justifican v3.
Si tienes un agente que gestiona citas de una clínica dental y el flujo es predecible, con frases cortas y confirmaciones, el modelo Turbo o Flash probablemente es suficiente. El precio adicional no se traduce en valor percibido para el usuario final.
Donde sí tiene sentido pagar el extra:
- Agentes de ventas que necesitan generar confianza y calidez
- Bots de atención al cliente en sectores con alta carga emocional (salud, servicios sociales, seguros)
- Agentes de onboarding donde la primera impresión lo es todo
- Cualquier caso donde el cliente haya rechazado agentes anteriores por sonar «poco naturales»
El precio se justifica cuando la voz es parte del producto, no solo la interfaz.
Cómo funciona v3 en Retell: la guía práctica
Las Audio Tags: tú eres el director
La novedad más importante de v3 son las Audio Tags, etiquetas entre corchetes [ ] que insertas directamente en el texto que genera tu LLM. Funcionan como instrucciones de dirección de escena.
Importante: estas etiquetas funcionan mejor en inglés, incluso si el contenido del agente está en español. No es un bug, es cómo está entrenado el modelo.
Aquí tienes el catálogo completo clasificado por uso:
Emociones básicas[happy] [sad] [angry] [excited] [nervous] [calm] [surprised]
Emociones con más matiz (para conversaciones complejas)[thoughtful] [annoyed] [frustrated] [curious] [mischievously] [regretful] [appalled] [sorrowful]
Reacciones humanas — risas[laughs] [chuckles] [light chuckle] [giggles] [laughs harder] [starts laughing] [wheezing] [hysterical laughing]
Respiración y sonidos no verbales (estos son los que más «alma» dan)[sighs] [exhales] [exhales sharply] [inhales deeply] [gasps] [clears throat] [coughs] [sniffles] [gulps] [swallows] [snorts]
Intención y estilo[whispers] [shouts] [sarcastic] [dramatically] [matter-of-fact] [playfully] [cheerfully] [deadpan] [flatly] [resigned tone] [whiny] [dismissive] [stammers] [hesitates] [crying]
Dinámica conversacional — estos son especialmente útiles en agentes de voz:[starting to speak] [jumping in] [overlapping] [interrupting]
Ritmo y volumen[slowly] [quietly]
Acentos y roles (para casos de uso creativos)[British accent] [Australian accent] [Southern US accent] [strong French accent] [strong X accent][pirate voice] [childlike tone] [fantasy narrator] [sci-fi AI voice] [evil scientist voice] [classic film noir]
Efectos especiales experimentales[applause] [clapping] [woo] [sings] [muttering]
Puedes combinar etiquetas: [dramatic][whispers] produce un susurro dramático. Pruébalo — los resultados son sorprendentes.
Configuración crítica en Retell: el slider de Stability
Este es el punto donde más errores he visto. Si activas v3 y las etiquetas no parecen funcionar, casi seguro es por esto.
El parámetro Stability en ElevenLabs tiene dos extremos:
| Modo | Comportamiento |
|---|---|
| Creative (bajo) | Máxima expresividad, responde bien a las audio tags, puede haber variabilidad entre llamadas |
| Robust (alto) | Voz consistente y estable, pero ignora casi por completo las audio tags |
Para v3, necesitas estar en Creative o Natural. En modo Robust es básicamente un v2 caro.
Selección del modelo dentro de Retell
Cuando vayas a configurar la voz en tu agente de Retell, verás varias opciones de ElevenLabs. Aquí el mapa:
- Eleven v3 Conversational → el que queremos para v3. Optimizado para diálogos en tiempo real con alta expresividad emocional.
- Multilingual v2 → mejor si tienes muchos números, fechas y datos complejos y la latencia no es crítica.
- Flash / Turbo → cuando la velocidad es lo primero y la expresividad es secundaria.
El trabajo que va en el system prompt: normalización
Aquí viene una parte que mucha gente pasa por alto y que luego genera conversaciones muy extrañas.
V3 (y en general cualquier TTS) necesita recibir texto «legible en voz alta», no datos crudos. Es tu responsabilidad instruir al LLM en el system prompt de Retell para que normalice el texto antes de enviarlo a la voz.
Esto es lo que debes incluir en las instrucciones de tu agente:
Antes de generar cualquier respuesta que será leída en voz alta,
convierte siempre:
- Abreviaturas → texto completo ("Dr." → "Doctor", "Av." → "Avenida")
- Números → palabras ("123" → "ciento veintitrés")
- Valores monetarios → formato oral ("$45.50" → "cuarenta y cinco dólares con cincuenta centavos")
- Horas → formato natural ("14:30" → "las dos y media de la tarde")
- Siglas → pronunciación letra a letra o palabra según contexto ("API" → "a-pe-i")
Sin esto, tu agente leerá «$45.50» como «dólar cuarenta cinco punto cincuenta» y perderás toda la magia de v3 en una sola frase.
Control de ritmo y énfasis: lo que hace el texto
V3 no solo responde a etiquetas — también lee la estructura del texto como señal de interpretación:
- MAYÚSCULAS → énfasis y energía en palabras específicas. Usa con moderación.
- Puntos suspensivos (…) → pausas naturales, dudas, transiciones de pensamiento. Son el reemplazo de los
<break>de SSML, que v3 ya no soporta. - Guiones (—) → interrupciones o pausas cortas en el habla.
- ¡! y ¿? → cambios de tono e intención. No los omitas nunca.
Un ejemplo de cómo se ve esto en la práctica en el texto que genera tu LLM:
«Entiendo… eso debe ser frustrante. [sighs] Déjame revisar la información… [thoughtful] Sí, efectivamente hay un problema con su pedido.»
Eso es exactamente el tipo de salida que quieres que produzca tu prompt.
Pronunciación de términos específicos: dos herramientas
Si tu agente trabaja con nombres propios raros, marcas, siglas técnicas o terminología de cliente, v3 te da dos opciones:
1. Alias Tags — para casos puntuales directamente en el texto:
<alias>Cloffton</alias> → pronuncia "Claughton"
2. Diccionarios de pronunciación (.pls / .txt) — para listas fijas que aplican globalmente. Los subes una vez en ElevenLabs Studio y se aplican a todas las generaciones. Perfectos para:
- Nombres de empresas o productos del cliente
- Siglas técnicas del sector
- Términos en otro idioma con pronunciación específica
Una nota sobre las voces: usa IVC
Esto me costó tiempo descubrirlo, así que te lo ahorro: no todas las voces responden igual a las audio tags.
Las voces de la biblioteca estándar de ElevenLabs tienden a ser más rígidas en su interpretación. Las Instant Voice Clones (IVC) — voces creadas a partir de una muestra de audio real — son mucho más maleables y responden mejor a las etiquetas emocionales con v3.
Si estás haciendo pruebas y las etiquetas no parecen tener efecto, prueba a crear una IVC con cualquier grabación de calidad razonable. La diferencia es notable.
Los Professional Voice Clones (PVC) todavía no están completamente optimizados para v3 en esta fase alfa — funcionan, pero no al máximo de sus capacidades.
¿Vale la pena? Mi conclusión
Después de un día completo de pruebas integrando v3 en varios proyectos de Retell:
Sí vale la pena si tienes un agente donde la calidez y la naturalidad son parte del valor diferencial para tu cliente.
Espera si estás en un proyecto donde el coste por minuto es un factor crítico y la voz es solo funcional.
Lo que está claro es que ElevenLabs v3 en Retell cambia la conversación que tenemos con los clientes sobre agentes de voz. Ya no tenemos que decirles «suena un poco robótico, es lo que hay». Ahora podemos mostrarles algo que realmente impresiona.
Y eso, para los que nos dedicamos a esto, tiene un valor que va más allá del precio por carácter.
¿Ya has probado v3 en Retell? Cuéntame en comentarios qué casos de uso estás explorando. Y si quieres aprender a implementar estas configuraciones paso a paso con clientes reales, te espero en IA al Teléfono.
