Anoche, mientras miraba por encima mi LinkedIn, descubrí una noticia que me hizo correr a probarla: Vapi ha incorporado el modelo de voz Sésame, un avance muy esperado por quienes trabajamos con agentes de voz.
En su blog, explican que este nuevo modelo ha sido entrenado con más de 1.000 millones de parámetros, lo que le permite ofrecer una voz más humana, con pausas naturales, respiraciones y, sobre todo, la capacidad de anticipar el sentido de la frase antes de que termine. Justo como hacemos los humanos al conversar.
Probando Sésame: primeras impresiones
Desde la librería de voces de Vapi, al seleccionar el modelo Sésame, encontramos actualmente una sola voz disponible. Aunque suena increíblemente natural en inglés, todavía no está preparada para conversaciones en español, y en varias pruebas se queda bloqueada o tarda en responder.
A pesar de eso, es fascinante comprobar el potencial. La naturalidad en la entonación y las pausas son muy prometedoras, aunque la latencia todavía es un reto importante.
Comparativas con otros modelos
Durante el vídeo también hicimos pruebas con otros modelos:
- ElevenLabs sigue siendo la opción más fiable en español, con voces muy trabajadas y buena latencia.
- Cerebras nos sorprendió por su velocidad de respuesta y fluidez, pero falló a la hora de sintetizar correctamente el número de teléfono.
- OpenAI 4.0 y 4.0 Mini ofrecen buenos resultados, especialmente cuando afinamos el prompt.
- Real-time de OpenAI permite prescindir de transcriptor, pero pierde en naturalidad y expresión frente a otros modelos.
En todos los casos quedó claro que, a día de hoy, el prompting sigue siendo clave: hay que indicar claramente cómo deben pronunciarse los números, dónde poner pausas, qué tono usar… Cuanto más detallado sea el prompt, mejores serán los resultados.
Mi conclusión
La incorporación de Sésame en Vapi es un gran paso hacia voces realmente humanas. Aunque todavía no está listo para producción en español, podemos ver hacia dónde se dirige la tecnología: asistentes que entienden e interactúan con nosotros como si fueran personas.
Por ahora, toca seguir afinando nuestros prompts, aprendiendo, testeando y, sobre todo, soñando con un futuro donde el sonido de la inteligencia artificial sea casi indistinguible del humano.
Porque sí, como decía el artículo de Vapi: el futuro suena humano.