Probando el nuevo modelo de voz Sésame en Vapi: ¿El futuro suena humano?

Probando Sésame: primeras impresiones

Desde la librería de voces de Vapi, al seleccionar el modelo Sésame, encontramos actualmente una sola voz disponible. Aunque suena increíblemente natural en inglés, todavía no está preparada para conversaciones en español, y en varias pruebas se queda bloqueada o tarda en responder.

A pesar de eso, es fascinante comprobar el potencial. La naturalidad en la entonación y las pausas son muy prometedoras, aunque la latencia todavía es un reto importante.

Comparativas con otros modelos

Durante el vídeo también hicimos pruebas con otros modelos:

ElevenLabs sigue siendo la opción más fiable en español, con voces muy trabajadas y buena latencia.
Cerebras nos sorprendió por su velocidad de respuesta y fluidez, pero falló a la hora de sintetizar correctamente el número de teléfono.
OpenAI 4.0 y 4.0 Mini ofrecen buenos resultados, especialmente cuando afinamos el prompt.
Real-time de OpenAI permite prescindir de transcriptor, pero pierde en naturalidad y expresión frente a otros modelos.

En todos los casos quedó claro que, a día de hoy, el prompting sigue siendo clave: hay que indicar claramente cómo deben pronunciarse los números, dónde poner pausas, qué tono usar… Cuanto más detallado sea el prompt, mejores serán los resultados.

Mi conclusión

La incorporación de Sésame en Vapi es un gran paso hacia voces realmente humanas. Aunque todavía no está listo para producción en español, podemos ver hacia dónde se dirige la tecnología: asistentes que entienden e interactúan con nosotros como si fueran personas.

Por ahora, toca seguir afinando nuestros prompts, aprendiendo, testeando y, sobre todo, soñando con un futuro donde el sonido de la inteligencia artificial sea casi indistinguible del humano.

Porque sí, como decía el artículo de Vapi: el futuro suena humano.