Construyo un Agente de Voz con Gemini 3 Pro en 3 Minutos (y tú también puedes)

Estoy probando lo nuevo de Google y sinceramente, estoy flipando. Con Gemini 3 Pro he logrado crear un agente de voz que suena natural, responde en tiempo real y funciona en español sin ese acento americano que antes arruinaba todo. E

¿Qué es exactamente Gemini 3 Pro?

Gemini 3 Pro es la última evolución de la IA de Google. Sale apenas siete meses después del modelo 2.5, y lo noto muchísimo más potente. Entiende contexto, razona bien y, lo que más me interesa ahora mismo: habla conmigo mientras yo hablo.

Nada de esperar a que termine mi frase. Usa un modelo llamado Appilight, que procesa la voz sobre la marcha y responde sin latencia.

¿Qué significa speech-to-speech?

Significa que la IA no pasa por texto. Me escucha hablar, interpreta lo que digo al vuelo y me responde con voz, todo en tiempo real. Las conversaciones se sienten mucho más naturales. Yo hablo y la IA ya va procesando.

Es como tener una charla con alguien que realmente está ahí.

Las voces suenan increíble

El sistema me da acceso a cinco voces, como ya pasaba antes, pero ahora sin ese acento americano tan marcado en español.

Lo mejor es que puedo usarlas en castellano, catalán, euskera o gallego, y todas suenan limpias y muy humanas. De verdad, las voces son una pasada. No hay que hacer malabares para que suene bien.

Así creo el agente: rápido y sin complicaciones

Para montarlo uso la plataforma conectada con Google A Studio. Desde ahí tengo control total. Puedo cargar el prompt completo, configurar cómo quiero que actúe el agente y decidir qué datos recoge. Todo lo hago desde un panel muy visual.

¿Qué puedo hacer en esa plataforma?

Guardo mi agente en GitHub, lo subo a vercel y le asigno una URL propia
Le pongo un prompt completo para definir su personalidad y comportamiento
Configuro un webhook para que me envíe datos tras cada conversación (nombre, resultado, oferta, etc.)
Registro duración de llamadas, fecha y otros datos útiles
Y lo mejor: puedo embeber el código en una web o en WordPress con copiar y pegar

No me preocupo si no tengo la transcripción en tiempo real. Lo que hago es recibirla al final, junto con toda la info del usuario. Es más que suficiente si lo uso para experiencias, atención al cliente o automatización.

¿Puedo conectarlo a llamadas telefónicas?

En principio no directamente. Gemini trabaja con WebSocket, que está hecho para funcionar en la web

. Las líneas telefónicas usan SIP, así que tengo que poner un intermediario si quiero conectar ambas tecnologías.

Probé con daily.com pero no me funcionó tan bien. La idea era montar una sala virtual donde se encuentren los dos sistemas: uno entra por SIP y el otro por WebSocket.

Pero lo cierto es que esta tecnología no es la mejor opción para llamadas, en ese caso, la opción más segura y la única que nos permite trabajar en entornos de producción, es actualmente Retell AI.

Un agente que vende una cabra teletransportadora

Esto lo hice como prueba y me divertí muchísimo. Creé un agente llamado Mercadel, dueño de una tienda mágica, simulando uno de los juegos de Rol más famosos.

Al iniciar la llamada, suelta: “¡Alto viajero! Soy Max, dueño de esta tienda de curiosidades, mira pero no toques…”. El reto es convencerlo de venderte una cabra teletransportadora.

Le meto un prompt numerado con toda la lógica del juego. El usuario hace su oferta y según cómo reacciona el agente, gana o pierde. También conecté un webhook para recoger toda la información después de la llamada.

Conseguí llevarm a Gertrudis, la cabra teletransportadora. Y cuando termina la llamada, recibo el resultado, la duración, la fecha y hasta la transcripción. Todo queda registrado y usable.

Otro caso práctico: una recepcionista virtual en un apartamento turístico

También he probado un agente que actúa como recepcionista para apartamentos. Le pongo voz femenina, la llamo Ana, y la configuro para dar la bienvenida y resolver dudas básicas.

Un usuario le pregunta si puede hacer el check-in a las 3 de la tarde. Ana le responde con total naturalidad: “El check-in es a partir de las 15 horas. Si llega antes, puede dejar las maletas en consigna.”

La conversación fluye, no hay cortes, no hay esperas. El agente parece humano. Y lo mejor: no hay intervención mía durante la interacción.

Después de trastear con todo esto, puedo decir que los agentes de voz de Gemini 3 Pro están listos para muchos usos reales. No son ideas futuristas, están aquí, y los puedes integrar hoy mismo. Eso si, hay que recordar que es un modelo speach to speach y el control es relativo.