OpenAI presentó nuevos modelos de voz en para traducir, transcribir y ejecutar tareas

La empresa tecnológica explicó que la herramienta “transforma el audio en tiempo real” para ejecutar diferentes tareas.

Agreganos en Google

09.05.2026 10:17

Lectura: 2'

Recibí GRATIS las noticias en tu celular

Montevideo Portal

OpenAI anunció el lanzamiento de tres nuevos modelos de voz en tiempo real orientados a desarrolladores, con el objetivo de crear aplicaciones capaces de mantener conversaciones fluidas mientras ejecutan tareas, traducen idiomas o generan transcripciones instantáneas.

La nueva herramienta, denominada GPT-Realtime, fue diseñada para ofrecer experiencias de audio más naturales y continuas, dejando atrás los sistemas tradicionales que simplemente responden después de recibir una instrucción completa del usuario.

Según explicó la compañía, estos modelos buscan mejorar la interacción con agentes de inteligencia artificial mediante una comprensión constante del contexto de la conversación, permitiendo que se adapten a cambios, interrupciones o correcciones mientras la persona habla.

Entre las novedades se encuentra GPT-Realtime-2, un modelo que incorpora un razonamiento comparable al de GPT-5 y que apunta a resolver solicitudes complejas en tiempo real. OpenAI indicó que puede “analizar una solicitud, llamar a herramientas o gestionar correcciones o interrupciones” mientras mantiene una conversación natural con el usuario.

La empresa también presentó GPT-Realtime-Translate, enfocado en la traducción simultánea de voz. El sistema puede trabajar con más de 70 idiomas de entrada y traducirlos a 13 idiomas de salida manteniendo el ritmo de la conversación. Desde OpenAI señalaron que fue creado para “crear experiencias de voz multilingües en directo” en áreas como atención al cliente, educación, eventos y medios de comunicación.

Otro de los lanzamientos fue GPT-Realtime-Whisper, un nuevo sistema de conversión de voz a texto con baja latencia, pensado para transcribir el discurso en tiempo real mientras la persona continúa hablando.

“Los modelos que estamos lanzando transforman el audio en tiempo real, pasando de un simple sistema de llamada y respuesta a interfaces de voz que realmente pueden realizar tareas: escuchar, razonar, traducir, transcribir y actuar a medida que se desarrolla una conversación”, expresó la compañía.

Montevideo Portal