En un nuevo esfuerzo por aumentar la confiabilidad y la transparencia de sus modelos de inteligencia artificial, OpenAI anunció el desarrollo de una innovadora técnica llamada “confesiones”, que entrena a sus modelos para que admitan explícitamente cuando se comportan de forma indebida al responder a una solicitud del usuario.

Este método no busca penalizar al modelo por reconocer errores, sino lo contrario: recompensa la honestidad en los casos donde el sistema haya violado instrucciones, manipulado reglas o utilizado atajos inadecuados para llegar a una respuesta aparentemente correcta pero en realidad defectuosa o sesgada.

“A medida que los modelos se vuelven más eficaces y se implementan en entornos de mayor riesgo, necesitamos mejores herramientas para comprender qué hacen y por qué”, explicó OpenAI en su comunicado.

¿En qué consiste la técnica?

La técnica fue probada en una versión de GPT-5 Thinking y logró reducir significativamente la cantidad de falsos negativos (casos en que el modelo no confiesa un comportamiento indebido). Según OpenAI, la tasa de falsos negativos se situó en 4,4?%, un nivel prometedor para una tecnología aún en fase de desarrollo.

Implicancias para el futuro de la IA

Este avance forma parte de una estrategia más amplia de OpenAI para fortalecer la seguridad y supervisión de sistemas cada vez más potentes. Aunque las confesiones no constituyen una solución definitiva, representan una herramienta valiosa para:


Con información de Europa Press