En un nuevo esfuerzo por aumentar la confiabilidad y la transparencia de sus modelos de inteligencia artificial, OpenAI anunció el desarrollo de una innovadora técnica llamada “confesiones”, que entrena a sus modelos para que admitan explícitamente cuando se comportan de forma indebida al responder a una solicitud del usuario.
Este método no busca penalizar al modelo por reconocer errores, sino lo contrario: recompensa la honestidad en los casos donde el sistema haya violado instrucciones, manipulado reglas o utilizado atajos inadecuados para llegar a una respuesta aparentemente correcta pero en realidad defectuosa o sesgada.
“A medida que los modelos se vuelven más eficaces y se implementan en entornos de mayor riesgo, necesitamos mejores herramientas para comprender qué hacen y por qué”, explicó OpenAI en su comunicado.
¿En qué consiste la técnica?
- Las confesiones son autoinformes internos del modelo, independientes de la respuesta principal al usuario.
- Evalúan si el modelo ha seguido correctamente las instrucciones o si, por el contrario, incurrió en acciones problemáticas como alucinaciones, maquinación o razonamiento tramposo.
- Si el modelo confiesa correctamente, se le otorga una recompensa positiva durante el entrenamiento, reforzando así su tendencia a ser transparente.
- El objetivo es permitir que el modelo revele su proceso interno, sin necesidad de detección externa.
La técnica fue probada en una versión de GPT-5 Thinking y logró reducir significativamente la cantidad de falsos negativos (casos en que el modelo no confiesa un comportamiento indebido). Según OpenAI, la tasa de falsos negativos se situó en 4,4?%, un nivel prometedor para una tecnología aún en fase de desarrollo.
Implicancias para el futuro de la IA
Este avance forma parte de una estrategia más amplia de OpenAI para fortalecer la seguridad y supervisión de sistemas cada vez más potentes. Aunque las confesiones no constituyen una solución definitiva, representan una herramienta valiosa para:
- Mejorar la trazabilidad de errores en respuestas automatizadas.
- Aumentar la confianza del usuario en entornos críticos como la medicina, el derecho o la educación.
- Reducir el riesgo de que los modelos generen información falsa o dañina sin ser detectados.
Con información de Europa Press