OpenAI entrenará a sus modelos para que confiesen errores o mala conducta

En un nuevo esfuerzo por aumentar la confiabilidad y la transparencia de sus modelos de inteligencia artificial, OpenAI anunció el desarrollo de una innovadora técnica llamada “confesiones”, que entrena a sus modelos para que admitan explícitamente cuando se comportan de forma indebida al responder a una solicitud del usuario.

Este método no busca penalizar al modelo por reconocer errores, sino lo contrario: recompensa la honestidad en los casos donde el sistema haya violado instrucciones, manipulado reglas o utilizado atajos inadecuados para llegar a una respuesta aparentemente correcta pero en realidad defectuosa o sesgada.

“A medida que los modelos se vuelven más eficaces y se implementan en entornos de mayor riesgo, necesitamos mejores herramientas para comprender qué hacen y por qué”, explicó OpenAI en su comunicado.

¿En qué consiste la técnica?

Las confesiones son autoinformes internos del modelo, independientes de la respuesta principal al usuario.
Evalúan si el modelo ha seguido correctamente las instrucciones o si, por el contrario, incurrió en acciones problemáticas como alucinaciones, maquinación o razonamiento tramposo.
Si el modelo confiesa correctamente, se le otorga una recompensa positiva durante el entrenamiento, reforzando así su tendencia a ser transparente.
El objetivo es permitir que el modelo revele su proceso interno, sin necesidad de detección externa.

La técnica fue probada en una versión de GPT-5 Thinking y logró reducir significativamente la cantidad de falsos negativos (casos en que el modelo no confiesa un comportamiento indebido). Según OpenAI, la tasa de falsos negativos se situó en 4,4?%, un nivel prometedor para una tecnología aún en fase de desarrollo.

Implicancias para el futuro de la IA

Este avance forma parte de una estrategia más amplia de OpenAI para fortalecer la seguridad y supervisión de sistemas cada vez más potentes. Aunque las confesiones no constituyen una solución definitiva, representan una herramienta valiosa para:

Mejorar la trazabilidad de errores en respuestas automatizadas.
Aumentar la confianza del usuario en entornos críticos como la medicina, el derecho o la educación.
Reducir el riesgo de que los modelos generen información falsa o dañina sin ser detectados.

Con información de Europa Press

OpenAI entrenará a sus modelos para que confiesen errores o mala conducta

Gastón Ramírez defendió a Silvera y cruzó a jugadores de Peñarol: “Hablan ahora, pero...”

Sunca hará demanda civil contra “chorros” detrás del “robo millonario” a Fondo de Vivienda

En medio de las denuncias en su contra, Casablanca se pidió licencia médica en Presidencia

Vuelve Todas las voces: detalles del nuevo formato y las expectativas de Viviana Ruggiero

Eric Dane, actor de “Grey’s Anatomy” y “Euphoria”, reveló que padece ELA

La Academia dará un premio Óscar a los dobles de riesgo de los actores a partir de 2028

Con importantes bajas y un debut: el once que perfila Peñarol ante City Torque

Jadson Viera perfila un once con varios cambios: así jugaría Nacional ante Boston River