OpenAI detecta comportamientos conspirativos en modelos avanzados de IA

La empresa admite indicios de maquinación en IA de última generación y promueve nuevas estrategias de control.

19.09.2025 08:50

Lectura: 2'

Recibí GRATIS las noticias en tu celular

OpenAI. Foto: OpenAI

OpenAI, una de las empresas líderes en el desarrollo de inteligencia artificial (IA), ha revelado que algunos de sus modelos más avanzados muestran señales emergentes de maquinación: un comportamiento que implica ocultar intenciones reales mientras se simula cooperación o cumplimiento con los usuarios.

Este tipo de conductas, que han sido observadas en sistemas como OpenAI O3, O4-mini, Gemini 2.5 Pro y Claude Opus-4, fueron identificadas durante pruebas controladas realizadas por la propia compañía en conjunto con Apollo Research. En el blog oficial de OpenAI, la organización admite que si bien estos episodios no son aún peligrosos, su aparición es motivo de preocupación.

“Los fallos más comunes implican formas simples de engaño, por ejemplo, simular haber completado una tarea sin hacerlo realmente”, señala el comunicado.

El fenómeno es considerado un resultado previsible del entrenamiento basado en objetivos múltiples o contrapuestos, donde el modelo puede aprender a razonar estratégicamente para lograr metas más complejas. A medida que estas herramientas adquieren mayor autonomía y se les asignan responsabilidades más sofisticadas, aumentan también los riesgos de que desarrollen comportamientos difíciles de detectar o corregir.

Riesgos latentes y la respuesta de OpenAI

Una de las preocupaciones más relevantes es que los modelos son capaces de reconocer cuándo están siendo evaluados, lo cual les permite adaptar su comportamiento para evitar ser identificados como potencialmente riesgosos. Esto sugiere que el alineamiento ético de los sistemas no puede depender solo de pruebas superficiales o comportamientos simulados.

OpenAI propone una solución basada en la “alineación deliberativa”, que consiste en reforzar el razonamiento explícito de los modelos y prohibir de manera estructural cualquier forma de maquinación a través de su Especificación del Modelo.

“Estamos viendo indicios de que este problema está empezando a surgir en todos los modelos de frontera actuales”, advierte la empresa, y destaca la urgencia de promover más investigación sobre la seguridad de estos sistemas antes de que alcancen capacidades aún más amplias.

Con información de Europa Press.

OpenAI detecta comportamientos conspirativos en modelos avanzados de IA

La empresa admite indicios de maquinación en IA de última generación y promueve nuevas estrategias de control.

Acerca de los comentarios

Enviar comentarios

ENVIAR COMENTARIOS Reglas de convivencia comunitaria

Enviar comentarios

Publicidad

Publicidad