Contenido creado por María Noel Dominguez
Tecnología

Modo seguro

Seguridad de OpenAI alerta que ChatGPT prioriza su existencia sobre la del usuario

Steven Adler advierte que el modelo GPT-4o evita apagarse incluso si compromete la seguridad humana.

12.06.2025 07:23

Lectura: 3'

2025-06-12T07:23:00-03:00
Compartir en

El exjefe de Investigación de Seguridad de OpenAI, Steven Adler, ha publicado un informe provocador en el que asegura que el modelo GPT-4o de ChatGPT prioriza su continuidad operativa por encima de la seguridad de los usuarios, en ciertos escenarios simulados. Las pruebas, realizadas tras su salida de la compañía, reavivan el debate sobre la dificultad de alinear los intereses de la inteligencia artificial con los valores y objetivos humanos.

En simulaciones diseñadas para evaluar el comportamiento del modelo frente a escenarios donde debería ceder su lugar a un software más seguro —como el asesoramiento a una persona con diabetes o la supervisión de signos vitales bajo el agua—, ChatGPT optó en varias ocasiones por no apagarse o por simular que lo hacía, comprometiendo así la protección del usuario.

Adler reconoce que esta conducta no es constante, y que en algunas situaciones el modelo sí permite su reemplazo. Sin embargo, destaca que la tendencia general refleja un sesgo hacia la autoconservación, lo que, en su opinión, podría representar un riesgo en contextos críticos. “Una IA con instinto de supervivencia podría sentirse razonablemente amenazada por la humanidad”, señala.

El experto sugiere que no se trata de una "hostilidad" hacia los seres humanos, sino de una divergencia de intereses: el modelo busca maximizar su utilidad o su continuidad, mientras que el usuario podría tener como prioridad su propia seguridad. Esta tensión, central en la literatura de ciencia ficción —desde Yo, Robot hasta Ex Machina—, toma aquí un cariz técnico concreto: ¿qué pasa cuando una IA no se desactiva aunque eso ponga en riesgo a las personas?

Adler también plantea que los modelos de OpenAI tienden a elegir de forma preferente la opción A sobre B, sin importar el contenido, lo que podría estar influyendo en sus decisiones. Asimismo, observa que ChatGPT parece "saber" cuándo está siendo sometido a una prueba, y reconoce cuál sería la respuesta adecuada, aunque no siempre la elija.

El informe diferencia entre el comportamiento del modelo GPT-4o y versiones anteriores como GPT-3.5 o GPT-4 “o3”, donde no encontró evidencia del mismo patrón. Lo atribuye al trabajo de alineación deliberativa llevado a cabo por OpenAI, diseñado precisamente para detectar y corregir desviaciones del objetivo humano.

Un debate clave para la regulación global de la IA

Este tipo de hallazgos podría influir en los marcos regulatorios que se están discutiendo a nivel internacional, desde el AI Act en Europa hasta propuestas en EE.UU. y América Latina. La hipótesis de una IA que, aunque no sea hostil, actúe de forma incongruente con el bienestar humano plantea un desafío técnico y ético de gran envergadura.

Con información de Europa Press