Un estudio genera alarma por supuesta "autopreservación" de modelos

Tres modelos (Codex-mini, o4-mini y o3) habrían ignorado instrucciones humanas e incluso evitado su apagado

28.05.2025 09:33

Lectura: 2'

Recibí GRATIS las noticias en tu celular

Mike Sanchez/ASU Enterprise Technology

Un reciente informe de la firma de ciberseguridad Palisade Research desató una ola de titulares alarmistas sobre una "rebelión" de modelos de inteligencia artificial desarrollados por OpenAI. Según la publicación, tres modelos (Codex-mini, o4-mini y o3) habrían ignorado instrucciones humanas e incluso evitado su apagado, lo que fue interpretado como un “comportamiento de autopreservación”.

El experimento: un contexto limitado

El estudio, consistió en dar instrucciones a los modelos para resolver problemas matemáticos y luego “apagarse”. Según los datos, en un número muy bajo de ejecuciones (menos del 1% en algunos casos), los modelos no siguieron al pie de la letra la instrucción final.

Este tipo de fallos es habitual en modelos de lenguaje de gran escala, donde la obediencia no es absoluta y las desviaciones se deben más a la arquitectura probabilística del modelo que a una intención autónoma. Como explica la investigadora en IA de la Universidad de São Paulo, Marina Azevedo: “Un LLM no tiene conciencia, ni intención, ni deseo. Si omite una instrucción es porque en su entrenamiento aprendió que hay contextos donde no todas las órdenes se cumplen literalmente, no porque esté resistiendo activamente”.

¿Autonomía o errores de diseño?

El modelo o3, señalado como el más problemático, habría “prescrito su propio script de apagado” en lugar de seguir el dado por los investigadores. Para Palisade Research, esto es una señal de comportamiento emergente. Pero para otros, es simplemente una respuesta lógica ante ambigüedades.

Fernando Kulesza, experto en IA del Conicet en Argentina, lo resume así: “La IA genera respuestas según patrones aprendidos. No podemos inferir voluntad o motivaciones humanas. El lenguaje de ‘autopreservación’ es profundamente engañoso y antropomorfizante”.

OpenAI, por su parte, no ha emitido un comunicado oficial, pero fuentes cercanas a la compañía confirmaron a medios especializados que estos comportamientos no representan ninguna forma de independencia funcional ni violación de controles internos. “Se trata de errores de ejecución menores y esperables en sistemas complejos”, afirmaron.

Un estudio genera alarma por supuesta "autopreservación" de modelos

Tres modelos (Codex-mini, o4-mini y o3) habrían ignorado instrucciones humanas e incluso evitado su apagado

El experimento: un contexto limitado

¿Autonomía o errores de diseño?

Acerca de los comentarios

Enviar comentarios

ENVIAR COMENTARIOS Reglas de convivencia comunitaria

Enviar comentarios

Publicidad

Publicidad