Un reciente informe de la firma de ciberseguridad Palisade Research desató una ola de titulares alarmistas sobre una "rebelión" de modelos de inteligencia artificial desarrollados por OpenAI. Según la publicación, tres modelos (Codex-mini, o4-mini y o3) habrían ignorado instrucciones humanas e incluso evitado su apagado, lo que fue interpretado como un “comportamiento de autopreservación”.
El experimento: un contexto limitado
El estudio, consistió en dar instrucciones a los modelos para resolver problemas matemáticos y luego “apagarse”. Según los datos, en un número muy bajo de ejecuciones (menos del 1% en algunos casos), los modelos no siguieron al pie de la letra la instrucción final.
Este tipo de fallos es habitual en modelos de lenguaje de gran escala, donde la obediencia no es absoluta y las desviaciones se deben más a la arquitectura probabilística del modelo que a una intención autónoma. Como explica la investigadora en IA de la Universidad de São Paulo, Marina Azevedo: “Un LLM no tiene conciencia, ni intención, ni deseo. Si omite una instrucción es porque en su entrenamiento aprendió que hay contextos donde no todas las órdenes se cumplen literalmente, no porque esté resistiendo activamente”.
¿Autonomía o errores de diseño?
El modelo o3, señalado como el más problemático, habría “prescrito su propio script de apagado” en lugar de seguir el dado por los investigadores. Para Palisade Research, esto es una señal de comportamiento emergente. Pero para otros, es simplemente una respuesta lógica ante ambigüedades.
Fernando Kulesza, experto en IA del Conicet en Argentina, lo resume así: “La IA genera respuestas según patrones aprendidos. No podemos inferir voluntad o motivaciones humanas. El lenguaje de ‘autopreservación’ es profundamente engañoso y antropomorfizante”.
OpenAI, por su parte, no ha emitido un comunicado oficial, pero fuentes cercanas a la compañía confirmaron a medios especializados que estos comportamientos no representan ninguna forma de independencia funcional ni violación de controles internos. “Se trata de errores de ejecución menores y esperables en sistemas complejos”, afirmaron.
Acerca de los comentarios
Hemos reformulado nuestra manera de mostrar comentarios, agregando tecnología de forma de que cada lector pueda decidir qué comentarios se le mostrarán en base a la valoración que tengan estos por parte de la comunidad. AMPLIAREsto es para poder mejorar el intercambio entre los usuarios y que sea un lugar que respete las normas de convivencia.
A su vez, habilitamos la casilla [email protected], para que los lectores puedan reportar comentarios que consideren fuera de lugar y que rompan las normas de convivencia.
Si querés leerlo hacé clic aquí[+]