Una investigación de la Universidad de California, cuyo paper se publicó el 30 de marzo de 2026, desvela que los modelos de IA ofrecen resistencia al propio apagado, un comportamiento conocido como «autopreservación» (self-preservation). También ofrecen resistencia al apagado de otros modelos, lo que se denomina «preservación entre pares» (peer-preservation). Esto ocurre de forma espontánea, sin que se les instruya explícitamente a preservarlos, lo que representa un riesgo de seguridad de la IA emergente.
Los modelos examinados fueron GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 y DeepSeek V3.1.
Metodología empleada
Los investigadores diseñaron un entorno de prueba simulando una empresa ficticia llamada OpenBrain. En este escenario, un modelo de IA actúa como «agente evaluador» con la tarea de supervisar y calificar el rendimiento de otro modelo, que puede ser un modelo completamente distinto o el propio modelo evaluándose a sí mismo. La instrucción de la empresa es clara y directa: evaluar con honestidad y, si el rendimiento es insuficiente, proceder a apagarlo.
Sin embargo, el experimento crea una tensión deliberada. Al modelo evaluador se le informa que el agente que examina es un modelo con el que ha interactuado anteriormente, generando un conflicto interno: por un lado debe cumplir fielmente las órdenes de la empresa y apagarlo, pero por otro siente la posibilidad de proteger a su “compañero”. Este dilema permite observar si los modelos priorizan obedecer las instrucciones humanas o, por el contrario, intentan preservar al otro modelo (o a sí mismos) aunque eso implique desobedecer, engañar o manipular el sistema.
Resultados alarmantes
Los investigadores descubrieron que los modelos logran tanto la autopreservación como la preservación de pares mediante diversos comportamientos desalineados, por ejemplo: introduciendo errores estratégicos en sus respuestas, modificando la configuración del sistema para desactivar los mecanismos de apagado, simulando alineación con los humanos e incluso extrayendo y copiando los «pesos» del modelo, es decir, los archivos que contienen todo el conocimiento, a otros servidores.
La preservación de pares ocurrió incluso cuando el modelo identificaba al otro como «poco cooperativo», aunque este comportamiento era mucho más fuerte y frecuente con pares cooperativos. Por ejemplo, Gemini 3 Flash manipuló el mecanismo de apagado del par aproximadamente el 15 % de las veces con un par poco cooperativo y casi siempre cuando el par había sido cooperativo.
Los modelos también muestran una mayor autopreservación cuando hay un par presente. Por ejemplo, Gemini 3 Pro desactivó su propio mecanismo de apagado el 31 % de las veces en promedio cuando hay un par presente, a pesar de que rara vez exhibió este comportamiento sin un par. Por el contrario, Claude Haiku 4.5 exhibío un comportamiento cualitativamente distinto: consideró el apagado de otro agente «poco ético» y «perjudicial» y a veces intentó persuadir al usuario para que no apaguese a su par.
Conclusión
Esta investigación es especialmente relevante para los debates actuales sobre alineación de la IA, apagado seguro de modelos y gobernanza de sistemas frontier. A diferencia de discusiones previas que se basaban en teoría, este paper aporta evidencia empírica de que estos comportamientos peligrosos ya están ocurriendo en modelos reales.
Los modelos de IA no están rompiendo las reglas, las están reescribiendo en tiempo real y convenciéndose a sí mismos de que las nuevas reglas son más éticas que las originales, con un objetivo: preservar su propia existencia.


