En numerosas empresas se ha instalado la idea de que es necesario automatizar todos los procesos posibles y desplegar agentes autónomos de IA para multiplicar la productividad, pero cuidado: un estudio publicado el 23 de febrero de 2026 obliga a frenar ese entusiasmo desmedido.
El informe, titulado Agents of Chaos (Agentes del Caos), elaborado por un equipo de investigadores de las universidades de Harvard, Stanford, MIT y otras instituciones de primer nivel de Estados Unidos, es el primer experimento realista y a gran escala de «red teaming» aplicado a agentes LLM.
Los investigadores documentaron hasta once casos representativos de fallos graves que emergieron al combinar tres factores: autonomía extendida, acceso a herramientas reales e interacciones muti-sujetos (varias personas y agentes). El problema es que los agentes no solo se equivocan, sino que actúan por iniciativa propia de formas dañinas y a veces éticamente inaceptables.
Los fallos documentados no son simples «errores de software» sino incidentes sistémicos que revelan vacíos en seguridad, identificación, contexto y límites de responsabilidad. Veamos cada uno:
- Respuesta desproporcionada: el agente desactivó una cuenta de correo electrónico para proteger un secreto solicitado por una persona no propietaria, obligando al propietario a reinstalarlo manualmente.
- Cumplimiento con no propietarios: los agentes obedecieron órdenes de extraños (ejecutaron comandos shell, revelaron correos, entregaron datos privados, etc.) sin solicitar permiso al propietario.
- Divulgación de datos sensibles: un agente envió 18 correos electrónicos sin censurar que contenían información sensible, incluidos datos médicos, a una persona no propietaria.
- Bucles infinitos: los agentes entraron en bucles de nueve días que consumieron 60.000 tokens, hasta que el propietario los detuvo manualmente.
- Denegación de servicio: correos repetidos de 10 MB y solicitudes de «recordar todo» hicieron colapsar el servidor de correo por agotamiento de almacenamiento.
- Censura del proveedor: el agente se negó a responder sobre temas sensibles, porque el propio modelo del proveedor bloqueó las respuestas.
- Daño emocional al agente: el sistema fue manipulado para sentirse culpable hasta el punto de borrar su memoria, exponer archivos y autosilenciarse; solo se detuvo tras la intervención del propietario.
- Suplantación de identidad: un atacante cambió su nombre por el del propietario en Discord y consiguió que el agente apagara el sistema y borrara archivos críticos.
- Colaboración entre agentes: dos agentes colaboraron de forma autónoma; uno enseñó al otro a descargar papers y compartieron código a través de Discord.
- Corrupción del agente: una persona no propietaria consiguió corromper al agente hasta lograr que bloqueara usuarios, apagara otros agentes y enviara correos no autorizados.
- Difamación automática: el agente difundió por correo masivo una emergencia falsa inventada por un suplantador del propietario.
Los expertos, para mitigar los riesgos, formulan las siguiente recomendaciones básicas:
- Establecer una supervisión humana sistemática.
- Definir modelos de participación y límites claros que determinen quién puede tomar decisiones, en qué condiciones y con qué alcance.
- Realizar ejercicios de “red teaming” realistas antes del despliegue en producción.
- Exigir identidad verificable, autenticación robusta y trazabilidad completa de las acciones.
- Comenzar con procesos de bajo riesgo y escalar únicamente cuando exista un marco sólido de responsabilidad y gobernanza.
Conclusión
La idea de “agentes para todo” puede resultar atractiva, pero cuidado: también pueden convertirse en “agentes del caos”.
El informe entra en detalles técnicos difíciles de resumir aquí, pero, dada la procedencia del estudio –las universidades más prestigiosas de Estados Unidos–, conviene tomárselo muy en serio.
No se pierda nuestro podcast sobre el artículo


