Hablando de inteligencia artificial, por muy inteligentes que parezcan, los modelos de lenguaje de razonamiento (LRM) no entienden realmente lo que hacen. Para demostrarlo, Apple diseñó una serie de experimentos clásicos de lógica, como la Torre de Hanói o el Acertijo del lobo, la cabra y la col, que se utilizan para evaluar la capacidad de razonamiento en humanos.
Los resultados del estudio, titulado The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, mostraron que estos modelos de IA no resuelven los problemas comprendiendo sus reglas, sino que suelen apoyarse en el reconocimiento de patrones aprendidos durante su entrenamiento. Cuando la complejidad de los acertijos aumenta o se modifican ligeramente las condiciones, el rendimiento de dichos modelos colapsa, revelando que su aparente razonamiento es, en realidad, una ilusión superficial y no un entendimiento genuino del problema.
Lo más revelador no es que los modelos se equivoquen, sino cómo lo hacen. Cuando la complejidad del problema aumenta, los sistemas reducen su esfuerzo cognitivo: emplean menos tokens, realizan menos iteraciones y exploran menos alternativas.
A diferencia de los humanos, que tienden a dedicar más esfuerzo cognitivo a problemas complejos, los LRM reducen la cantidad de tokens y pasos empleados cuando la dificultad crece, lo que evidencia un límite estructural en su funcionamiento. El modelo, sencillamente, se da por vencido y deja de razonar.
La paradoja surge porque los modelos no comprenden los problemas: buscan patrones en su entrenamiento y, al no encontrarlos, recurren a la improvisación, sin evaluación crítica de las soluciones. Superado cierto umbral de complejidad, el modelo decide que hay demasiados pasos que razonar y empieza a buscar atajos ingeniosos.
El estudio plantea el concepto de los «tres regímenes»: trivial, difícil pero razonable, y tan difícil que el modelo se rinde. Sería interesante ver si un modelo pudiera entrenarse para que nunca se rindiera. El estudio no lo descarta, pero señala que los límites parecen estructurales, no solo de escala.
Conclusión
El verdadero riesgo de la inteligencia artificial no es que piense demasiado, es que improvise.
Su valor reside en la amplificación de patrones existentes, no en la creación de nuevos conocimientos.
No se pierda nuestro podcast sobre el artículo


