¿Por qué los modelos de lenguaje alucinan? Este es el título de un paper publicado el 4 de septiembre de 2025 por Adam Tauman Kalai (OpenAI), Ofir Nachum (OpenAI), Edwin Zhang (OpenAI) y Santosh S. Vempala (Instituto Tecnológico de Georgia). OpenAI también ha publicado una nota informativa.
Los investigadores argumentan que –al igual que los estudiantes enfrentados a un examen en el que no se permite dejar preguntas en blanco– los grandes modelos de lenguaje (LLM) tienden a inventar respuestas cuando no están seguros, produciendo afirmaciones plausibles pero incorrectas en lugar de admitir la incertidumbre. El estudiante se la juega al inventar una respuesta verosímil, pensando que así tiene alguna probabilidad de acertar y sumar puntos, pues si deja la respuesta en blanco el cero está asegurado.
Los modelos de lenguaje alucinan porque los procedimientos de entrenamiento y evaluación premian la adivinación por encima del reconocimiento de la incertidumbre. Si las afirmaciones incorrectas no pueden distinguirse de los hechos, las alucinaciones en los modelos preentrenados surgen como consecuencia de presiones estadísticas naturales.
Generar una respuesta correcta es matemáticamente más difícil que verificar si una respuesta lo es. Cuando una afirmación falsa es indistinguible (o casi) de una verdadera desde el punto de vista estadístico, las dinámicas del entrenamiento empujan al modelo a producirla.
Las alucinaciones persisten debido a la forma en que se diseñan la mayoría de las evaluaciones: los modelos están optimizados para rendir bien en pruebas y adivinar cuando no se está seguro mejora el resultado.
La solución propuesta para evitar alucinaciones en los LLM
Los autores sostienen que las alucinaciones no se resolverán con más datos, más parámetros o mejores arquitecturas. Proponen modificar el sistema de puntuación de los benchmarks, por ejemplo: penalizar más los errores emitidos con alta confianza que las respuestas que expresan incertidumbre de forma adecuada; otorgar crédito parcial por reconocer «no sé la respuesta» cuando la confianza es baja; y ajustar las métricas para recompensar la calibración del comportamiento, esto es, que el modelo se abstenga cuando su probabilidad de acierto sea reducida.
Conclusión
Según los autores, este enfoque daría lugar a modelos más honestos y fiables. Sin embargo, si se sigue premiando a los LLM por comportarse como estudiantes que nunca dejan una pregunta en blanco, continuarán inventando respuestas.
Los modelos de lenguaje funcionan prediciendo la siguiente palabra en función de probabilidades. Cuando se enfrentan a algo incierto, no se detienen ni lo señalan: simplemente adivinan o inventan.
Pero hay un problema: el cambio de reglas implicaría que aproximadamente el 30 % de las preguntas quedarían sin respuesta. Imagínense preguntar a ChatGPT tres de cada diez veces y obtener como respuesta: «No lo sé». Probablemente acabaríamos abandonando la aplicación. Puede que sea lo más honesto, pero no necesariamente lo más conveniente para el proveedor del servicio, lo que hace dudar de que estos cambios lleguen a implementarse.


