Que la IA «alucine» es algo matemáticamente insalvable, afirma nuevo estudio

Una investigación reciente demuestra que existe un techo estructural en la capacidad de los modelos de lenguaje para resolver o verificar tareas que exceden un umbral de complejidad, independientemente de la cantidad de datos con los que hayan sido entrenados.
2 de febrero, 2026

La adopción masiva de modelos de lenguaje basados en la arquitectura Transformer (los llamados LLM, siglas en inglés de Large Language Model) ha puesto de manifiesto una limitación persistente conocida coloquialmente como «alucinaciones», consistente en que, en algunos contextos el sistema devuelve información que se inventa, lo que se ha asemejado a una alucinación.

Si bien la industria ha tratado este fenómeno como un defecto corregible mediante más entrenamiento o mejores datos, una nueva investigación sugiere que las alucinaciones son una consecuencia inevitable de la disparidad entre la complejidad del problema planteado y la capacidad computacional del modelo.

El estudio, elaborado por Varin Sikka y Vishal Sikka, de la Universidad de Stanford y VianAI Systems respectivamente, analiza estos sistemas no desde la semántica, sino desde las matemáticas puras, partiendo de la base operativa de los LLM, cuyo cometido es predecir el siguiente token (unidad de texto) basándose en una secuencia de entrada.

El mecanismo de autoatención que utilizan estos modelos posee una complejidad de tiempo cuadrática, lo que, en términos simplificados, significa que la capacidad de procesamiento del modelo crece de forma proporcional al cuadrado de la longitud de la entrada. Esto define un límite técnico a su «inteligencia» operativa.

El problema surge cuando se solicita al modelo que ejecute una tarea cuya complejidad inherente es superior a esa capacidad cuadrática. Existen innumerables problemas en el mundo real, como la multiplicación de matrices grandes, la enumeración de subconjuntos o la optimización de rutas logísticas, que requieren una complejidad cúbica o incluso exponencial para ser resueltos correctamente. Cuando un usuario introduce un comando que implica una tarea de alta complejidad computacional, el modelo no dispone de los pasos de cómputo necesarios para resolverla, viéndose obligado a generar una respuesta probabilística que, en estos casos, resulta en una alucinación.

Implicaciones para la IA Agéntica y la verificación

Esta restricción matemática tiene consecuencias directas y críticas para el despliegue de la llamada Inteligencia Artificial Agéntica, que se ha convertido en tendencia actualmente en el mercado, superando a la IA Generativa, que es la que la mayor parte de los consumidores conoce y utiliza. La IA Agéntica permite que el modelo tome ciertas decisiones (hasta un punto marcado) por sí mismo, y realice acciones en nombre del usuario.

Un ejemplo sería la preparación de un viaje: el agente de IA puede seleccionar los medios de transporte que considere e, incluso, iniciar la operación de compra de los billetes, aunque para introducir los datos de pago y validarlos necesitará del concurso del usuario.

El estudio argumenta que si un modelo no puede resolver tareas que superan su complejidad base, tampoco está capacitado para actuar como un agente verificador fiable del trabajo realizado por otros sistemas.

Para ilustrar este punto, los autores recurren al clásico problema del viajante de comercio, que busca la ruta más corta entre varias ciudades. Verificar si una ruta propuesta es, efectivamente, la óptima requiere comparar esa opción contra todas las combinaciones posibles, un proceso que crece factorialmente con el número de ciudades. Dado que la verificación exhaustiva de estos problemas complejos excede la capacidad de cómputo del modelo, un agente basado en LLM no puede garantizar la corrección de la solución, lo que introduce riesgos significativos en aplicaciones críticas como la gestión de cadenas de suministro, la programación de personal o la verificación formal de software.

La investigación formaliza esta observación en un teorema que establece que cualquier modelo de lenguaje alucinará inevitablemente si la tarea contenida en su instrucción presenta una complejidad superior a la cúbica. Esto sugiere que la industria debe ejercer una precaución extrema antes de delegar en estos sistemas procesos que requieran una precisión absoluta en escenarios de alta complejidad matemática o lógica, ya que el fallo no es un error de entrenamiento, sino una imposibilidad teórica.

Finalmente, el análisis aborda la reciente aparición de los modelos de razonamiento, que generan una cadena de pensamiento antes de emitir una respuesta final. Aunque intuitivamente podría parecer que estos pasos adicionales resuelven el problema, los autores de la investigación se apoyan en hallazgos recientes de Apple para sostener que no es así, ya que el presupuesto de tokens destinado al razonamiento sigue siendo insuficiente para cubrir la brecha computacional necesaria para resolver problemas de complejidad exponencial, provocando lo que se ha denominado un «colapso del razonamiento» cuando la dificultad de la tarea supera cierto umbral.

Por lo tanto, y a tenor de lo explicado, parece que vamos a tener que convivir con las alucinaciones de las inteligencias artificiales, y a paliarlas controlando la dificultad de las tareas que les asignamos.