La evaluación de sistemas de inteligencia artificial ha dado un paso significativo con el desarrollo de ADeLe, una nueva metodología en cuya creación ha participado un equipo de la Universitat Politècnica de València (UPV), integrado en el Instituto Universitario Valenciano de Investigación en Inteligencia Artificial (VRAIN) y en ValgrAI. Este avance, cuyas conclusiones se publican en la revista Nature, introduce un enfoque que permite predecir si un modelo de lenguaje será capaz de resolver una tarea que aún no ha ejecutado.
Hasta ahora, los métodos de evaluación se limitaban a medir el rendimiento de los modelos en pruebas concretas, sin capacidad para anticipar su comportamiento en escenarios nuevos. ADeLe plantea un cambio de paradigma al incorporar una evaluación de carácter más cognitivo, capaz no solo de explicar cómo funcionan estos sistemas, sino también de prever sus resultados antes de su despliegue.
En palabras del investigador de VRAIN de la UPV, Fernando Martínez-Plumed, “por primera vez, podemos anticipar con cerca de un 90% de acierto si un modelo de IA resolverá o no una tarea nueva, antes de desplegarlo. Para la industria, esto significa detectar fallos a tiempo y evitar los altos costes de lanzar un sistema que no rinde como se esperaba”.
El alcance de esta metodología resulta especialmente relevante en un contexto de rápida expansión de la inteligencia artificial, donde empresas, evaluadores independientes y responsables políticos demandan herramientas más rigurosas y estandarizadas para analizar capacidades y riesgos. Según se recoge en el estudio, la evaluación actual “no satisface las exigencias de un ecosistema de IA en rápida evolución y cada vez más diverso”, lo que convierte la anticipación del rendimiento en una necesidad urgente.
La propuesta de ADeLe aborda estas limitaciones mediante un sistema exhaustivo y escalable que introduce un marco de análisis basado en 18 dimensiones cognitivas. Entre ellas se incluyen aspectos como la atención, el razonamiento o el grado de singularidad de una tarea. Cada problema puede ser evaluado en función de estas dimensiones, lo que permite construir un perfil detallado de las capacidades de un modelo tras someterlo a un conjunto representativo de pruebas. Este enfoque va más allá de las métricas tradicionales de precisión agregada, al identificar patrones específicos de fortalezas y debilidades según el tipo de modelo, su tamaño o su metodología de razonamiento. De este modo, ADeLe no solo evalúa, sino que proporciona explicaciones transferibles a tareas desconocidas, lo que amplía significativamente su utilidad práctica.
El equipo investigador, formado por especialistas de la UPV —entre ellos José Hernández-Orallo, Fernando Martínez-Plumed, Yael Moros-Daval, Kexin Jiang-Chen y Behzad Mehrbakhsh— junto a colaboradores de instituciones como la Universidad de Cambridge, Princeton, Carnegie Mellon, William & Mary, Microsoft Research y el Centro de Automática y Robótica (CSIC-UPM), ha identificado además varias conclusiones relevantes.
En primer lugar, advierten que muchas pruebas actuales de rendimiento en IA no miden exactamente lo que pretenden, al evaluar capacidades distintas de las inicialmente diseñadas. En segundo lugar, constatan que los modelos presentan perfiles diferenciados de habilidades, lo que refuerza la necesidad de evaluaciones más matizadas. Asimismo, el estudio confirma que ADeLe permite predecir con precisión el éxito o fracaso en nuevas tareas, y aporta una visión más equilibrada sobre el debate en torno a la capacidad de razonamiento de la IA, señalando que las discrepancias existentes responden, en parte, a distintos niveles de dificultad en las pruebas utilizadas.
Los autores sintetizan sus hallazgos señalando que los modelos avanzados de razonamiento muestran mejoras medibles no solo en lógica o matemáticas, sino también en aspectos menos evidentes, como la comprensión de la intención real del usuario.
El trabajo, titulado “General Scales Unlock AI Evaluation with Explanatory and Predictive Power”, refuerza la idea de que la evaluación de la inteligencia artificial debe evolucionar hacia modelos más explicativos y predictivos. En este sentido, ADeLe se presenta como una herramienta con potencial para transformar tanto el desarrollo tecnológico como los procesos de auditoría, regulación y toma de decisiones en torno a la IA.
Artículo redactado con asistencia de IA (Ref. APA: OpenAI. (2026). ChatGPT (versión 5.3, 2 de abril). OpenAI)
