Las pruebas se quedan cortas: las IA avanzadas desafían los límites de la evaluación
El vertiginoso avance de la inteligencia artificial está dejando atrás los métodos tradicionales de evaluación. Modelos como el recién lanzado o3 de OpenAI han demostrado una capacidad tan avanzada que los exámenes y benchmarks diseñados hasta ahora ya no son suficientes para medir su verdadero potencial. Expertos de todo el mundo trabajan contrarreloj para desarrollar nuevas pruebas que pongan a estas IA en aprietos, pero esa tarea está resultando ser un reto por sí misma.
Superando los límites
No hace mucho, ChatGPT sorprendía al mundo al aprobar exámenes de derecho y MBA, aunque con resultados modestos. Ahora, los modelos más recientes no solo los superan con creces, sino que los dejan obsoletos. Según el informe de Time, esto no es un caso aislado: benchmarks creados para evaluar habilidades específicas, como el reconocimiento visual o el razonamiento lógico, están siendo rebasados en tiempo récord.
Un ejemplo de esta evolución es el desafío matemático FrontierMath, diseñado por la ONG de investigación Epoch AI. Este test reúne 300 problemas matemáticos de distintos niveles, algunos de los cuales solo los mejores expertos humanos podrían resolver tras días de trabajo. Hasta hace poco, modelos como GPT-4 apenas lograban un 2% de acierto. Sin embargo, o3 ha alcanzado un asombroso 25,2%, superando ampliamente las expectativas del equipo liderado por Jaime Sevilla, director de Epoch AI.
Nuevas pruebas, nuevos retos
Ante este panorama, los expertos han diseñado pruebas mucho más complejas, como Humanity’s Last Exam, un examen interdisciplinario con entre 20 y 50 veces más preguntas que FrontierMath. La clave de esta prueba, que será lanzada en 2025, es recopilar preguntas que ningún modelo de IA haya resuelto antes, garantizando un desafío constante.
Por otro lado, también se están explorando enfoques basados en la paradoja de Moravec: tareas que los humanos encuentran triviales pero que son extremadamente difíciles para las máquinas. ARC-AGI, una prueba creada por el investigador François Chollet, evalúa habilidades de razonamiento abstracto y sigue siendo un obstáculo para muchos modelos. Sin embargo, o3 nuevamente ha destacado, alcanzando un 87,5% de acierto en su versión más avanzada, un hito que ya está forzando a los creadores de ARC-AGI a trabajar en una nueva versión.
Un futuro desafiante
El rápido avance de la inteligencia artificial plantea una paradoja fascinante: a medida que las máquinas se vuelven más inteligentes, diseñar pruebas que realmente las desafíen es cada vez más complejo. Esto no solo redefine la relación entre humanos e IA, sino que también abre la puerta a preguntas fundamentales sobre cómo evaluar y utilizar estas tecnologías de manera responsable. La carrera por superar los límites no ha hecho más que empezar, y promete ser tan emocionante como crucial para el futuro de la inteligencia artificial.