MADRID, 25 Mar. (Portaltic/EP) -
La Fundación Arc Prize ha presentado ARC-AGI-2, su nueva prueba ideada para medir la inteligencia general (AGI) de los principales modelos de Inteligencia Artificial (IA), que presenta un conjunto de tareas que los humanos encuentran relativamente fáciles, pero que la IA actual tiene dificultades para realizar.
La organización sin fines de lucro pretende servir de guía hacia la IA general (aquella que pretende igualar la inteligencia humana) a través de puntos de referencia duraderos. Para ello, desarrolla marcos de prueba que sirven para medir las capacidades de los modelos de IA actuales y visualizar su progreso.
Es el caso de ARC-AGI-1, el primer sistema de pruebas desarrollado por Arc Prize, con el que asegura haber registrado el progreso hacia la IA general desde 2019, al ser utilizado por empresas como OpenAI para demostrar los progresos de sus sistemas de IA. Con esta prueba se impulsó el aprendizaje profundo, dejando atrás la capacidad de simplemente memorizar conjuntos de datos.
Ahora, la fundación ha presentado su nuevo marco de prueba ARC-AGI-2, un conjunto de tareas que resultan aún más difíciles para los modelos de IA que las incluidas en ARC-AGI-1, pero que mantienen la misma "relativa facilidad" para los humanos.
En concreto, según ha especificado la compañía en un comunicado en su blog, con ARC-AGI-2 los modelos grandes de lenguaje (LLM) puros obtienen una puntación del 0 por ciento. Siguiendo esta línea, modelos de última generación como GPT-4.5 de OpenAI, Claude 3.7 Sonnet de Anthropic y Gemini 2.0 Flash de Google, obtienen una puntuación cercana al 1 por ciento.
Por su parte, la organización también ha detallado que los modelos de razonamiento, como o1-pro de OpenAI y R1 de DeepSeek obtienen puntuaciones bajas que oscilan entre el 1 y el 1,3 por ciento de ARC-AGI-2, tal y como se muestra en la clasificación de Arc Prize.
Sin embargo, estas tareas contempladas en ARC-AGI-2 también han sido probadas por 400 personas y, en este marco, han sido resueltas por al menos dos humanos en menos de dos intentos. Concretamente, las personas promedio de la muestra alcanzaron el 60 por ciento sin capacitación previa, y un panel de 10 personas alcanzó el 100 por cien.
Cabe destacar que las pruebas de este nuevo marco ARC-AGI-2 se diferencian de los puntos de referencia de IA anteriores porque no se centran exclusivamente en las capacidades sobrehumanas o en conocimientos especializados, si no que están enfocados en tareas relativamente fáciles para los humanos pero difíciles para la IA, lo que pone sobre la mesa brechas de capacidad que "no surgen espontáneamente con el escalamiento".
Esto se debe a que los sistemas de IA "ya son sobrehumanos en muchos ámbitos específicos" como el reconocimiento de imágenes. Sin embargo, estas son "capacidades limitadas y especializadas", según ha explicado la organización. "La brecha entre humanos e IA revela lo que falta para la inteligencia general: la adquisición de nuevas habilidades con alta eficiencia", ha sentenciado al respecto.
Por tanto, las tareas integradas en ARC-AGI-2 consisten en la resolución de problemas de tipo rompecabezas en los que la IA debe identificar patrones visuales en un conjunto de cuadrados. Así, el conjunto de evaluación realiza pruebas de interpretación simbólica, de razonamiento compositivo y de aplicación de reglas contextuales, por ejemplo, solicitando que resuelvan ecuaciones algebraicas utilizando su conocimiento de dichos conjuntos de cuadrados.
Esto aumenta la dificultad para los modelos de IA por que no pueden simplemente memorizar la solución, si no que deben aplicar los conocimientos existentes a nuevos problemas. Además, se ha identificado que los sistemas de razonamiento de IA tienen dificultades con tareas que requieren que los símbolos se interpreten con un significado que trascienda sus patrones visuales.
En su lugar, los sistemas de IA intentaron comprobar la simetría, replicar, transformar e, incluso reconocer elementos de conexión, pero "no lograron asignar un significado semántico a los símbolos.
Como resultado a estas evaluaciones, "cualquier sistema de IA capaz de superar a ARC-AGI-1 demuestra un nivel binario de inteligencia fluida. En cambio, ARC-AGI-2 eleva significativamente el listón de la IA. Para superarlo, se debe demostrar un alto nivel de adaptabilidad y alta eficiencia", ha sentenciado la Fundación Arc Prize.
Además, la organización también ha adelantado que todos los informes de ARC-AGI incluirán una métrica de eficiencia ya que, según ha explicado, la inteligencia debe encontrar la solución de forma eficiente, no exhaustiva. Por tanto, aquellos modelos que utilicen fuerza bruta para resolver problemas tampoco podrán pasar la prueba porque no serán lo suficientemente eficientes.
Con todo ello, tal y como ha manifestado el cofundador de la Fundación Arc Prize e investigador de IA, François Chollet, en una publicación en X (antigua Twitter), con ARC-AGI-2 "se espera mayor novedad, menor redundancia y niveles más profundos de recombinación de conceptos", al tiempo que ha detallado que "se presta mucha más atención a las capacidades de sondeo que aún faltan en los sistemas de razonamiento de vanguardia", como la interpretación de símbolos sobre la marcha, el razonamiento compositivo de múltiples pasos y las reglas dependientes del contexto.