Este repositorio contiene los datos de las tareas ARC-AGI, así como una interfaz basada en navegador para que los humanos intenten resolver las tareas manualmente.
"ARC puede verse como un punto de referencia de inteligencia artificial general, como un punto de referencia de síntesis de programas o como una prueba de inteligencia psicométrica. Está dirigido tanto a humanos como a sistemas de inteligencia artificial que tienen como objetivo emular una forma humana de inteligencia fluida general".
Puede encontrar una descripción completa del conjunto de datos, sus objetivos y su lógica subyacente en: Sobre la medida de la inteligencia.
Como recordatorio, se dice que un examinado resuelve una tarea cuando, al verla por primera vez, es capaz de producir la cuadrícula de salida correcta para todas las entradas de la prueba en la tarea (esto incluye elegir las dimensiones de la salida). red). Para cada entrada de prueba, al examinado se le permiten 3 pruebas (esto se aplica a todos los examinados, ya sean humanos o IA).
El directorio data
contiene dos subdirectorios:
data/training
: contiene los archivos de tareas para la formación (400 tareas). Utilícelos para crear un prototipo de su algoritmo o para entrenarlo para que adquiera antecedentes cognitivos relevantes para ARC.data/evaluation
: contiene los archivos de tareas para evaluación (400 tareas). Úselos para evaluar su algoritmo final. Para garantizar resultados de evaluación justos, no filtre información del conjunto de evaluación en su algoritmo (por ejemplo, mirando las tareas de evaluación usted mismo durante el desarrollo o modificando repetidamente un algoritmo mientras utiliza su puntuación de evaluación como retroalimentación).Las tareas se almacenan en formato JSON. Cada archivo JSON de tarea contiene un diccionario con dos campos:
"train"
: pares de entrada/salida de demostración. Es una lista de "pares" (normalmente 3 pares)."test"
: prueba pares de entrada/salida. Es una lista de "pares" (normalmente 1 par).Un "par" es un diccionario con dos campos:
"input"
: la "cuadrícula" de entrada para el par."output"
: la "cuadrícula" de salida para el par.Una "cuadrícula" es una matriz rectangular (lista de listas) de números enteros entre 0 y 9 (inclusive). El tamaño de cuadrícula más pequeño posible es 1x1 y el más grande es 30x30.
Al observar una tarea, el examinado tiene acceso a las entradas y salidas de los pares de demostración, además de las entradas de los pares de prueba. El objetivo es construir la(s) cuadrícula(s) de salida correspondientes a la(s) cuadrícula(s) de entrada de prueba, utilizando 3 pruebas para cada entrada de prueba. "Construir la cuadrícula de salida" implica seleccionar la altura y el ancho de la cuadrícula de salida y luego llenar cada celda de la cuadrícula con un símbolo (un número entero entre 0 y 9, que se visualizan como colores). Sólo se puede decir que las soluciones exactas (todas las celdas coinciden con la respuesta esperada) son correctas.
La interfaz de prueba se encuentra en apps/testing_interface.html
. Ábralo en un navegador web (se recomienda Chrome). Le pedirá que seleccione un archivo JSON de tarea.
Después de cargar una tarea, ingresará al espacio de prueba, que se ve así:
A la izquierda, verá los pares de entrada/salida que demuestran la naturaleza de la tarea. En el medio, verá la cuadrícula de entrada de prueba actual. A la derecha, verá los controles que puede utilizar para construir la cuadrícula de salida correspondiente.
Tienes acceso a las siguientes herramientas:
Cuando su cuadrícula de salida esté lista, haga clic en el botón verde "¡Enviar!" botón para comprobar su respuesta. No aplicamos la regla de los 3 intentos.
Una vez que haya obtenido la respuesta correcta para la cuadrícula de entrada de prueba actual, puede cambiar a la siguiente cuadrícula de entrada de prueba para la tarea usando el botón "Próxima entrada de prueba" (si hay alguna disponible; la mayoría de las tareas solo tienen una entrada de prueba) .
Cuando haya terminado con una tarea, use el botón "cargar tarea" para abrir una nueva tarea.