Dieses Repository enthält die ARC-AGI-Aufgabendaten sowie eine browserbasierte Schnittstelle, über die Menschen versuchen können, die Aufgaben manuell zu lösen.
„ARC kann als allgemeiner Benchmark für künstliche Intelligenz, als Programmsynthese-Benchmark oder als psychometrischer Intelligenztest angesehen werden. Er richtet sich sowohl an Menschen als auch an künstlich intelligente Systeme, die darauf abzielen, eine menschenähnliche Form allgemeiner flüssiger Intelligenz zu emulieren.“
Eine vollständige Beschreibung des Datensatzes, seiner Ziele und der zugrunde liegenden Logik finden Sie in: On the Measure of Intelligence.
Zur Erinnerung: Ein Testteilnehmer löst eine Aufgabe dann, wenn er beim ersten Betrachten der Aufgabe in der Lage ist, das korrekte Ausgaberaster für alle Testeingaben in der Aufgabe zu erstellen (dazu gehört auch die Auswahl der Ausgabedimensionen). Netz). Für jede Testeingabe stehen dem Testteilnehmer drei Versuche zu (dies gilt für alle Testteilnehmer, egal ob Menschen oder KI).
Das data
enthält zwei Unterverzeichnisse:
data/training
: enthält die Aufgabendateien für das Training (400 Aufgaben). Verwenden Sie diese, um einen Prototyp Ihres Algorithmus zu erstellen oder Ihren Algorithmus zu trainieren, um ARC-relevante kognitive Priors zu erwerben.data/evaluation
: enthält die Aufgabendateien zur Auswertung (400 Aufgaben). Verwenden Sie diese, um Ihren endgültigen Algorithmus zu bewerten. Um faire Bewertungsergebnisse zu gewährleisten, lassen Sie keine Informationen aus dem Bewertungssatz in Ihren Algorithmus einfließen (z. B. indem Sie sich die Bewertungsaufgaben während der Entwicklung selbst ansehen oder einen Algorithmus wiederholt ändern und dabei seine Bewertungsbewertung als Feedback verwenden).Die Aufgaben werden im JSON-Format gespeichert. Jede Aufgaben-JSON-Datei enthält ein Wörterbuch mit zwei Feldern:
"train"
: Demonstrations-Eingabe-/Ausgabepaare. Es handelt sich um eine Liste von „Paaren“ (typischerweise 3 Paare)."test"
: Eingabe-/Ausgabepaare testen. Es handelt sich um eine Liste von „Paaren“ (typischerweise 1 Paar).Ein „Paar“ ist ein Wörterbuch mit zwei Feldern:
"input"
: das Eingabe-„Raster“ für das Paar."output"
: das Ausgabe-„Raster“ für das Paar.Ein „Gitter“ ist eine rechteckige Matrix (Liste von Listen) aus ganzen Zahlen zwischen 0 und 9 (einschließlich). Die kleinstmögliche Rastergröße beträgt 1x1 und die größte 30x30.
Beim Betrachten einer Aufgabe hat ein Testteilnehmer Zugriff auf die Eingaben und Ausgaben der Demonstrationspaare sowie auf die Eingaben der Testpaare. Das Ziel besteht darin, das/die Ausgabegitter entsprechend dem/den Testeingabegitter(n) zu erstellen, wobei für jede Testeingabe drei Versuche durchgeführt werden. „Konstruieren des Ausgabegitters“ umfasst die Auswahl der Höhe und Breite des Ausgabegitters und das anschließende Füllen jeder Zelle im Gitter mit einem Symbol (Ganzzahl zwischen 0 und 9, die als Farben visualisiert werden). Nur exakte Lösungen (alle Zellen stimmen mit der erwarteten Antwort überein) können als richtig bezeichnet werden.
Die Testschnittstelle befindet sich unter apps/testing_interface.html
. Öffnen Sie es in einem Webbrowser (Chrome empfohlen). Sie werden aufgefordert, eine Aufgaben-JSON-Datei auszuwählen.
Nachdem Sie eine Aufgabe geladen haben, gelangen Sie in den Testbereich, der wie folgt aussieht:
Auf der linken Seite sehen Sie die Eingabe-/Ausgabepaare, die die Art der Aufgabe veranschaulichen. In der Mitte sehen Sie das aktuelle Testeingaberaster. Auf der rechten Seite sehen Sie die Steuerelemente, mit denen Sie das entsprechende Ausgaberaster erstellen können.
Sie haben Zugriff auf folgende Tools:
Wenn Ihr Ausgaberaster fertig ist, klicken Sie auf die grüne Schaltfläche „Senden!“. Klicken Sie auf die Schaltfläche, um Ihre Antwort zu überprüfen. Wir setzen die 3-Versuche-Regel nicht durch.
Nachdem Sie die richtige Antwort für das aktuelle Testeingaberaster erhalten haben, können Sie über die Schaltfläche „Nächste Testeingabe“ zum nächsten Testeingaberaster für die Aufgabe wechseln (falls vorhanden; die meisten Aufgaben haben nur eine Testeingabe). .
Wenn Sie mit einer Aufgabe fertig sind, öffnen Sie über die Schaltfläche „Aufgabe laden“ eine neue Aufgabe.