Repositori ini berisi data tugas ARC-AGI, serta antarmuka berbasis browser bagi manusia untuk mencoba menyelesaikan tugas secara manual.
“ARC dapat dilihat sebagai tolok ukur kecerdasan buatan secara umum, sebagai tolok ukur sintesis program, atau sebagai tes kecerdasan psikometrik. ARC ditargetkan pada manusia dan sistem kecerdasan buatan yang bertujuan untuk meniru bentuk kecerdasan cair umum yang mirip manusia.”
Penjelasan lengkap tentang kumpulan data, tujuannya, dan logika yang mendasarinya, dapat ditemukan di: Tentang Ukuran Kecerdasan.
Sebagai pengingat, seorang peserta tes dikatakan menyelesaikan suatu tugas ketika, saat melihat tugas tersebut untuk pertama kalinya, mereka mampu menghasilkan kisi keluaran yang benar untuk semua masukan tes dalam tugas tersebut (termasuk memilih dimensi keluarannya. jaringan). Untuk setiap masukan tes, peserta tes diperbolehkan melakukan 3 kali uji coba (ini berlaku untuk semua peserta tes, baik manusia atau AI).
Direktori data
berisi dua subdirektori:
data/training
: berisi file tugas untuk pelatihan (400 tugas). Gunakan ini untuk membuat prototipe algoritme Anda atau untuk melatih algoritme Anda guna memperoleh prior kognitif yang relevan dengan ARC.data/evaluation
: berisi file tugas untuk evaluasi (400 tugas). Gunakan ini untuk mengevaluasi algoritma akhir Anda. Untuk memastikan hasil evaluasi yang adil, jangan membocorkan informasi dari kumpulan evaluasi ke dalam algoritme Anda (misalnya dengan melihat sendiri tugas evaluasi selama pengembangan, atau dengan berulang kali memodifikasi algoritme sambil menggunakan skor evaluasinya sebagai umpan balik).Tugas disimpan dalam format JSON. Setiap file JSON tugas berisi kamus dengan dua bidang:
"train"
: demonstrasi pasangan input/output. Ini adalah daftar "pasangan" (biasanya 3 pasang)."test"
: menguji pasangan input/output. Ini adalah daftar "pasangan" (biasanya 1 pasang)."Pasangan" adalah kamus dengan dua bidang:
"input"
: input "grid" untuk pasangan."output"
: keluaran "grid" untuk pasangan.Sebuah "kisi" adalah matriks persegi panjang (daftar daftar) bilangan bulat antara 0 dan 9 (inklusif). Ukuran grid terkecil yang mungkin adalah 1x1 dan yang terbesar adalah 30x30.
Saat melihat tugas, peserta tes memiliki akses ke input & output dari pasangan demonstrasi, ditambah input dari pasangan tes. Tujuannya adalah untuk membangun kisi-kisi keluaran yang sesuai dengan kisi-kisi masukan pengujian, dengan menggunakan 3 percobaan untuk setiap masukan pengujian. "Membangun kisi keluaran" melibatkan pemilihan tinggi dan lebar kisi keluaran, lalu mengisi setiap sel dalam kisi dengan simbol (bilangan bulat antara 0 dan 9, yang divisualisasikan sebagai warna). Hanya solusi eksak (semua sel cocok dengan jawaban yang diharapkan) yang dapat dikatakan benar.
Antarmuka pengujian terletak di apps/testing_interface.html
. Buka di browser web (disarankan Chrome). Ini akan meminta Anda untuk memilih file JSON tugas.
Setelah memuat tugas, Anda akan memasuki ruang tes, yang terlihat seperti ini:
Di sebelah kiri, Anda akan melihat pasangan input/output yang menunjukkan sifat tugas. Di tengah, Anda akan melihat kisi masukan pengujian saat ini. Di sebelah kanan, Anda akan melihat kontrol yang dapat Anda gunakan untuk membuat kisi keluaran yang sesuai.
Anda memiliki akses ke alat-alat berikut:
Saat kisi keluaran Anda sudah siap, klik tombol hijau "Kirim!" tombol untuk memeriksa jawaban Anda. Kami tidak menerapkan aturan 3 percobaan.
Setelah Anda mendapatkan jawaban yang benar untuk kisi masukan pengujian saat ini, Anda dapat beralih ke kisi masukan pengujian berikutnya untuk tugas tersebut menggunakan tombol "Input pengujian berikutnya" (jika tersedia; sebagian besar tugas hanya memiliki satu masukan pengujian) .
Setelah Anda selesai mengerjakan suatu tugas, gunakan tombol "muat tugas" untuk membuka tugas baru.