該儲存庫包含 ARC-AGI 任務數據,以及一個基於瀏覽器的介面,供人們嘗試手動解決任務。
“ARC 可以被視為通用人工智慧基準、程序綜合基準或心理智力測試。它針對人類和人工智慧系統,旨在模擬類人形式的通用流體智慧。”
資料集、其目標及其底層邏輯的完整描述可以在:關於智力的測量中找到。
提醒一下,當考生第一次看到任務時,他們能夠為任務中的所有測驗輸入產生正確的輸出網格(這包括選擇輸出的維度),則稱他們解決了任務網格)。對於每個測試輸入,考生可以進行 3 次試驗(這適用於所有考生,無論是人類還是人工智慧)。
data
目錄包含兩個子目錄:
data/training
:包含訓練任務文件(400 個任務)。使用它們來建立您的演算法原型或訓練您的演算法以獲得與 ARC 相關的認知先驗。data/evaluation
:包含用於評估的任務文件(400 個任務)。使用它們來評估您的最終演算法。為了確保評估結果公平,請勿將評估集中的資訊洩漏到您的演算法中(例如,在開發過程中親自查看評估任務,或在使用其評估分數作為回饋的同時重複修改演算法)。任務以 JSON 格式儲存。每個任務 JSON 檔案都包含一個包含兩個欄位的字典:
"train"
:示範輸入/輸出對。它是一個“對”列表(通常是 3 對)。"test"
:測試輸入/輸出對。它是一個“對”列表(通常是一對)。「對」是一個具有兩個字段的字典:
"input"
:該對的輸入“網格”。"output"
:該對的輸出“網格”。「網格」是由 0 到 9(含)之間的整數組成的矩形矩陣(列表的列表)。最小可能的網格尺寸為 1x1,最大網格尺寸為 30x30。
在查看任務時,考生可以存取演示對的輸入和輸出,以及測試對的輸入。目標是建立與測試輸入網格相對應的輸出網格,對每個測試輸入使用 3 次試驗。 「建立輸出網格」涉及選擇輸出網格的高度和寬度,然後用符號(0 到 9 之間的整數,視覺化為顏色)填充網格中的每個單元。只有精確解(所有單元格都符合預期答案)才可以說是正確的。
測試介面位於apps/testing_interface.html
。在網頁瀏覽器中開啟它(建議使用 Chrome)。它將提示您選擇任務 JSON 檔案。
載入任務後,您將進入測試空間,如下所示:
在左側,您將看到展示任務性質的輸入/輸出對。在中間,您將看到目前的測試輸入網格。在右側,您將看到可用於建立對應輸出網格的控制項。
您可以使用以下工具:
當您的輸出網格準備就緒時,請點擊綠色的“提交!”按鈕來檢查您的答案。我們不執行 3 次試驗規則。
獲得當前測試輸入網格的正確答案後,您可以使用「下一個測試輸入」按鈕切換到任務的下一個測試輸入網格(如果有可用的;大多數任務只有一個測試輸入) 。
完成任務後,使用「載入任務」按鈕開啟新任務。