このリポジトリには、ARC-AGI タスク データと、人間が手動でタスクを解決するためのブラウザ ベースのインターフェイスが含まれています。
「ARC は、一般的な人工知能のベンチマーク、プログラム合成ベンチマーク、または心理測定的知能テストとして見ることができます。ARC は人間と、人間に似た形式の一般的な流動性知能をエミュレートすることを目的とした人工知能システムの両方を対象としています。」
データセット、その目標、およびその基礎となるロジックの完全な説明は、「知性の尺度について」を参照してください。
念のために言っておきますが、受験者は、初めてタスクを見たときに、タスク内のすべてのテスト入力に対して正しい出力グリッドを生成できたときに、そのタスクを解決したと言われます (これには、出力の次元の選択が含まれます)。グリッド)。テスト入力ごとに、受験者は 3 回の試行が許可されます (これは人間または AI のすべての受験者に当てはまります)。
data
ディレクトリには 2 つのサブディレクトリが含まれています。
data/training
: トレーニング用のタスク ファイル (400 タスク) が含まれています。これらを使用して、アルゴリズムのプロトタイプを作成したり、ARC 関連の認知事前分布を取得するようにアルゴリズムをトレーニングしたりできます。data/evaluation
: 評価用のタスク ファイル (400 タスク) が含まれます。これらを使用して、最終的なアルゴリズムを評価します。公正な評価結果を保証するために、評価セットからアルゴリズムに情報を漏洩しないでください (たとえば、開発中に自分で評価タスクを調べたり、評価スコアをフィードバックとして使用しながらアルゴリズムを繰り返し変更したりすることによって)。タスクは JSON 形式で保存されます。各タスク JSON ファイルには、次の 2 つのフィールドを含むディクショナリが含まれています。
"train"
: デモ用の入力/出力ペア。これは「ペア」(通常は 3 ペア)のリストです。"test"
: 入力/出力ペアをテストします。 「ペア」(通常は 1 ペア)のリストです。「ペア」は、次の 2 つのフィールドを持つ辞書です。
"input"
: ペアの入力「グリッド」。"output"
: ペアの出力「グリッド」。「グリッド」は、0 ~ 9 (両端の値を含む) の整数からなる長方形の行列 (リストのリスト) です。可能な最小のグリッド サイズは 1x1、最大は 30x30 です。
タスクを見るとき、受験者はデモンストレーション ペアの入力と出力に加えて、テスト ペアの入力にアクセスできます。目標は、各テスト入力に対して 3 回の試行を使用して、テスト入力グリッドに対応する出力グリッドを構築することです。 「出力グリッドの構築」には、出力グリッドの高さと幅を選択し、グリッド内の各セルをシンボル (色として表示される 0 ~ 9 の整数) で埋めることが含まれます。正確な解 (すべてのセルが予想される答えと一致する) のみが正しいと言えます。
テスト インターフェイスはapps/testing_interface.html
にあります。 Web ブラウザで開きます (Chrome を推奨)。タスクの JSON ファイルを選択するように求められます。
タスクをロードした後、次のようなテスト スペースに入ります。
左側には、タスクの性質を示す入力/出力のペアが表示されます。中央に、現在のテスト入力グリッドが表示されます。右側には、対応する出力グリッドを構築するために使用できるコントロールが表示されます。
次のツールにアクセスできます。
出力グリッドの準備ができたら、緑色の「送信!」をクリックします。ボタンを押して答えを確認してください。 3 試行ルールは強制しません。
現在のテスト入力グリッドの正しい答えが得られたら、[次のテスト入力] ボタンを使用してタスクの次のテスト入力グリッドに切り替えることができます (使用可能なテスト入力がある場合。ほとんどのタスクにはテスト入力が 1 つだけあります)。 。
タスクが完了したら、「タスクのロード」ボタンを使用して新しいタスクを開きます。