该存储库包含 ARC-AGI 任务数据,以及一个基于浏览器的界面,供人们尝试手动解决任务。
“ARC 可以被视为通用人工智能基准、程序综合基准或心理智力测试。它针对人类和人工智能系统,旨在模拟类人形式的通用流体智能。”
数据集、其目标及其底层逻辑的完整描述可以在:关于智力的测量中找到。
提醒一下,当考生第一次看到任务时,他们能够为任务中的所有测试输入生成正确的输出网格(这包括选择输出的维度),则称他们解决了任务网格)。对于每个测试输入,考生可以进行 3 次试验(这适用于所有考生,无论是人类还是人工智能)。
data
目录包含两个子目录:
data/training
:包含训练任务文件(400 个任务)。使用它们来构建您的算法原型或训练您的算法以获得与 ARC 相关的认知先验。data/evaluation
:包含用于评估的任务文件(400 个任务)。使用它们来评估您的最终算法。为了确保评估结果公平,请勿将评估集中的信息泄漏到您的算法中(例如,在开发过程中亲自查看评估任务,或者在使用其评估分数作为反馈的同时重复修改算法)。任务以 JSON 格式存储。每个任务 JSON 文件都包含一个包含两个字段的字典:
"train"
:演示输入/输出对。它是一个“对”列表(通常是 3 对)。"test"
:测试输入/输出对。它是一个“对”列表(通常是一对)。“对”是一个具有两个字段的字典:
"input"
:该对的输入“网格”。"output"
:该对的输出“网格”。“网格”是由 0 到 9(含)之间的整数组成的矩形矩阵(列表的列表)。最小可能的网格尺寸为 1x1,最大网格尺寸为 30x30。
在查看任务时,考生可以访问演示对的输入和输出,以及测试对的输入。目标是构建与测试输入网格相对应的输出网格,对每个测试输入使用 3 次试验。 “构建输出网格”涉及选择输出网格的高度和宽度,然后用符号(0 到 9 之间的整数,可视化为颜色)填充网格中的每个单元格。只有精确解(所有单元格都符合预期答案)才可以说是正确的。
测试接口位于apps/testing_interface.html
。在网络浏览器中打开它(推荐使用 Chrome)。它将提示您选择任务 JSON 文件。
加载任务后,您将进入测试空间,如下所示:
在左侧,您将看到展示任务性质的输入/输出对。在中间,您将看到当前的测试输入网格。在右侧,您将看到可用于构建相应输出网格的控件。
您可以使用以下工具:
当您的输出网格准备就绪时,单击绿色的“提交!”按钮来检查您的答案。我们不执行 3 次试验规则。
获得当前测试输入网格的正确答案后,您可以使用“下一个测试输入”按钮切换到任务的下一个测试输入网格(如果有可用的;大多数任务只有一个测试输入) 。
完成任务后,使用“加载任务”按钮打开新任务。