이 저장소에는 ARC-AGI 작업 데이터와 인간이 수동으로 작업을 해결해 볼 수 있는 브라우저 기반 인터페이스가 포함되어 있습니다.
"ARC는 일반 인공 지능 벤치마크, 프로그램 합성 벤치마크 또는 심리 측정 지능 테스트로 볼 수 있습니다. 이는 인간과 인간과 유사한 형태의 일반 유동 지능을 모방하는 것을 목표로 하는 인공 지능 시스템을 모두 대상으로 합니다."
데이터 세트, 목표 및 기본 논리에 대한 전체 설명은 지능 측정에서 찾을 수 있습니다.
참고로, 응시자는 처음으로 작업을 볼 때 작업의 모든 테스트 입력에 대해 올바른 출력 그리드를 생성할 수 있을 때 작업을 해결한다고 합니다(여기에는 출력의 크기 선택도 포함됩니다). 그리드). 각 테스트 입력에 대해 응시자에게는 3번의 시도가 허용됩니다(이는 인간이든 AI이든 모든 응시자에게 적용됩니다).
data
디렉터리에는 두 개의 하위 디렉터리가 포함되어 있습니다.
data/training
: 훈련용 작업 파일(400개 작업)이 포함되어 있습니다. 이를 사용하여 알고리즘을 프로토타입하거나 알고리즘을 훈련하여 ARC 관련 인지 사전확률을 획득합니다.data/evaluation
: 평가용 작업 파일(400개 작업)이 포함되어 있습니다. 이를 사용하여 최종 알고리즘을 평가하십시오. 공정한 평가 결과를 보장하려면 평가 세트의 정보를 알고리즘에 유출하지 마십시오(예: 개발 중에 평가 작업을 직접 확인하거나 평가 점수를 피드백으로 사용하면서 알고리즘을 반복적으로 수정하는 등).작업은 JSON 형식으로 저장됩니다. 각 작업 JSON 파일에는 두 개의 필드가 있는 사전이 포함되어 있습니다.
"train"
: 데모 입력/출력 쌍입니다. 이는 "쌍"(일반적으로 3쌍)의 목록입니다."test"
: 입력/출력 쌍을 테스트합니다. "쌍"(일반적으로 1쌍)의 목록입니다."쌍"은 두 개의 필드가 있는 사전입니다.
"input"
: 쌍에 대한 입력 "그리드"입니다."output"
: 쌍의 출력 "그리드"입니다."그리드"는 0에서 9(포함) 사이의 정수로 구성된 직사각형 행렬(목록 목록)입니다. 가능한 가장 작은 격자 크기는 1x1이고 가장 큰 격자 크기는 30x30입니다.
작업을 볼 때 응시자는 데모 쌍의 입력 및 출력과 테스트 쌍의 입력에 액세스할 수 있습니다. 목표는 각 테스트 입력에 대해 3번의 시도를 사용하여 테스트 입력 그리드에 해당하는 출력 그리드를 구성하는 것입니다. "출력 그리드 구성"에는 출력 그리드의 높이와 너비를 선택한 다음 그리드의 각 셀을 기호(색상으로 시각화되는 0에서 9 사이의 정수)로 채우는 작업이 포함됩니다. 정확한 답(모든 셀이 예상 답과 일치함)만이 옳다고 말할 수 있습니다.
테스트 인터페이스는 apps/testing_interface.html
에 있습니다. 웹 브라우저에서 엽니다(Chrome 권장). 작업 JSON 파일을 선택하라는 메시지가 표시됩니다.
작업을 로드한 후 다음과 같은 테스트 공간에 들어가게 됩니다.
왼쪽에는 작업의 성격을 보여주는 입력/출력 쌍이 표시됩니다. 가운데에는 현재 테스트 입력 그리드가 표시됩니다. 오른쪽에는 해당 출력 그리드를 구성하는 데 사용할 수 있는 컨트롤이 표시됩니다.
다음 도구에 액세스할 수 있습니다.
출력 그리드가 준비되면 녹색 "제출!"을 클릭하세요. 버튼을 눌러 답변을 확인하세요. 우리는 3회 시험 규칙을 시행하지 않습니다.
현재 테스트 입력 표에 대한 정답을 얻은 후에는 "다음 테스트 입력" 버튼을 사용하여 작업에 대한 다음 테스트 입력 표로 전환할 수 있습니다(사용 가능한 경우, 대부분의 작업에는 하나의 테스트 입력만 있음). .
작업이 완료되면 "작업 로드" 버튼을 사용하여 새 작업을 엽니다.