Cognition은 권위 있는 테스트 플랫폼 SWE-Bench에서 Devin과 GPT-4를 30.08%의 점수로 제치고 세계에서 가장 강력한 AI 프로그래밍 보조자가 된 놀라운 AI 프로그래머 Genie를 출시했습니다. Downcodes의 편집자는 Genie의 기술적 혁신과 미래 전망에 대한 심층적인 이해를 제공할 것입니다.
AI 스타트업 Cognition은 새로운 AI 프로그래머 "Genie"를 출시했습니다. 그 성능은 놀랍습니다. Devin과 GPT-4를 단숨에 물리치고 세계에서 가장 강력한 AI 프로그래밍 보조자가 되었습니다.
이 AI 프로그래머는 권위 있는 테스트 플랫폼 SWE-Bench에서 30.08%의 높은 점수를 얻었으며, 이는 Devin의 13.8%와 Swe-agent+GPT-4의 12.47%를 훨씬 능가하는 수치입니다.
Genie가 어떻게 이 작업을 수행하는지 궁금하실 수도 있습니다. 빠르면 2022년 12월에 Genie 공동 창립자인 Alistair Pullen이 런던 대학교에서 이 프로젝트를 시연했습니다. 그는 인간처럼 자동으로 코딩하고 디버깅하고 최적화할 수 있는 AI 프로그램을 만들고 싶어합니다. 1년 이상의 개발 끝에 Genie는 마침내 테스트 단계에 진입했고 시드 라운드 파이낸싱에서 250만 달러를 받았습니다.
Alistair는 Genie의 성공이 훈련 데이터 및 방법과 밀접한 관련이 있다고 언급했습니다. 기존의 대규모 모델 미세 조정과 달리 Genie는 인간 프로그래머의 추론 프로세스를 통합하는 특수 데이터 세트를 사용합니다. 데이터는 단계별 지식 발견과 사례 기반 의사결정 과정을 다루고 있어 Genie가 복잡한 문제에 직면했을 때 인간 엔지니어와 유사한 판단을 보여줄 수 있도록 해줍니다.
또한 Genie는 독특한 '자기 개선 메커니즘'도 사용합니다. 처음에는 지니가 고품질의 데이터를 훈련해 '완벽한' 상태에 도달했지만, 그 과정에서 지니는 스스로의 오류를 판단하지 못하고 개선되지 못했다. 이 문제를 극복하기 위해 개발자는 Genie를 사용하여 일부 합성 데이터를 생성하여 교육 콘텐츠를 더욱 풍부하게 만들었습니다. 이는 마치 어머니가 아이에게 넘어질 때마다 걷는 법을 가르치고 올바른 지도를 하는 것과 같습니다.
여러 번의 훈련을 통해 지니의 능력은 크게 향상되었으며, 보이지 않는 문제에 대해서도 창의적인 해결책을 제시할 수 있습니다. 기능적으로 Genie는 JavaScript, Python, Java 등 수십 가지 프로그래밍 언어를 다루는 기능 개발, BUG 복구, 코드 리팩토링, 코드 테스트 등 다양한 개발 작업을 지원합니다.
이제 Genie는 공식 웹사이트를 통해 테스트 사용 신청을 오픈했습니다. 테스트 권한은 앞으로 몇 주 안에 발급될 예정입니다.
공식 블로그: https://cosine.sh/blog/state-of-the-art
체험주소 : https://cosine.sh/register
가장 밝은 부분:
지니는 SWE-Bench 테스트에서 30.08%의 높은 점수를 받아 세계 최강의 AI 프로그래머로 등극했습니다.
특별한 데이터 세트와 자기 개선 메커니즘을 사용하여 Genie는 복잡한 코딩에 탁월합니다.
? 현재 평가판 신청이 열려 있으며 앞으로 더 많은 놀라운 기능이 출시될 예정입니다!
Genie의 등장은 AI 프로그래밍 보조 분야에 새로운 돌파구를 마련했습니다. Genie의 독특한 훈련 방법과 자기 개선 메커니즘은 업계의 주목을 받을 만합니다. Downcodes의 편집자는 Genie가 앞으로 개발자들에게 더 많은 놀라움을 선사할 것을 기대합니다!