샌프란시스코 AI 스타트업 Cosine은 소프트웨어 개발자를 위해 설계되었으며 벤치마크 테스트에서 좋은 성능을 발휘하며 경쟁사보다 훨씬 높은 점수를 받는 최신 AI 모델인 Genie를 출시했습니다. Cosine은 OpenAI와의 파트너십을 통해 훈련된 GPT-4o 변형을 활용하고 고유한 "코드화된 인간 추론" 기능을 통해 Genie가 버그 수정, 새로운 기능 개발, 코드 리팩토링을 포함하여 다양한 프로그래밍 작업을 자율적으로 또는 공동으로 완료할 수 있도록 합니다. Genie의 성공은 Cosine의 독특한 데이터 트레이닝 방법과 모델의 자체 개선 메커니즘을 영리하게 사용하는 것과도 불가분의 관계에 있으며, 이는 궁극적으로 SWE-Bench 테스트에서 30%의 선두 점수를 달성했습니다.
샌프란시스코에 본사를 둔 AI 스타트업 Cosine은 소프트웨어 개발자를 지원하도록 설계된 Genie라는 새로운 AI 모델을 출시했습니다. 회사에 따르면 지니는 벤치마크 테스트에서 경쟁사를 압도적으로 압도하며 우월한 성능을 입증했다.
Cosine은 OpenAI와 제휴하여 고품질 데이터를 사용하여 GPT-4o 변형을 훈련하여 인상적인 벤치마크 결과를 달성했습니다. 회사는 Genie의 성공의 열쇠는 소프트웨어 개발의 세계에 국한되지 않는 "인간의 추론을 인코딩하는" 능력이라고 말합니다.
Genie가 SWE를 주도합니다
Cosine 공동 창립자이자 CEO인 Alistair Pullen은 Genie가 SWE-Bench 테스트에서 지금까지 해당 분야 AI 모델 중 가장 높은 점수인 30%의 점수를 달성했다고 밝혔습니다. 이 점수는 Amazon 모델(19%), Cognition의 Devin(일부 SWE-Bench 테스트에서 13.8%) 등 다른 코딩 중심 언어 모델을 능가합니다.
Genie의 아키텍처는 인간 개발자의 인지 프로세스를 시뮬레이션하여 버그를 수정하고, 새로운 기능을 개발하고, 코드를 리팩터링하고, 다양한 프로그래밍 작업을 자율적으로 또는 공동으로 수행할 수 있도록 설계되었습니다.
합성 데이터를 통한 자기 개선
Genie는 수십억 개의 고품질 데이터를 사용하여 비공개 GPT-40 변종을 훈련하고 미세 조정하는 독점 프로세스를 사용하여 개발되었습니다. Cosine은 숙련된 개발자의 도움을 받아 이 데이터를 대조하는 데 거의 1년을 보냈습니다. 데이터 세트에는 JavaScript 및 Python 21%, TypeScript 및 TSX 14%, Java, C++ 및 Ruby를 포함한 기타 언어 3%가 포함되어 있습니다.
Genie의 뛰어난 성과는 부분적으로 자기계발 훈련에 기인합니다. 처음에 모델은 대부분 완벽하고 작동하는 코드를 통해 학습했지만 자체 오류 처리에 대해서는 혼란스러웠습니다. Cosine은 합성 데이터를 사용하여 이 문제를 해결합니다. Genie가 원래 제안한 솔루션이 잘못된 경우 모델은 올바른 결과로 개선하는 방법을 보여줍니다. 반복할 때마다 Genie의 솔루션은 점차적으로 개선되었고 필요한 수정 횟수도 점차 줄어들었습니다.
기술적 한계를 극복하다
Pullen은 이르면 2022년 초에 인간 소프트웨어 개발을 지원하는 대규모 언어 모델의 잠재력을 보았습니다. 하지만 당시의 기술은 아직 지니의 비전을 실현할 수준은 아니었습니다. 컨텍스트 창의 마크 용량은 일반적으로 4000개 마크로 제한되는데, 이는 주요 병목 현상입니다. 현재 Gemini 1.5 Pro와 같은 모델은 단일 프롬프트에서 최대 2백만 개의 마커를 처리할 수 있습니다. Cosine은 Genie의 구체적인 라벨링 역량을 공개하지 않았지만 이러한 기술 발전은 의심할 여지 없이 Genie의 성공을 위한 견고한 기반을 제공합니다.
Genie의 등장은 AI 지원 소프트웨어 개발 분야에서 획기적인 발전을 가져왔습니다. Genie의 효율적인 코딩 기능과 자가 학습 메커니즘은 미래 소프트웨어 개발에 새로운 가능성을 제공합니다. 코사인의 혁신적인 기술은 소프트웨어 개발 효율성을 높이고 개발 비용을 절감하기 위한 새로운 아이디어를 제공하며 업계의 관심과 추가 연구를 받을 가치가 있습니다.