Byte Open Source의 새로운 코드 대형 모델 평가 벤치마크 “FullStack Bench”

저자：Eve Cole 업데이트 시간：2024-12-18 11:16:02

ByteDance Doubao 빅 모델 팀은 새로운 코드 빅 모델 평가 벤치마크인 FullStack Bench를 출시했습니다. 이 벤치마크는 11개의 실제 시나리오, 16개의 프로그래밍 언어 및 3374개의 질문을 다루며 이전 평가 표준과 비교하여 FullStack Bench는 더 나은 성능을 발휘할 수 있습니다. 대형 모델의 코드 개발 능력을 정확하게 평가합니다. Stack Overflow의 데이터를 선별하고 AI와 인간이 교차 검증하여 데이터의 신뢰성과 폭을 보장합니다. 동시에 팀은 개발자가 대규모 모델 테스트를 수행할 수 있도록 코드 샌드박스 도구인 SandboxFusion을 오픈 소스로 제공했습니다.

12월 5일, Byte Doubao 대형 모델 팀은 최신 대형 코드 모델 평가 벤치마크인 FullStack Bench를 출시했습니다. FullStack Bench는 11가지 이상의 실제 시나리오를 다루고 16가지 프로그래밍 언어를 지원하며 3374개의 질문을 포함하고 있습니다. 이 벤치마크는 이전 평가 표준보다 더 넓은 범위의 프로그래밍 분야에서 대형 모델의 코드 개발 기능을 더 정확하게 평가할 수 있으며 실제 프로그래밍 작업에서 모델의 최적화를 촉진합니다.

HumanEval 및 MBPP와 같은 현재 주류 코드 평가 벤치마크는 일반적으로 기본 및 고급 프로그래밍 문제에 중점을 두는 반면 DS-1000은 데이터 분석 및 기계 학습 작업에 중점을 두고 Python만 지원합니다. xCodeEval은 고급 프로그래밍 및 수학에 중점을 두고 있으며 대규모 애플리케이션 시나리오 및 언어 적용 범위 제한이 있습니다. 이와 대조적으로 FullStack Bench는 11개 이상의 애플리케이션 영역을 포괄하고 더 복잡하고 다양한 프로그래밍 시나리오를 포괄하여 데이터 범위를 크게 향상시켰습니다.

FullStack Bench 데이터 세트는 세계 최대 프로그래밍 Q&A 플랫폼인 Stack Overflow에서 가져온 것입니다. 연구팀은 500,000개의 질문에서 상위 88.1%의 응용 분야를 선택하여 데이터 세트의 폭과 견고성을 보장했습니다. 각 질문에는 평가 정확성을 보장하기 위한 자세한 문제 설명, 참조 솔루션 및 단위 테스트 사례가 포함되어 있습니다. 또한, AI와 수동 검토를 통해 데이터 품질에 대한 교차 평가를 실시하여 데이터의 신뢰성을 더욱 향상시켰습니다.

개발자가 이 데이터 세트를 쉽게 사용할 수 있도록 Byte Doubao 팀은 코드 샌드박스 도구인 SandboxFusion을 오픈 소스로 제공하여 다국어 프로그래밍 작업의 효율적인 실행을 지원합니다. SandboxFusion은 널리 사용되는 10개 이상의 코드 평가 데이터 세트와 호환되며 23개 프로그래밍 언어를 지원하므로 개발자가 다양한 환경에서 대규모 모델을 쉽게 테스트할 수 있습니다.

또한 Byte Doubao 대형 모델 팀은 자체 개발한 대형 코드 모델인 Doubao-Coder를 처음으로 시연하고 전 세계 20개 이상의 대형 코드 모델의 프로그래밍 기능을 평가했습니다. 특히 자체 개발한 코드 기반 모델인 MarsCode를 통해 AI 프로그래밍 분야에서 Byte의 지속적인 발전은 매달 사용자에게 수백만 개의 코드를 제공하여 이 분야에서 선도적인 위치를 입증하고 있습니다.

데이터 세트 오픈 소스 주소: https://huggingface.co/datasets/ByteDance/FullStackBench

샌드박스 오픈 소스 주소: https://github.com/bytedance/SandboxFusion

논문 주소: https://arxiv.org/pdf/2412.00535v2

FullStack Bench의 출시와 관련 도구의 오픈 소스는 AI 코드 분야에서 ByteDance의 중요한 진전을 나타내며 대규모 코드 모델의 평가 및 개발을 촉진하는 데 중요한 기여를 했습니다. 개발자는 이러한 리소스를 사용하여 자체 모델의 성능을 더욱 향상시키고 AI 코드 기술의 발전을 촉진할 수 있습니다.