Новый тест оценки больших моделей кода Byte Open Source «FullStack Bench»

Автор：Eve Cole Время обновления：2024-12-18 11:16:02

Команда ByteDance Doubao Big Model выпустила новый тест для оценки больших моделей кода — FullStack Bench. Этот тест охватывает 11 реальных сценариев, 16 языков программирования и 3374 вопроса. По сравнению с предыдущими стандартами оценки FullStack Bench может работать лучше. точная оценка возможностей разработки кода для больших моделей. Он проверяет данные из Stack Overflow и проходит перекрестную проверку ИИ и людей, чтобы гарантировать надежность и полноту данных. В то же время команда также открыла исходный код инструмента песочницы кода SandboxFusion, чтобы помочь разработчикам проводить тестирование больших моделей.

5 декабря команда крупных моделей Byte Doubao запустила новейший тест оценки модели большого кода — FullStack Bench, который охватывает более 11 типов реальных сценариев, поддерживает 16 языков программирования и содержит 3374 вопроса. Этот тест позволяет более точно оценить возможности разработки кода больших моделей в более широком диапазоне областей программирования, чем предыдущие стандарты оценки, и способствует оптимизации моделей для решения реальных задач программирования.

Текущие основные тесты оценки кода, такие как HumanEval и MBPP, обычно фокусируются на базовых и сложных задачах программирования, тогда как DS-1000 фокусируется на анализе данных и задачах машинного обучения и поддерживает только Python. xCodeEval ориентирован на расширенное программирование и математику и имеет большие сценарии применения и ограничения языкового охвата. Напротив, FullStack Bench значительно расширил охват данных, охватывая более 11 областей приложений и охватывая более сложные и разнообразные сценарии программирования.

Набор данных FullStack Bench получен из Stack Overflow, крупнейшей в мире платформы вопросов и ответов по программированию. Исследовательская группа выбрала 88,1% лучших областей применения из 500 000 вопросов, обеспечив широту и надежность набора данных. Каждый вопрос включает подробное описание проблемы, эталонные решения и примеры модульного тестирования для обеспечения точности оценки. Команда также провела перекрестную оценку качества данных с помощью искусственного интеллекта и ручной проверки для дальнейшего повышения надежности данных.

Чтобы облегчить разработчикам использование этого набора данных, команда Byte Doubao также открыла исходный код инструмента песочницы кода SandboxFusion для поддержки эффективного выполнения задач многоязычного программирования. SandboxFusion совместим с более чем 10 широко используемыми наборами данных для оценки кода и поддерживает 23 языка программирования, помогая разработчикам легко тестировать большие модели в различных средах.

Кроме того, команда больших моделей Byte Doubao также впервые продемонстрировала свою собственную модель большого кода — Doubao-Coder и оценила возможности программирования более чем 20 моделей большого кода по всему миру. Постоянный прогресс компании Byte в области программирования искусственного интеллекта, особенно благодаря собственной разработанной базовой модели кода MarsCode, ежемесячно предоставляет пользователям миллионы кодов, демонстрируя свою лидирующую позицию в этой области.

Адрес открытого исходного кода набора данных: https://huggingface.co/datasets/ByteDance/FullStackBench.

Адрес песочницы с открытым исходным кодом: https://github.com/bytedance/SandboxFusion

Адрес статьи: https://arxiv.org/pdf/2412.00535v2.

Выпуск FullStack Bench и открытый исходный код связанных с ним инструментов отмечают значительный прогресс ByteDance в области кода искусственного интеллекта и вносят важный вклад в продвижение оценки и разработки больших моделей кода. Разработчики могут использовать эти ресурсы для повышения производительности своих моделей и содействия развитию технологии кода искусственного интеллекта.