ByteDance Doubao Big Model Team lançou um novo benchmark de avaliação de grande modelo de código - FullStack Bench. Este benchmark cobre 11 cenários da vida real, 16 linguagens de programação e 3374 questões em comparação com os padrões de avaliação anteriores, FullStack Bench pode ter um desempenho melhor abrangente e muito mais. avaliação precisa das capacidades de desenvolvimento de código para modelos grandes. Ele filtra dados do Stack Overflow e é validado cruzadamente por IA e humanos para garantir a confiabilidade e amplitude dos dados. Ao mesmo tempo, a equipe também abriu o código-fonte da ferramenta de sandbox de código SandboxFusion para facilitar aos desenvolvedores a realização de testes de grandes modelos.
Em 5 de dezembro, a equipe de modelos grandes da Byte Doubao lançou o mais recente benchmark de avaliação de modelos de código grande - FullStack Bench, que cobre mais de 11 tipos de cenários reais, suporta 16 linguagens de programação e contém 3.374 perguntas. Este benchmark pode avaliar com mais precisão as capacidades de desenvolvimento de código de grandes modelos em uma ampla gama de campos de programação do que os padrões de avaliação anteriores e promove a otimização de modelos em tarefas de programação do mundo real.
Os atuais benchmarks de avaliação de código convencionais, como HumanEval e MBPP, geralmente se concentram em problemas de programação básicos e avançados, enquanto o DS-1000 se concentra em análise de dados e tarefas de aprendizado de máquina e oferece suporte apenas a Python. xCodeEval concentra-se em programação e matemática avançadas e possui grandes cenários de aplicação e limitações de cobertura de linguagem. Em contraste, o FullStack Bench melhorou significativamente a cobertura de dados, cobrindo mais de 11 áreas de aplicação e abrangendo cenários de programação mais complexos e diversos.
O conjunto de dados do FullStack Bench vem do Stack Overflow, a maior plataforma de perguntas e respostas de programação do mundo. A equipe de pesquisa selecionou 88,1% dos principais campos de aplicação de 500.000 perguntas, garantindo a amplitude e robustez do conjunto de dados. Cada pergunta inclui uma descrição detalhada do problema, soluções de referência e casos de teste unitários para garantir a precisão da avaliação. A equipe também realizou uma avaliação cruzada da qualidade dos dados por meio de IA e revisão manual para melhorar ainda mais a confiabilidade dos dados.
Para facilitar o uso desse conjunto de dados pelos desenvolvedores, a equipe da Byte Doubao também abriu o código-fonte da ferramenta sandbox de código SandboxFusion para oferecer suporte à execução eficiente de tarefas de programação multilíngue. SandboxFusion é compatível com mais de 10 conjuntos de dados de avaliação de código amplamente utilizados e suporta 23 linguagens de programação, ajudando os desenvolvedores a testar facilmente grandes modelos em diferentes ambientes.
Além disso, a equipe de modelos grandes da Byte Doubao também demonstrou pela primeira vez seu modelo de código grande autodesenvolvido - Doubao-Coder, e avaliou as capacidades de programação de mais de 20 modelos de código grandes em todo o mundo. O progresso contínuo da Byte no campo da programação de IA, especialmente por meio de seu modelo de base de código autodesenvolvido MarsCode, contribui com milhões de códigos para os usuários todos os meses, demonstrando sua posição de liderança neste campo.
Endereço de código aberto do conjunto de dados: https://huggingface.co/datasets/ByteDance/FullStackBench
Endereço de código aberto do sandbox: https://github.com/bytedance/SandboxFusion
Endereço do artigo: https://arxiv.org/pdf/2412.00535v2
O lançamento do FullStack Bench e do código aberto de ferramentas relacionadas marcam o progresso significativo da ByteDance no campo do código de IA e fizeram contribuições importantes para promover a avaliação e o desenvolvimento de grandes modelos de código. Os desenvolvedores podem usar esses recursos para melhorar melhor o desempenho de seus próprios modelos e promover o avanço da tecnologia de código de IA.