Tim Model Besar ByteDance Doubao telah merilis tolok ukur evaluasi model besar kode baru - FullStack Bench. Tolok ukur ini mencakup 11 skenario kehidupan nyata, 16 bahasa pemrograman, dan 3374 pertanyaan Dibandingkan dengan standar evaluasi sebelumnya, FullStack Bench dapat berkinerja lebih baik dan Komprehensif penilaian akurat atas kemampuan pengembangan kode untuk model besar. Ini menyaring data dari Stack Overflow dan divalidasi silang oleh AI dan manusia untuk memastikan keandalan dan keluasan data. Pada saat yang sama, tim juga membuka sumber kode alat sandbox SandboxFusion untuk memfasilitasi pengembang melakukan pengujian model besar.
Pada tanggal 5 Desember, tim model besar Byte Doubao meluncurkan tolok ukur evaluasi model kode besar terbaru - FullStack Bench, yang mencakup lebih dari 11 jenis skenario nyata, mendukung 16 bahasa pemrograman, dan berisi 3374 pertanyaan. Tolok ukur ini dapat mengevaluasi kemampuan pengembangan kode model besar secara lebih akurat di bidang pemrograman yang lebih luas dibandingkan standar evaluasi sebelumnya, dan mendorong optimalisasi model dalam tugas pemrograman dunia nyata.
Tolok ukur evaluasi kode arus utama saat ini, seperti HumanEval dan MBPP, biasanya berfokus pada masalah pemrograman dasar dan lanjutan, sedangkan DS-1000 berfokus pada analisis data dan tugas pembelajaran mesin, dan hanya mendukung Python. xCodeEval berfokus pada pemrograman dan matematika tingkat lanjut, serta memiliki skenario aplikasi yang besar dan batasan cakupan bahasa. Sebaliknya, FullStack Bench telah meningkatkan cakupan data secara signifikan, mencakup lebih dari 11 area aplikasi dan mencakup skenario pemrograman yang lebih kompleks dan beragam.
Kumpulan data FullStack Bench berasal dari Stack Overflow, platform tanya jawab pemrograman terbesar di dunia. Tim peneliti memilih 88,1% bidang aplikasi teratas dari 500.000 pertanyaan, memastikan keluasan dan kekokohan kumpulan data. Setiap pertanyaan mencakup deskripsi masalah terperinci, solusi referensi, dan kasus uji unit untuk memastikan keakuratan penilaian. Tim juga melakukan penilaian silang terhadap kualitas data melalui AI dan tinjauan manual untuk lebih meningkatkan keandalan data.
Untuk memfasilitasi pengembang dalam menggunakan kumpulan data ini, tim Byte Doubao juga telah membuat alat sandbox kode SandboxFusion menjadi sumber terbuka untuk mendukung pelaksanaan tugas pemrograman multi-bahasa secara efisien. SandboxFusion kompatibel dengan lebih dari 10 kumpulan data evaluasi kode yang banyak digunakan dan mendukung 23 bahasa pemrograman, membantu pengembang dengan mudah menguji model besar di lingkungan berbeda.
Selain itu, tim model besar Byte Doubao juga mendemonstrasikan model kode besar yang dikembangkan sendiri - Doubao-Coder untuk pertama kalinya, dan mengevaluasi kemampuan pemrograman lebih dari 20 model kode besar di seluruh dunia. Kemajuan berkelanjutan Byte di bidang pemrograman AI, terutama melalui model basis kode MarsCode yang dikembangkan sendiri, menyumbangkan jutaan kode kepada pengguna setiap bulannya, menunjukkan posisi terdepannya dalam bidang ini.
Alamat sumber terbuka kumpulan data: https://huggingface.co/datasets/ByteDance/FullStackBench
Alamat sumber terbuka Sandbox: https://github.com/bytedance/SandboxFusion
Alamat makalah: https://arxiv.org/pdf/2412.00535v2
Peluncuran FullStack Bench dan alat terkait open source menandai kemajuan signifikan ByteDance di bidang kode AI dan telah memberikan kontribusi penting dalam mendorong evaluasi dan pengembangan model kode besar. Pengembang dapat menggunakan sumber daya ini untuk lebih meningkatkan kinerja model mereka dan mendorong kemajuan teknologi kode AI.