เกณฑ์มาตรฐานการประเมินโค้ดขนาดใหญ่ใหม่ของ Byte Open Source “FullStack Bench”

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-18 11:16:02

ByteDance Doubao Big Model Team ได้เปิดตัวเกณฑ์มาตรฐานการประเมินโมเดลขนาดใหญ่ใหม่ - FullStack Bench เกณฑ์มาตรฐานนี้ครอบคลุม 11 สถานการณ์ในชีวิตจริง 16 ภาษาการเขียนโปรแกรม และ 3374 คำถาม เมื่อเทียบกับมาตรฐานการประเมินก่อนหน้านี้ FullStack Bench สามารถทำงานได้ดีกว่า ครอบคลุมและอื่น ๆ การประเมินความสามารถในการพัฒนาโค้ดสำหรับโมเดลขนาดใหญ่อย่างแม่นยำ โดยจะคัดกรองข้อมูลจาก Stack Overflow และได้รับการตรวจสอบข้ามโดย AI และมนุษย์ เพื่อให้มั่นใจในความน่าเชื่อถือและความกว้างของข้อมูล ในเวลาเดียวกัน ทีมงานยังได้เปิดซอร์สโค้ดแซนด์บ็อกซ์เครื่องมือ SandboxFusion เพื่ออำนวยความสะดวกให้นักพัฒนาดำเนินการทดสอบโมเดลขนาดใหญ่

เมื่อวันที่ 5 ธันวาคม ทีมโมเดลขนาดใหญ่ Byte Doubao ได้เปิดตัวเกณฑ์มาตรฐานการประเมินโมเดลโค้ดขนาดใหญ่ล่าสุด - FullStack Bench ซึ่งครอบคลุมสถานการณ์จริงมากกว่า 11 ประเภท รองรับภาษาการเขียนโปรแกรม 16 ภาษา และมีคำถาม 3,374 ข้อ เกณฑ์มาตรฐานนี้สามารถประเมินความสามารถในการพัฒนาโค้ดของโมเดลขนาดใหญ่ในสาขาการเขียนโปรแกรมที่หลากหลายได้แม่นยำมากขึ้นกว่ามาตรฐานการประเมินก่อนหน้านี้ และส่งเสริมการปรับโมเดลให้เหมาะสมในงานการเขียนโปรแกรมในโลกแห่งความเป็นจริง

มาตรฐานการประเมินโค้ดกระแสหลักในปัจจุบัน เช่น HumanEval และ MBPP มักจะมุ่งเน้นไปที่ปัญหาการเขียนโปรแกรมขั้นพื้นฐานและขั้นสูง ในขณะที่ DS-1000 มุ่งเน้นไปที่การวิเคราะห์ข้อมูลและงานการเรียนรู้ของเครื่อง และรองรับเฉพาะ Python เท่านั้น xCodeEval มุ่งเน้นไปที่การเขียนโปรแกรมขั้นสูงและคณิตศาสตร์ และมีสถานการณ์การใช้งานขนาดใหญ่และข้อจำกัดด้านภาษา ในทางตรงกันข้าม FullStack Bench ได้เพิ่มความครอบคลุมของข้อมูลอย่างมีนัยสำคัญ ครอบคลุมพื้นที่การใช้งานมากกว่า 11 ด้าน และครอบคลุมสถานการณ์การเขียนโปรแกรมที่ซับซ้อนและหลากหลายมากขึ้น

ชุดข้อมูล FullStack Bench มาจาก Stack Overflow ซึ่งเป็นแพลตฟอร์มถามตอบด้านการเขียนโปรแกรมที่ใหญ่ที่สุดในโลก ทีมวิจัยได้เลือกสาขาแอปพลิเคชัน 88.1% อันดับแรกจากคำถาม 500,000 ข้อ เพื่อให้มั่นใจถึงความครอบคลุมและความทนทานของชุดข้อมูล คำถามแต่ละข้อประกอบด้วยคำอธิบายปัญหาโดยละเอียด วิธีแก้ไขอ้างอิง และกรณีทดสอบหน่วยเพื่อให้มั่นใจในความถูกต้องของการประเมิน ทีมงานยังได้ดำเนินการประเมินคุณภาพข้อมูลข้ามผ่าน AI และการตรวจสอบด้วยตนเองเพื่อปรับปรุงความน่าเชื่อถือของข้อมูลให้ดียิ่งขึ้น

เพื่ออำนวยความสะดวกให้กับนักพัฒนาในการใช้ชุดข้อมูลนี้ ทีมงาน Byte Doubao ยังได้เปิดซอร์สโค้ดแซนด์บ็อกซ์เครื่องมือ SandboxFusion เพื่อรองรับการดำเนินงานการเขียนโปรแกรมหลายภาษาอย่างมีประสิทธิภาพ SandboxFusion เข้ากันได้กับชุดข้อมูลการประเมินโค้ดที่ใช้กันอย่างแพร่หลายมากกว่า 10 ชุด และรองรับภาษาการเขียนโปรแกรม 23 ภาษา ช่วยให้นักพัฒนาทดสอบโมเดลขนาดใหญ่ในสภาพแวดล้อมที่แตกต่างกันได้อย่างง่ายดาย

นอกจากนี้ ทีมโมเดลขนาดใหญ่ของ Byte Doubao ยังได้สาธิตโมเดลโค้ดขนาดใหญ่ที่พัฒนาขึ้นเองอย่าง Doubao-Coder เป็นครั้งแรก และประเมินความสามารถในการเขียนโปรแกรมของโมเดลโค้ดขนาดใหญ่มากกว่า 20 โมเดลทั่วโลก ความก้าวหน้าอย่างต่อเนื่องของ Byte ในด้านการเขียนโปรแกรม AI โดยเฉพาะอย่างยิ่งผ่านโมเดลโค้ดพื้นฐานที่พัฒนาขึ้นเอง MarsCode นั้น ได้สร้างโค้ดหลายล้านโค้ดให้กับผู้ใช้ทุกเดือน ซึ่งแสดงให้เห็นถึงความเป็นผู้นำในสาขานี้

ที่อยู่โอเพ่นซอร์สชุดข้อมูล: https://huggingface.co/datasets/ByteDance/FullStackBench

ที่อยู่โอเพ่นซอร์ส Sandbox: https://github.com/bytedance/SandboxFusion

ที่อยู่กระดาษ: https://arxiv.org/pdf/2412.00535v2

การเปิดตัว FullStack Bench และโอเพ่นซอร์สของเครื่องมือที่เกี่ยวข้องถือเป็นความก้าวหน้าที่สำคัญของ ByteDance ในด้านโค้ด AI และมีส่วนสำคัญในการส่งเสริมการประเมินและพัฒนาโมเดลโค้ดขนาดใหญ่ นักพัฒนาสามารถใช้ทรัพยากรเหล่านี้เพื่อปรับปรุงประสิทธิภาพของโมเดลของตนเองได้ดียิ่งขึ้น และส่งเสริมความก้าวหน้าของเทคโนโลยีโค้ด AI