Apple ได้โอเพ่นซอร์สโมเดลภาษา DCLM-Baseline-7B จำนวน 7 พันล้านพารามิเตอร์ ซึ่งดึงดูดความสนใจอย่างกว้างขวางในด้านปัญญาประดิษฐ์ โอเพ่นซอร์สของโมเดลนี้ไม่ใช่แค่การเปิดเผยโค้ดเท่านั้น แต่ยังรวมถึงรายละเอียดของกระบวนการทั้งหมดตั้งแต่การประมวลผลข้อมูลล่วงหน้า การฝึกโมเดลไปจนถึงการประเมินผล การมอบทรัพยากรการเรียนรู้และการวิจัยอันทรงคุณค่าสำหรับนักวิจัยและนักพัฒนา สิ่งนี้ไม่เพียงสะท้อนถึงความแข็งแกร่งอันแข็งแกร่งของ Apple ในด้าน AI เท่านั้น แต่ยังเป็นการประกาศทิศทางใหม่สำหรับการพัฒนาโมเดล AI ในอนาคตอีกด้วย DCLM-Baseline-7B ทำงานได้ดีในการทดสอบเกณฑ์มาตรฐานหลายรายการ และมีประสิทธิภาพเทียบเท่ากับโมเดลโอเพนซอร์ซขนาดใหญ่บางรุ่นและกระบวนการฝึกอบรมที่มีประสิทธิภาพก็คุ้มค่ากับการศึกษาเชิงลึกเช่นกัน
ล่าสุด Apple ได้เปิดซอร์สโมเดล DCLM-Baseline-7B ไม่ต้องสงสัยเลยว่าการเคลื่อนไหวนี้จะมีผลกระทบอย่างมากต่อการพัฒนาโมเดลภาษา AI
โอเพ่นซอร์สของโมเดล DCLM-Baseline-7B ไม่เพียงแต่เป็นการเปิดเผยโค้ดเท่านั้น แต่ที่สำคัญกว่านั้น ยังรวมถึงลิงก์ทั้งหมดจากชุดข้อมูลก่อนการฝึกอบรม กระบวนการประมวลผลข้อมูล กระบวนการฝึกอบรม ไปจนถึงส่วนประกอบการประเมินผล ซึ่งหมายความว่านักวิจัยและนักพัฒนาสามารถมีความเข้าใจที่ครอบคลุมและเจาะลึกเกี่ยวกับโมเดลตั้งแต่ต้นจนจบ ทั้งภายในและภายนอก
ในการทดสอบ MMLU นั้น DCLM-Baseline-7B ทำงานได้เทียบเท่ากับ Mistral-7B-v0.3 และ Llama38B ซึ่งพิสูจน์ให้เห็นถึงประสิทธิภาพที่เหนือกว่าในด้านความสามารถในการเข้าใจภาษา ประสิทธิภาพดังกล่าวน่าดึงดูดมากสำหรับโมเดลโอเพ่นซอร์สอย่างไม่ต้องสงสัย
DCLM-Baseline-7B คือโมเดลภาษา Transformer ที่ใช้ตัวถอดรหัส ซึ่งใช้การออกแบบสถาปัตยกรรมขั้นสูง และได้รับการปรับให้เหมาะสมตามเฟรมเวิร์ก PyTorch และ OpenLM สถาปัตยกรรมนี้ทำให้โมเดลมีประสิทธิภาพและแม่นยำยิ่งขึ้นเมื่อประมวลผลงานภาษา
กระบวนการฝึกอบรมของแบบจำลองก็สมควรได้รับความสนใจเช่นกัน ใช้ตัวเพิ่มประสิทธิภาพ AdamW ที่มีอัตราการเรียนรู้สูงสุดที่ 2e-3 น้ำหนักลดลง 0.05 ขนาดแบทช์ของลำดับ 2048 ความยาวลำดับของโทเค็น 2048 และได้รับการฝึกบน H100 GPU รายละเอียดเหล่านี้สะท้อนให้เห็นถึงการแสวงหาความเป็นเลิศของ Apple ในการฝึกฝนโมเดล
การใช้โมเดล DCLM-Baseline-7B จำเป็นต้องมีการติดตั้ง open_lm ก่อน และการสร้างโมเดลผ่านการตั้งค่าโค้ดและพารามิเตอร์เฉพาะ การใช้งานแบบเปิดและยืดหยุ่นนี้ช่วยให้นักพัฒนาสามารถปรับแต่งและเพิ่มประสิทธิภาพโมเดลได้ตามความต้องการของตนเอง
ในงานหลายอย่าง DCLM-Baseline-7B แสดงผลการประเมินที่ยอดเยี่ยม ตัวอย่างเช่น คะแนนในงาน MMLU (ช็อตศูนย์) คือ 0.5766 และคะแนนในงาน MMLU (ไม่กี่ช็อต) คือ 0.6372 ผลลัพธ์เหล่านี้ไม่เพียงแต่แสดงให้เห็นถึงประสิทธิภาพของแบบจำลองเท่านั้น แต่ยังเป็นข้อมูลอ้างอิงที่มีคุณค่าสำหรับการวิจัยในอนาคตอีกด้วย
โอเพ่นซอร์สของ DCLM-Baseline-7B เป็นอีกหนึ่งผลงานที่สำคัญของ Apple ในด้าน AI งานดังกล่าวไม่เพียงแสดงให้เห็นถึงความแข็งแกร่งของ Apple ในด้านเทคโนโลยี AI เท่านั้น แต่ยังเป็นทรัพยากรอันมีค่าสำหรับนักวิจัยและนักพัฒนา AI ทั่วโลกอีกด้วย ด้วยโอเพ่นซอร์สของโมเดลนี้ เราคาดการณ์ได้ว่าแอปพลิเคชันและการวิจัยที่เป็นนวัตกรรมใหม่จะเกิดขึ้นบนพื้นฐานนี้ในอนาคต
ที่อยู่รุ่น: https://huggingface.co/apple/DCLM-7B
โดยสรุปแล้ว โอเพ่นซอร์สของ DCLM-Baseline-7B ถือเป็นก้าวสำคัญในด้าน AI โดยเป็นแรงผลักดันที่แข็งแกร่งในการส่งเสริมการพัฒนาและการประยุกต์ใช้เทคโนโลยี AI เราหวังว่าจะได้เห็นผลลัพธ์ที่เป็นนวัตกรรมมากขึ้นจากโมเดลนี้