Nous Research กำลังดำเนินการทดลองที่ก้าวล้ำ: การใช้เครื่องจักรที่กระจายอยู่ทั่วโลกเพื่อฝึกโมเดลภาษาขนาดใหญ่ (LLM) พารามิเตอร์ 1.5 พันล้านพารามิเตอร์ การทดลองนี้จะล้มล้างโมเดลการฝึกอบรมแบบรวมศูนย์แบบเดิม หลีกเลี่ยงศูนย์ข้อมูลที่มีราคาแพงและสิ้นเปลืองพลังงาน และเผยแพร่กระบวนการฝึกอบรมแบบเรียลไทม์ผ่านทางเว็บไซต์ distro.nousresearch.com ซึ่งสาธิตประสิทธิภาพของโมเดลและแผนที่ตำแหน่งของฮาร์ดแวร์ การเคลื่อนไหวนี้ไม่เพียงแต่ช่วยลดต้นทุนการฝึกอบรมเท่านั้น แต่ที่สำคัญกว่านั้น คาดว่าจะช่วยลดอุปสรรคในการเข้าสู่โมเดลภาษาขนาดใหญ่ ช่วยให้ทีมขนาดเล็กและบุคคลมีส่วนร่วมในการวิจัยและพัฒนา generative AI ได้มากขึ้น
ในด้านการพัฒนาอย่างรวดเร็วของ generative AI ทีมวิจัย Nous กำลังดำเนินการทดลองที่ไม่เหมือนใคร: พวกเขากำลังใช้เครื่องจักรที่กระจายอยู่ทั่วโลกเพื่อฝึกอบรมโมเดลภาษาขนาดใหญ่ (LLM) พารามิเตอร์ 1.5 พันล้านพารามิเตอร์ล่วงหน้า ซึ่งเป็นกระบวนการที่หลีกเลี่ยงรูปแบบภาษาแบบดั้งเดิมที่ต้องรวมศูนย์ การพัฒนาในศูนย์ข้อมูลหรือซูเปอร์คลัสเตอร์ที่มีราคาแพงและต้องการพลังงาน
นอกจากนี้ Nous Research ยังถ่ายทอดสดกระบวนการก่อนการฝึกอบรมบนเว็บไซต์ distro.nousresearch.com โดยเฉพาะ ซึ่งแสดงประสิทธิภาพของแบบจำลองบนเกณฑ์การประเมินต่างๆ ในแบบเรียลไทม์ และจัดทำแผนที่ตำแหน่งของฮาร์ดแวร์ที่เข้าร่วมการฝึกอบรม ซึ่งครอบคลุมสถานที่หลายแห่งใน สหรัฐอเมริกาและยุโรป ตามที่เผยแพร่บทความนี้ เวลาที่เหลือสำหรับการฝึกอบรมล่วงหน้าคือประมาณ 57 ชั่วโมง (เช่น 2.3 วัน) และความคืบหน้าในการฝึกอบรมมากกว่า 75% เสร็จสิ้นแล้ว
การฝึกอบรมล่วงหน้าเป็นขั้นตอนแรกและขั้นพื้นฐานที่สุดในการฝึกอบรม LLM ซึ่งเกี่ยวข้องกับการฝึกอบรมข้อมูลข้อความจำนวนมากเพื่อเรียนรู้คุณสมบัติทางสถิติและโครงสร้างของภาษา ในขั้นตอนนี้ โมเดลจะจับรูปแบบของภาษา ไวยากรณ์ และความสัมพันธ์ตามบริบทระหว่างคำต่างๆ โดยการประมวลผลชุดข้อมูลข้อความที่ครอบคลุม กระบวนการนี้ทำให้โมเดลมีความเข้าใจภาษาในวงกว้าง มีความสามารถในการสร้างข้อความที่สอดคล้องกัน และทำงานที่เกี่ยวข้องกับภาษาได้หลากหลาย หลังจากการฝึกอบรมล่วงหน้าแล้ว โมเดลยังต้องได้รับการปรับแต่งอย่างละเอียดสำหรับงานหรือโดเมนเฉพาะอีกด้วย
หากแผนนี้ประสบความสำเร็จ Nous Research จะพิสูจน์ว่า LLM ที่ล้ำสมัยยังคงสามารถฝึกอบรมได้โดยไม่ต้องใช้ซูเปอร์คลัสเตอร์ที่มีราคาแพงหรือการส่งข้อมูลที่มีความหน่วงต่ำ ซึ่งถือเป็นยุคใหม่ของการฝึกอบรม AI แบบกระจาย วิธีการฝึกอบรมแบบโอเพ่นซอร์สนี้สามารถเปลี่ยนไดนามิกของพลังของ AI ทั่วไป ทำให้ทีมขนาดเล็กและนักแสดงที่ไม่ใช่องค์กรสามารถแข่งขันได้มากขึ้นในพื้นที่นี้
เทคโนโลยีใหม่ที่ใช้โดย Nous เรียกว่า Nous DisTrO (Distributed Training Over-the-Internet) ซึ่งได้รับการออกแบบมาเพื่อลดความต้องการแบนด์วิธการสื่อสารระหว่าง GPU ในระหว่างกระบวนการก่อนการฝึกอบรม ตามรายงานล่าสุดจาก Nous Research พบว่า DisTrO สามารถลดความต้องการด้านการสื่อสารได้สูงสุดถึง 10,000 เท่า ทำให้สามารถรักษาอัตราการบรรจบกันที่แข่งขันได้และเส้นโค้งการสูญเสียผ่านการเชื่อมต่ออินเทอร์เน็ตที่ช้ากว่าและราคาไม่แพงกว่า
นอกจากนี้ ความก้าวหน้าหลักของ DisTrO คือการบีบอัดปริมาณข้อมูลที่แลกเปลี่ยนระหว่าง GPU อย่างมีประสิทธิภาพ โดยไม่ส่งผลกระทบต่อประสิทธิภาพของโมเดล เทคโนโลยีนี้สร้างขึ้นจากอัลกอริธึมการเพิ่มประสิทธิภาพโมเมนตัมแยกส่วน (DeMo) ก่อนหน้านี้ ซึ่งมีจุดมุ่งหมายเพื่อลดข้อกำหนดในการสื่อสารระหว่าง GPU ลงอย่างมาก ในขณะที่ยังคงรักษาประสิทธิภาพการฝึกอบรมไว้
ในแง่ของฮาร์ดแวร์ กระบวนการฝึกอบรมก่อนการฝึกอบรมของ Nous Research ได้รับการสนับสนุนจากพันธมิตรที่มีชื่อเสียงมากมาย เช่น Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud และ Andromeda Cluster ซึ่งร่วมกันจัดหาฮาร์ดแวร์ที่ต่างกันที่จำเป็นเพื่อทดสอบ DisTrO อย่างเต็มที่ในการเผยแพร่จริง ระบบความสามารถในสภาพแวดล้อม
ทางเข้าบล็อก: https://nousresearch.com/
การทดลองโดย Nous Research นี้ไม่เพียงแต่สร้างความก้าวหน้าทางเทคโนโลยีเท่านั้น แต่ที่สำคัญกว่านั้น ยังมอบแนวคิดและความเป็นไปได้ใหม่ๆ ให้กับนักวิจัย AI ทั่วโลก ซึ่งถือเป็นการประกาศการเปลี่ยนแปลงในรูปแบบการฝึกอบรม AI ในอนาคต อาจมีโครงการฝึกอบรมแบบกระจายที่คล้ายกันมากขึ้น ซึ่งช่วยลดเกณฑ์การเข้าสู่เทคโนโลยี AI และส่งเสริมการพัฒนาที่แข็งแกร่งของสาขา AI