ทีมวิจัยจากมหาวิทยาลัยปักกิ่งและมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกงประสบความสำเร็จอย่างน่าทึ่ง พวกเขาได้พัฒนาวิธีการฝึกอบรมที่เป็นนวัตกรรม และประสบความสำเร็จในการปรับปรุงประสิทธิภาพของแบบจำลองผู้เชี่ยวชาญทางการแพทย์ขนาด 8B ให้เป็นระดับ GPT-4 งานวิจัยนี้ไม่เพียงแนะนำแนวคิดใหม่เกี่ยวกับ "ช่องว่างด้านเสถียรภาพ" เพื่ออธิบายปรากฏการณ์ความผันผวนของประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ในระหว่างการฝึกอบรมล่วงหน้าอย่างต่อเนื่อง แต่ที่สำคัญกว่านั้น พวกเขาเสนอกลยุทธ์ที่มีประสิทธิภาพสามประการในการแก้ปัญหานี้ และเปิดแหล่งที่มา โมเดล Llama-3-Physician-8B นำความก้าวหน้าครั้งยิ่งใหญ่มาสู่แวดวง AI ทางการแพทย์ ประสิทธิภาพของโมเดลในงานตอบคำถามทางการแพทย์ยังเหนือกว่าโมเดลโอเพ่นซอร์สที่มีขนาดเท่ากัน และใกล้เคียงกับระดับ GPT-4 ซึ่งบ่งบอกถึงศักยภาพที่ยอดเยี่ยมของ AI ทางการแพทย์
ประการแรก พวกเขาพบว่าในระหว่างกระบวนการฝึกอบรมล่วงหน้าอย่างต่อเนื่อง ประสิทธิภาพของแบบจำลองในโดเมนเป้าหมายจะลดลงก่อนแล้วจึงเพิ่มขึ้น ซึ่งน่าตื่นเต้นพอๆ กับรถไฟเหาะ เพื่อแก้ไขปัญหานี้ พวกเขาเสนอกลยุทธ์สามประการ ประการแรกคือดำเนินการฝึกอบรมล่วงหน้าหลายรอบกับชุดข้อมูลย่อยที่มีขนาดเหมาะสม ซึ่งสามารถคืนประสิทธิภาพได้เร็วกว่าการฝึกอบรมล่วงหน้าชุดข้อมูลขนาดใหญ่รอบเดียว ประการที่สองคือการเลือกคลังข้อมูลย่อยที่มีคุณภาพสูงสุดสำหรับการฝึกล่วงหน้าหลายรอบ สุดท้ายนี้ การผสมข้อมูลเพื่อประมาณการกระจายข้อมูลที่ได้รับการฝึกอบรมล่วงหน้าจะทำให้แบบจำลองมีเสถียรภาพมากขึ้น
กลยุทธ์เหล่านี้ได้รับผลลัพธ์ที่น่าทึ่งในการฝึกอบรมล่วงหน้าอย่างต่อเนื่องและการปรับคำแนะนำในสาขาการแพทย์อย่างละเอียด ปรับปรุงผลลัพธ์และลดปริมาณการคำนวณ ยิ่งไปกว่านั้น รุ่นโอเพ่นซอร์ส Llama-3-Physician-8B มีวางจำหน่ายแล้วบน HuggingFace
ความสำคัญของการวิจัยนี้มีมากกว่านั้น พวกเขายังพบว่าด้วยกลยุทธ์เหล่านี้ โมเดล OpenLLaMa จำเป็นต้องได้รับการฝึกอบรมเกี่ยวกับข้อมูลคุณภาพสูง 5 พันล้านข้อมูลใน 4 ยุคเท่านั้น เพื่อให้เหนือกว่าพื้นฐานทั้งหมดในงานทางการแพทย์อย่างมีนัยสำคัญ ซึ่งไม่เพียงปรับปรุงประสิทธิภาพเท่านั้น แต่ยังช่วยลดการใช้ทรัพยากรการประมวลผลลงอย่างมากอีกด้วย
สิ่งที่น่าประทับใจยิ่งกว่าคือประสิทธิภาพของแบบจำลอง Llama-3-Physician-8B-inturct ในงานตอบคำถามทางการแพทย์ไม่เพียงแต่ดีกว่ารุ่นโอเพ่นซอร์สอื่นๆ ในขนาดเดียวกันเท่านั้น แต่ยังเหนือกว่ารุ่น GPT-3.5 แบบโอเพ่นซอร์สอีกด้วย ใกล้เคียงกับระดับ GPT-4 นี่เป็นเพียงการปฏิวัติในด้านการแพทย์
การวิจัยนี้ไม่เพียงแต่ให้วิธีการฝึกอบรมใหม่แก่เราเท่านั้น แต่ยังช่วยให้เรามองเห็นศักยภาพมหาศาลของแบบจำลองภาษาขนาดใหญ่ในสาขาการแพทย์อีกด้วย ด้วยการฝึกอบรมล่วงหน้าและการปรับแต่งคำแนะนำอย่างต่อเนื่อง เราจึงสามารถทำให้แบบจำลองได้รับประสิทธิภาพที่สูงขึ้นในสาขาเฉพาะในขณะที่ลดต้นทุนการคำนวณ ไม่ต้องสงสัยเลยว่านี่จะเป็นประโยชน์อย่างมากต่ออุตสาหกรรมการแพทย์
การศึกษานี้ยังเตือนเราว่าการฝึกอบรมโมเดลภาษาขนาดใหญ่ไม่ได้เกิดขึ้นได้ในชั่วข้ามคืน แต่ต้องมีการปรับให้เหมาะสมและปรับเปลี่ยนอย่างต่อเนื่อง การนำแนวคิด "ช่องว่างด้านเสถียรภาพ" มาใช้ทำให้เราเข้าใจและแก้ไขปัญหาในการฝึกโมเดลได้ดีขึ้น ส่งผลให้โมเดลมีบทบาทมากขึ้นในสาขาเฉพาะ นี่ไม่ใช่แค่ความก้าวหน้าทางเทคโนโลยีเท่านั้น แต่ยังเป็นข้อมูลเชิงลึกที่ลึกซึ้งเกี่ยวกับอุตสาหกรรมการแพทย์อีกด้วย
ลิงค์กระดาษ: https://arxiv.org/abs/2406.14833
ที่อยู่โอเพ่นซอร์ส: https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct
ผลการวิจัยครั้งนี้ชี้ให้เห็นถึงทิศทางการพัฒนาด้าน AI ทางการแพทย์ และยังมอบประสบการณ์อันทรงคุณค่าในการฝึกโมเดลด้านอื่นๆ ในอนาคต ด้วยความก้าวหน้าทางเทคโนโลยีอย่างต่อเนื่อง เราคาดหวังได้ว่าการประยุกต์ใช้แบบจำลองภาษาขนาดใหญ่ในสาขาการแพทย์จะครอบคลุมและเจาะลึกมากขึ้น ซึ่งส่งผลต่อสุขภาพของมนุษย์มากขึ้น