ทีมวิจัยจากมหาวิทยาลัยจีนฮ่องกง (เซินเจิ้น) และสถาบันวิจัยข้อมูลขนาดใหญ่ของเซินเจิ้นเพิ่งเปิดตัวรูปแบบภาษาขนาดใหญ่ทางการแพทย์ (LLM) ที่เรียกว่า Huatuogpt-O1 ขั้นตอนสำคัญ ออกแบบมาสำหรับการให้เหตุผลที่ซับซ้อนในสาขาการแพทย์แบบจำลองนี้มีวัตถุประสงค์เพื่อปรับปรุงความแม่นยำและความน่าเชื่อถือของการวินิจฉัยทางการแพทย์และการตัดสินใจ ซึ่งแตกต่างจาก LLM ที่มุ่งเน้นไปที่การใช้เหตุผลทางคณิตศาสตร์ในอดีต Huatuogpt-O1 มุ่งเน้นไปที่สาขาการดูแลทางการแพทย์พิเศษและได้เปิดเส้นทางใหม่สำหรับการพัฒนา AI การแพทย์โดยจำลองกระบวนการคิดอย่างเข้มงวดของแพทย์ในการทำงานจริง
ความท้าทายหลักที่ทีมวิจัยต้องเผชิญในกระบวนการพัฒนาคือกระบวนการให้เหตุผลในสาขาการแพทย์มักจะขาดขั้นตอนที่ชัดเจนและยากที่จะตรวจสอบ เพื่อแก้ปัญหานี้พวกเขาเลือกคำถามที่ยากลำบาก 40,000 ข้อพร้อมคำตอบที่ถูกต้องและเป็นไปตามวัตถุประสงค์จากธนาคารคำถามการตรวจสุขภาพและเปลี่ยนเป็นคำถามปลายเปิดเพื่อสร้างชุดคำถามทางการแพทย์ที่ตรวจสอบได้ คำถามเหล่านี้ไม่เพียง แต่ต้องการแบบจำลองในการดำเนินการให้เหตุผลเชิงลึก แต่ยังตรวจสอบความถูกต้องของกระบวนการอนุมานผ่านคำตอบที่ถูกหรือผิดดังนั้นจึงให้การสนับสนุนข้อมูลที่เชื่อถือได้สำหรับการฝึกอบรมแบบจำลอง
เพื่อปรับปรุงความสามารถในการใช้เหตุผลของโมเดลทีมวิจัยได้ใช้วิธีการฝึกอบรมสองขั้นตอน ในระยะแรกพวกเขาใช้ข้อเสนอแนะการตรวจสอบความถูกต้อง (ถูกต้องหรือผิด) เพื่อเป็นแนวทางในการค้นหาตามนโยบายโดยสร้างวิถีการอนุมานที่ซับซ้อน รุ่นแรกเริ่มต้นห่วงโซ่การคิด (COT) วิถีการใช้เหตุผลที่ประสบความสำเร็จเหล่านี้จะถูกใช้เพื่อปรับแต่ง LLM เพื่อให้ความสามารถในการใช้เหตุผลที่ซับซ้อนของการสะท้อนซ้ำ ในระยะที่สองทีมวิจัยใช้รางวัลเบาบางที่จัดทำโดยผู้ตรวจสอบเพื่อปรับปรุงความสามารถในการใช้เหตุผลที่ซับซ้อนของโมเดลผ่านอัลกอริทึมการเรียนรู้เสริมแรง (RL)
ผลการทดลองแสดงให้เห็นว่าวิธีการฝึกอบรมสองขั้นตอนนี้ได้รับผลลัพธ์ที่สำคัญ ด้วยการใช้คำถามที่ตรวจสอบได้เพียง 40,000 ข้อโมเดลที่มีพารามิเตอร์ 8 พันล้านพารามิเตอร์ประสบความสำเร็จในการเพิ่มเกณฑ์มาตรฐานทางการแพทย์ที่เพิ่มขึ้น 8.5 จุด โมเดลพารามิเตอร์ 70 พันล้านยังเกิน LLM ทั่วไปโอเพ่นซอร์สและการแพทย์เฉพาะในเกณฑ์มาตรฐานทางการแพทย์ ผลลัพธ์เหล่านี้ไม่เพียง แต่ยืนยันประสิทธิภาพของการใช้เหตุผลที่ซับซ้อนในการแก้ปัญหาทางการแพทย์ แต่ยังแสดงให้เห็นถึงบทบาทที่สำคัญของการเรียนรู้การเสริมแรงในการปรับปรุงประสิทธิภาพของแบบจำลอง
Huatuogpt-O1 เป็นนวัตกรรมในการใช้ปัญหาทางการแพทย์ที่ตรวจสอบได้และผู้ตรวจสอบความถูกต้องทางการแพทย์เป็นครั้งแรกเพื่อเพิ่มขีดความสามารถในการใช้เหตุผลด้านการใช้เหตุผลทางการแพทย์ของ LLM ด้วยวิธีการนี้แบบจำลองสามารถคิดอย่างลึกซึ้งเหมือนแพทย์และทำการตรวจสอบตนเองและแก้ไขก่อนที่จะให้คำตอบ สิ่งนี้ไม่เพียง แต่ปรับปรุงศักยภาพการใช้งานของแบบจำลองในสาขาการแพทย์ แต่ยังให้การอ้างอิงสำหรับการปรับปรุงความสามารถในการให้เหตุผลในสาขาวิชาชีพอื่น ๆ
เพื่อตรวจสอบความน่าเชื่อถือของแบบจำลองเพิ่มเติมนักวิจัยใช้ GPT-4O เป็นตัวตรวจสอบและผลการวิจัยพบว่าอัตราความแม่นยำสูงถึง 96.5% ในระยะแรกและ 94.5% ในระยะที่สอง ในเวลาเดียวกันพวกเขายังยืนยันว่าตัวตรวจสอบที่ใช้ LLM นั้นมีความน่าเชื่อถือมากกว่าวิธีการจับคู่ที่แม่นยำแบบดั้งเดิม นอกจากนี้นักวิจัยยังใช้วิธีการในสาขาการแพทย์ของจีนและยังได้ผลลัพธ์ที่น่าทึ่งแสดงให้เห็นถึงความสามารถในการปรับตัวของวิธีการในสาขาต่าง ๆ และสภาพแวดล้อมภาษา
โดยรวมแล้วการเกิดขึ้นของ Huatuogpt-O1 ถือเป็นความก้าวหน้าที่สำคัญในการแพทย์ AI ในการใช้เหตุผลที่ซับซ้อน ไม่เพียง แต่ให้เครื่องมือที่เชื่อถือได้มากขึ้นสำหรับการวินิจฉัยทางการแพทย์และการตัดสินใจ แต่ยังให้แนวคิดใหม่สำหรับการประยุกต์ใช้ AI ในอนาคตในสาขาวิชาชีพอื่น ๆ แม้ว่าแบบจำลองจะยังอยู่ในขั้นตอนการวิจัยและไม่สามารถนำไปใช้โดยตรงกับการปฏิบัติทางคลินิก แต่ศักยภาพขนาดใหญ่ของมันได้ดึงดูดความสนใจอย่างกว้างขวางและคาดว่าจะมีบทบาทมากขึ้นในสาขาการแพทย์ในอนาคต
ที่อยู่กระดาษ: https://arxiv.org/pdf/2412.18925