การวิจัยร่วมกันโดยสถาบันชั้นนำ เช่น มหาวิทยาลัยฮาร์วาร์ด และมหาวิทยาลัยสแตนฟอร์ด แสดงให้เห็นว่าโมเดลตัวอย่าง o1 ของ OpenAI ได้แสดงให้เห็นถึงความสามารถที่น่าทึ่งในงานการให้เหตุผลทางการแพทย์ แม้กระทั่งเหนือกว่าแพทย์ที่เป็นมนุษย์ก็ตาม การศึกษานี้ดำเนินการประเมินแบบครอบคลุมของแบบจำลอง o1-preview ครอบคลุมหลายแง่มุม เช่น การสร้างการวินิจฉัยแยกโรค การแสดงกระบวนการให้เหตุผลในการวินิจฉัย การวินิจฉัยแยกโรคแบบแยกส่วน การให้เหตุผลความน่าจะเป็น และการให้เหตุผลเชิงการจัดการ และเปรียบเทียบกับแพทย์ที่เป็นมนุษย์และภาษาขนาดใหญ่ในยุคแรก ๆ โมเดล ผลการวิจัยเป็นที่สะดุดตา โดยนำมาซึ่งความก้าวหน้าใหม่ๆ ในการประยุกต์ใช้ปัญญาประดิษฐ์ในสาขาการแพทย์ และยังชี้ทางไปสู่ทิศทางการพัฒนาปัญญาประดิษฐ์ทางการแพทย์ในอนาคต
การประยุกต์ใช้ปัญญาประดิษฐ์ในสาขาการแพทย์ทำให้เกิดความก้าวหน้าครั้งสำคัญอีกครั้ง การศึกษาที่มหาวิทยาลัยฮาร์วาร์ด มหาวิทยาลัยสแตนฟอร์ด และสถาบันชั้นนำอื่นๆ ร่วมกันแสดงให้เห็นว่าโมเดลตัวอย่าง o1 ของ OpenAI แสดงให้เห็นถึงความสามารถที่น่าทึ่งในงานการให้เหตุผลทางการแพทย์หลายประการ ยิ่งกว่านั้นอีก แพทย์ที่เป็นมนุษย์ การศึกษานี้ไม่เพียงแต่ประเมินประสิทธิภาพของแบบจำลองในการทดสอบเกณฑ์มาตรฐานทางการแพทย์แบบปรนัยเท่านั้น แต่ยังมุ่งเน้นไปที่ความสามารถในการวินิจฉัยและการจัดการในสถานการณ์จำลองทางคลินิกในชีวิตจริงอีกด้วย
นักวิจัยได้ทำการประเมินโมเดล o1-preview อย่างครอบคลุมผ่านการทดลอง 5 ครั้ง ซึ่งรวมถึงการสร้างการวินิจฉัยแยกโรค การแสดงกระบวนการให้เหตุผลในการวินิจฉัย การวินิจฉัยแยกโรคจากการแยกส่วน การให้เหตุผลเชิงความน่าจะเป็น และการให้เหตุผลด้านการจัดการ การทดลองได้รับการประเมินโดยผู้เชี่ยวชาญทางการแพทย์โดยใช้วิธีไซโครเมทริกที่ได้รับการตรวจสอบ และได้รับการออกแบบเพื่อเปรียบเทียบประสิทธิภาพของ o1-preview กับการควบคุมโดยมนุษย์ก่อนหน้านี้และเกณฑ์มาตรฐานแบบจำลองภาษาขนาดใหญ่ก่อนหน้านี้ ผลลัพธ์แสดงให้เห็นว่า o1-preview บรรลุการปรับปรุงที่สำคัญในการสร้างการวินิจฉัยแยกโรคและคุณภาพของการใช้เหตุผลในการวินิจฉัยและการจัดการ
ในการประเมินความสามารถของ o1-preview ในการสร้างการวินิจฉัยแยกโรค นักวิจัยได้ใช้กรณี Clinical Pathology Colloquium (CPC) ที่ตีพิมพ์ใน New England Journal of Medicine (NEJM) ผลการวิจัยพบว่า การวินิจฉัยแยกโรคที่ได้รับจากแบบจำลองประกอบด้วยการวินิจฉัยที่ถูกต้องร้อยละ 78.3 ของกรณี และร้อยละ 52 ของกรณี การวินิจฉัยครั้งแรกเป็นการวินิจฉัยที่ถูกต้อง ที่โดดเด่นกว่านั้นคือ o1-preview ให้การวินิจฉัยที่แม่นยำหรือใกล้เคียงมากในกรณี 88.6% เทียบกับ 72.9% ของกรณีเดียวกันสำหรับรุ่น GPT-4 รุ่นก่อนหน้า นอกจากนี้ o1-preview ยังทำงานได้ดีในการเลือกการทดสอบวินิจฉัยครั้งต่อไป โดยเลือกการทดสอบที่ถูกต้องใน 87.5% ของกรณี และเลือกวิธีการทดสอบที่ถือว่ามีประโยชน์ใน 11% ของกรณี
เพื่อประเมินความสามารถในการให้เหตุผลทางคลินิกของ o1-preview เพิ่มเติม นักวิจัยได้ใช้กรณีทางคลินิก 20 กรณีจากหลักสูตร NEJM Healer ผลลัพธ์แสดงให้เห็นว่า o1-preview ทำงานได้ดีกว่า GPT-4 อย่างมีนัยสำคัญ ทั้งแพทย์ที่เข้ารับการรักษา และผู้อยู่อาศัยในกรณีเหล่านี้ โดยได้คะแนน R-IDEA ที่สมบูรณ์แบบในกรณี 78/80 คะแนน R-IDEA เป็นระดับ 10 คะแนนที่ใช้ในการประเมินคุณภาพของเอกสารประกอบการให้เหตุผลทางคลินิก นอกจากนี้ นักวิจัยได้ประเมินความสามารถในการจัดการและการใช้เหตุผลในการวินิจฉัยของ o1-preview ผ่านทางกรณีการจัดการ "Grey Matters" และกรณีการวินิจฉัย "Landmark" ในกรณี "Grey Matters" o1-preview ได้คะแนนสูงกว่า GPT-4 อย่างมีนัยสำคัญ แพทย์ที่ใช้ GPT-4 และแพทย์ที่ใช้ทรัพยากรแบบดั้งเดิม ในกรณี "Landmark" o1-preview ทำงานได้เทียบเท่ากับ GPT-4 แต่ดีกว่าแพทย์ที่ใช้ GPT-4 หรือแหล่งข้อมูลแบบดั้งเดิม
อย่างไรก็ตาม การศึกษายังพบว่าประสิทธิภาพของ o1-preview ในการให้เหตุผลเชิงความน่าจะเป็นมีความคล้ายคลึงกับโมเดลก่อนหน้านี้ โดยไม่มีการปรับปรุงอย่างมีนัยสำคัญ ในบางกรณี แบบจำลองนี้ด้อยกว่ามนุษย์ในการทำนายความน่าจะเป็นของโรค นักวิจัยยังตั้งข้อสังเกตอีกว่าข้อจำกัดของ o1-preview คือแนวโน้มที่จะละเอียด ซึ่งอาจส่งผลต่อคะแนนในการทดลองบางอย่าง นอกจากนี้ การศึกษานี้มุ่งเน้นไปที่ประสิทธิภาพของแบบจำลองเป็นหลัก และไม่เกี่ยวข้องกับการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ ดังนั้นการวิจัยเพิ่มเติมเกี่ยวกับวิธีการที่ o1-preview ช่วยเพิ่มปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์จึงมีความจำเป็นในอนาคตเพื่อพัฒนาเครื่องมือสนับสนุนการตัดสินใจทางคลินิกที่มีประสิทธิภาพมากขึ้น
อย่างไรก็ตาม การศึกษานี้แสดงให้เห็นว่า o1-preview ทำงานได้ดีในงานที่ต้องใช้การคิดเชิงวิพากษ์ที่ซับซ้อน เช่น การวินิจฉัยและการจัดการ นักวิจัยเน้นย้ำว่าเกณฑ์มาตรฐานการใช้เหตุผลในการวินิจฉัยในสาขาการแพทย์กำลังอิ่มตัวอย่างรวดเร็ว ทำให้จำเป็นต้องพัฒนาวิธีการประเมินที่ท้าทายและสมจริงมากขึ้น พวกเขาเรียกร้องให้มีการทดลองเทคโนโลยีเหล่านี้ในสภาพแวดล้อมทางคลินิกจริง และเตรียมความพร้อมสำหรับนวัตกรรมการทำงานร่วมกันระหว่างแพทย์และปัญญาประดิษฐ์ นอกจากนี้ จำเป็นต้องมีการกำหนดกรอบการกำกับดูแลที่แข็งแกร่งเพื่อติดตามการใช้งานระบบสนับสนุนการตัดสินใจทางคลินิกของ AI อย่างแพร่หลาย
ที่อยู่กระดาษ: https://www.arxiv.org/pdf/2412.10849
โดยรวมแล้ว การศึกษาครั้งนี้ถือเป็นหลักฐานที่ชัดเจนสำหรับการประยุกต์ใช้ปัญญาประดิษฐ์ในสาขาการแพทย์ และยังชี้ให้เห็นทิศทางของการวิจัยในอนาคตอีกด้วย ประสิทธิภาพที่ยอดเยี่ยมของโมเดลตัวอย่าง o1 นั้นน่าตื่นเต้น แต่ข้อจำกัดของโมเดลยังต้องอาศัยการพิจารณาอย่างรอบคอบ และรับรองความปลอดภัยและความน่าเชื่อถือในการใช้งานทางคลินิก ในอนาคต การทำงานร่วมกันระหว่างมนุษย์และเครื่องจักรจะกลายเป็นกระแสสำคัญในวงการการแพทย์