การศึกษาใหม่จาก Harvard Medical School และ Stanford University แสดงให้เห็นว่าระบบปัญญาประดิษฐ์ o1-preview ของ OpenAI ทำงานได้ดีในการวินิจฉัยกรณีทางการแพทย์ที่ซับซ้อน และอาจเหนือกว่าแพทย์ที่เป็นมนุษย์ด้วยซ้ำ การศึกษานี้ทดสอบ o1-preview อย่างครอบคลุม และผลลัพธ์ก็น่าประทับใจ โดยมีทั้งความแม่นยำและความสามารถในการให้เหตุผลทางการแพทย์ มีประสิทธิภาพเหนือกว่ารุ่นก่อนๆ อย่างมาก และเหนือกว่าแพทย์และบุคลากรทางการแพทย์ที่มีประสบการณ์อย่างมาก การวิจัยครั้งนี้เป็นแนวทางใหม่สำหรับการประยุกต์ใช้ปัญญาประดิษฐ์ในสาขาการแพทย์ และยังก่อให้เกิดการอภิปรายในประเด็นด้านจริยธรรมและการปฏิบัติของการประยุกต์ใช้ปัญญาประดิษฐ์ในทางการแพทย์
การศึกษาใหม่ชี้ให้เห็นถึงระบบปัญญาประดิษฐ์ o1-preview ของ OpenAI อาจดีกว่าแพทย์ที่เป็นมนุษย์ในการวินิจฉัยกรณีทางการแพทย์ที่ซับซ้อน ทีมวิจัยจาก Harvard Medical School และ Stanford University ได้ทำการทดสอบวินิจฉัยทางการแพทย์อย่างครอบคลุมใน o1-preview และผลลัพธ์แสดงให้เห็นว่าระบบได้รับการปรับปรุงอย่างมีนัยสำคัญเมื่อเทียบกับเวอร์ชันก่อนหน้า
จากผลการศึกษา o1-preview ได้รับอัตราการวินิจฉัยที่ถูกต้องที่ 78.3% ในทุกกรณีที่ทดสอบ เมื่อเปรียบเทียบกรณีเฉพาะเจาะจง 70 กรณีโดยตรง อัตราการวินิจฉัยที่แม่นยำของระบบสูงถึง 88.6% ซึ่งสูงกว่า GPT-4 รุ่นก่อนที่มี 72.9% อย่างมีนัยสำคัญ ในแง่ของเหตุผลทางการแพทย์ ประสิทธิภาพของ o1-preview ก็น่าประทับใจไม่แพ้กัน ด้วยการใช้มาตราส่วน R-IDEA ซึ่งเป็นมาตรฐานการประเมินคุณภาพการใช้เหตุผลทางการแพทย์ ระบบ AI ได้รับคะแนนเต็ม 78 จาก 80 กรณี ในการเปรียบเทียบ แพทย์ผู้มีประสบการณ์ได้รับคะแนนสมบูรณ์แบบเพียง 28 กรณี และบุคลากรทางการแพทย์ได้รับคะแนนสมบูรณ์เพียง 16 กรณีเท่านั้น
นักวิจัยยังรับทราบว่า o1-preview อาจรวมกรณีทดสอบบางกรณีไว้ในข้อมูลการฝึกอบรมด้วย อย่างไรก็ตาม เมื่อพวกเขาทดสอบระบบกับเคสใหม่ ประสิทธิภาพลดลงเพียงเล็กน้อยเท่านั้น ดร. อดัม ร็อดแมน หนึ่งในผู้เขียนการศึกษา เน้นย้ำว่า แม้ว่านี่จะเป็นการศึกษามาตรฐาน แต่ผลลัพธ์ก็มีนัยสำคัญต่อการปฏิบัติงานทางการแพทย์
o1-preview ทำงานได้ดีเป็นพิเศษเมื่อต้องรับมือกับกรณีการจัดการที่ซับซ้อนซึ่งออกแบบเป็นพิเศษโดยผู้เชี่ยวชาญ 25 คน “มนุษย์ไม่มีพลังเมื่อเผชิญกับปัญหาเหล่านี้ แต่ประสิทธิภาพของ O1 นั้นน่าทึ่งมาก” ร็อดแมนอธิบาย ในกรณีที่ซับซ้อนเหล่านี้ o1-preview ได้คะแนน 86% ในขณะที่แพทย์ที่ใช้ GPT-4 ได้คะแนนเพียง 41% และเครื่องมือแบบเดิมทำได้เพียง 34%
อย่างไรก็ตาม o1-preview ไม่ใช่ว่าไม่มีข้อบกพร่อง ในแง่ของการประเมินความน่าจะเป็น ประสิทธิภาพของระบบไม่ได้ปรับปรุงอย่างมีนัยสำคัญ ตัวอย่างเช่น เมื่อประเมินความเป็นไปได้ของโรคปอดบวม o1-preview ให้ค่าประมาณที่ 70% ซึ่งสูงกว่าช่วงทางวิทยาศาสตร์ที่ 25%-42% มาก นักวิจัยพบว่า o1-preview ทำงานได้ดีกับงานที่ต้องใช้การคิดอย่างมีวิจารณญาณ แต่ขาดความท้าทายเชิงนามธรรม เช่น การประมาณความน่าจะเป็น
นอกจากนี้ o1-preview มักให้คำตอบโดยละเอียด ซึ่งอาจช่วยเพิ่มคะแนนได้ อย่างไรก็ตาม การศึกษามุ่งเน้นไปที่ o1-preview ที่ทำงานเพียงอย่างเดียว และไม่ได้ประเมินผลโดยร่วมมือกับแพทย์ นักวิจารณ์บางคนชี้ให้เห็นว่าการทดสอบวินิจฉัยที่แนะนำโดย o1-preview มักจะมีค่าใช้จ่ายสูงและไม่สามารถใช้งานได้จริง
แม้ว่า OpenAI จะเปิดตัว o1 และ o3 เวอร์ชันใหม่และทำงานได้ดีกับงานอนุมานที่ซับซ้อน แต่โมเดลที่ทรงพลังกว่าเหล่านี้ยังคงล้มเหลวในการแก้ปัญหาการใช้งานจริงและปัญหาด้านต้นทุนที่ได้รับการวิจารณ์จากนักวิจารณ์ Rodman เรียกร้องให้นักวิจัยต้องการวิธีที่ดีกว่าในการประเมินระบบ AI ทางการแพทย์ เพื่อจับความซับซ้อนในการตัดสินใจทางการแพทย์ในชีวิตจริง เขาเน้นย้ำว่าการวิจัยนี้ไม่ได้มีวัตถุประสงค์เพื่อทดแทนแพทย์ และการรักษาทางการแพทย์ที่แท้จริงยังคงต้องอาศัยการมีส่วนร่วมของมนุษย์
บทความ: https://arxiv.org/abs/2412.10849
ไฮไลท์:
o1-preview แซงหน้าแพทย์ในด้านอัตราการวินิจฉัย โดยมีอัตราความแม่นยำถึง 88.6%
ในแง่ของการใช้เหตุผลทางการแพทย์ o1-preview ได้คะแนนสมบูรณ์แบบ 78 คะแนนจาก 80 กรณี ซึ่งเหนือกว่าประสิทธิภาพของแพทย์มาก
แม้จะมีประสิทธิภาพที่ยอดเยี่ยม แต่ค่าใช้จ่ายที่สูงของ o1-preview และคำแนะนำในการทดสอบที่ไม่สมจริงในการใช้งานจริงยังคงต้องได้รับการแก้ไข
โดยรวมแล้ว การศึกษานี้แสดงให้เห็นถึงศักยภาพที่ยอดเยี่ยมของปัญญาประดิษฐ์ในด้านการวินิจฉัยทางการแพทย์ แต่ยังเตือนเราด้วยว่าเราจำเป็นต้องระมัดระวังเกี่ยวกับการประยุกต์ใช้ AI ในทางการแพทย์ และให้ความสนใจกับข้อจำกัดและความเสี่ยงที่อาจเกิดขึ้นด้วย การวิจัยและพัฒนามีความจำเป็นในอนาคตเพื่อให้แน่ใจว่า AI สามารถช่วยเหลืองานทางการแพทย์ได้อย่างปลอดภัยและมีประสิทธิภาพและให้บริการด้านสุขภาพของมนุษย์ได้ดียิ่งขึ้น