تُظهر الأبحاث المشتركة التي أجرتها مؤسسات كبرى مثل جامعة هارفارد وجامعة ستانفورد أن نموذج المعاينة o1 الخاص بـ OpenAI أظهر قدرات مذهلة في مهام الاستدلال الطبي، حتى أنه تجاوز الأطباء البشريين. أجرت هذه الدراسة تقييمًا شاملاً لنموذج معاينة o1، يغطي جوانب متعددة مثل توليد التشخيص التفريقي، وعرض عملية التفكير التشخيصي، والتشخيص التفريقي للفرز، والتفكير الاحتمالي، والتفكير الإداري، ومقارنتها مع الأطباء البشريين واللغة المبكرة واسعة النطاق. نماذج. نتائج البحث ملفتة للنظر، وتحقق اختراقات جديدة في تطبيق الذكاء الاصطناعي في المجال الطبي، كما تشير إلى الطريق لاتجاه التطوير المستقبلي للذكاء الاصطناعي الطبي.
لقد أدى تطبيق الذكاء الاصطناعي في المجال الطبي مرة أخرى إلى تحقيق تقدم كبير! أظهرت دراسة مشتركة أجرتها جامعة هارفارد وجامعة ستانفورد ومؤسسات كبرى أخرى أن نموذج المعاينة o1 الخاص بـ OpenAI أظهر قدرات مذهلة في مهام التفكير الطبي المتعددة، حتى أنه تجاوزها. الأطباء البشر. لم تقم هذه الدراسة بتقييم أداء النموذج في الاختبارات المعيارية الطبية متعددة الاختيارات فحسب، بل ركزت أيضًا على قدراته التشخيصية والإدارية في محاكاة السيناريوهات السريرية الواقعية.
أجرى الباحثون تقييمًا شاملاً لنموذج معاينة o1 من خلال خمس تجارب، بما في ذلك توليد التشخيص التفريقي، وعرض عملية التفكير التشخيصي، والتشخيص التفريقي للفرز، والتفكير الاحتمالي، والتفكير الإداري. تم تقييم التجارب من قبل خبراء طبيين باستخدام أساليب القياس النفسي التي تم التحقق من صحتها وتم تصميمها لمقارنة أداء معاينة o1 مع الضوابط البشرية السابقة ومعايير نموذج اللغة الكبيرة السابقة. تظهر النتائج أن معاينة o1 تحقق تحسينات كبيرة في توليد التشخيص التفريقي وجودة المنطق التشخيصي والإداري.
في تقييم قدرة o1-preview على توليد تشخيصات تفريقية، استخدم الباحثون حالات ندوة علم الأمراض السريرية (CPC) المنشورة في مجلة نيو إنجلاند الطبية (NEJM). وأظهرت النتائج أن التشخيص التفريقي الذي قدمه النموذج شمل التشخيص الصحيح في 78.3% من الحالات، وفي 52% من الحالات كان التشخيص الأول هو التشخيص الصحيح. والأمر الأكثر إثارة للدهشة هو أن معاينة o1 أعطت تشخيصات دقيقة أو قريبة جدًا في 88.6% من الحالات، مقارنة بـ 72.9% من الحالات نفسها لنموذج GPT-4 السابق. بالإضافة إلى ذلك، كان أداء o1-preview جيدًا أيضًا في اختيار الاختبار التشخيصي التالي، واختيار الاختبار الصحيح في 87.5% من الحالات واختيار نظام اختبار اعتبر مفيدًا في 11% من الحالات.
لمزيد من تقييم قدرات الاستدلال السريري لـ o1-preview، استخدم الباحثون 20 حالة سريرية من دورة NEJM Healer. أظهرت النتائج أن أداء o1-preview أفضل بكثير من GPT-4، لدى الأطباء المعالجين والمقيمين في هذه الحالات، حيث حقق درجات R-IDEA مثالية في 78/80 حالة. درجة R-IDEA عبارة عن مقياس مكون من 10 نقاط يستخدم لتقييم جودة توثيق الاستدلال السريري. بالإضافة إلى ذلك، قام الباحثون بتقييم قدرات الإدارة والتشخيص في o1-preview من خلال حالة إدارة "Gray Matters" وحالة التشخيص "Landmark". في حالة "Gray Matters"، سجلت تقنية o1-preview أعلى بكثير من GPT-4، والأطباء الذين يستخدمون GPT-4، والأطباء الذين يستخدمون الموارد التقليدية. في حالة "Landmark"، يعمل o1-preview على قدم المساواة مع GPT-4، ولكنه أفضل من الأطباء الذين يستخدمون GPT-4 أو الموارد التقليدية.
ومع ذلك، وجدت الدراسة أيضًا أن أداء o1-preview في الاستدلال الاحتمالي كان مشابهًا للنموذج السابق، دون تحسن كبير. وفي بعض الحالات، كان النموذج أدنى من البشر في التنبؤ باحتمالات المرض. لاحظ الباحثون أيضًا أن أحد القيود على معاينة o1 هو ميلها إلى أن تكون مطولة، وهو ما قد يكون ساهم في الحصول على نتيجتها في بعض التجارب. بالإضافة إلى ذلك، ركزت هذه الدراسة بشكل أساسي على أداء النموذج ولم تتضمن التفاعل بين الإنسان والحاسوب، لذلك هناك حاجة إلى مزيد من البحث حول كيفية تعزيز معاينة o1 للتفاعل بين الإنسان والحاسوب في المستقبل لتطوير أدوات دعم القرار السريري الأكثر فعالية.
ومع ذلك، تظهر هذه الدراسة أن o1-preview يؤدي أداءً جيدًا في المهام التي تتطلب تفكيرًا نقديًا معقدًا، مثل التشخيص والإدارة. ويؤكد الباحثون أن معايير الاستدلال التشخيصي في المجال الطبي أصبحت مشبعة بسرعة، مما يستلزم تطوير أساليب تقييم أكثر تحديًا وواقعية. إنهم يدعون إلى تجربة هذه التقنيات في بيئات سريرية حقيقية والتحضير للابتكار التعاوني بين الأطباء والذكاء الاصطناعي. بالإضافة إلى ذلك، يجب إنشاء إطار رقابي قوي لمراقبة التنفيذ الواسع النطاق لأنظمة دعم القرار السريري المعتمدة على الذكاء الاصطناعي.
عنوان الورقة: https://www.arxiv.org/pdf/2412.10849
بشكل عام، توفر هذه الدراسة دليلًا قويًا على تطبيق الذكاء الاصطناعي في المجال الطبي وتشير أيضًا إلى اتجاه البحث المستقبلي. يعد الأداء الممتاز لنموذج معاينة o1 أمرًا مثيرًا، ولكن قيوده تتطلب أيضًا دراسة متأنية وضمان سلامته وموثوقيته في التطبيقات السريرية. في المستقبل، سيصبح التعاون بين الإنسان والآلة اتجاهًا مهمًا في المجال الطبي.