أظهرت دراسة جديدة من كلية الطب بجامعة هارفارد وجامعة ستانفورد أن نظام الذكاء الاصطناعي للمعاينة o1 الخاص بـ OpenAI يؤدي أداءً جيدًا في تشخيص الحالات الطبية المعقدة وقد يتفوق حتى على الأطباء البشريين. اختبرت الدراسة بشكل شامل معاينة o1، وكانت النتائج مثيرة للإعجاب، حيث تفوقت الدقة وقدرات الاستدلال الطبي بشكل كبير على النماذج السابقة وتفوقت على الأطباء ذوي الخبرة والمقيمين الطبيين. يوفر هذا البحث اتجاهًا جديدًا لتطبيق الذكاء الاصطناعي في المجال الطبي، ويثير أيضًا مناقشات حول القضايا الأخلاقية والعملية لتطبيق الذكاء الاصطناعي في الممارسة الطبية.
تشير دراسة جديدة إلى أن نظام الذكاء الاصطناعي للمعاينة o1 الخاص بشركة OpenAI قد يكون أفضل من الأطباء البشريين في تشخيص الحالات الطبية المعقدة. وأجرت فرق بحثية من كلية الطب بجامعة هارفارد وجامعة ستانفورد اختبارات تشخيصية طبية شاملة على نظام o1-preview، وأظهرت النتائج أن النظام قد تحسن بشكل ملحوظ مقارنة بالإصدارات السابقة.
وبحسب نتائج الدراسة فقد حققت خدمة o1-preview نسبة تشخيص صحيحة بلغت 78.3% بين جميع الحالات التي تم فحصها. وفي مقارنة مباشرة لـ 70 حالة محددة، وصل معدل التشخيص الدقيق للنظام إلى 88.6%، متجاوزًا بشكل ملحوظ نسبة 72.9% من سابقه GPT-4. ومن حيث المنطق الطبي، فإن أداء o1-preview مثير للإعجاب بنفس القدر. وباستخدام مقياس R-IDEA، وهو معيار لتقييم جودة الاستدلال الطبي، حصل نظام الذكاء الاصطناعي على درجة مثالية تبلغ 78 من أصل 80 حالة. وبالمقارنة، حقق الأطباء ذوو الخبرة درجات مثالية في 28 حالة فقط، وحقق الأطباء المقيمون درجات مثالية في 16 حالة فقط.
ويقر الباحثون أيضًا بأن معاينة o1 ربما تكون قد أدرجت بعض حالات الاختبار في بيانات التدريب. ومع ذلك، عندما اختبروا النظام على حالات جديدة، انخفض الأداء قليلاً فقط. وأكد الدكتور آدم رودمان، أحد مؤلفي الدراسة، أنه على الرغم من أن هذه دراسة مرجعية، إلا أن النتائج لها آثار مهمة على الممارسة الطبية.
كان أداء o1-preview جيدًا بشكل خاص عند التعامل مع حالات الإدارة المعقدة التي صممها خصيصًا 25 خبيرًا. وأوضح رودمان: "البشر عاجزون في مواجهة هذه المشاكل، لكن أداء O1 مذهل". في هذه الحالات المعقدة، حققت o1-preview درجة 86%، بينما حقق الأطباء الذين يستخدمون GPT-4 41% فقط، وحققت الأدوات التقليدية 34% فقط.
ومع ذلك، فإن o1-preview لا يخلو من العيوب. وفيما يتعلق بتقييم الاحتمالات، فإن أداء النظام لم يتحسن بشكل ملحوظ. على سبيل المثال، عند تقييم احتمالية الإصابة بالالتهاب الرئوي، أعطت معاينة o1 تقديراً بنسبة 70%، وهو أعلى بكثير من النطاق العلمي الذي يتراوح بين 25% إلى 42%. وجد الباحثون أن أداء o1-preview كان جيدًا في المهام التي تتطلب تفكيرًا نقديًا، لكنه فشل في التحديات الأكثر تجريدًا، مثل تقدير الاحتمالات.
بالإضافة إلى ذلك، غالبًا ما توفر o1-preview إجابات تفصيلية، مما قد يؤدي إلى تعزيز تصنيفها. ومع ذلك، ركزت الدراسة فقط على معاينة o1 التي تعمل بمفردها ولم تقيم تأثيرها بالتعاون مع الأطباء. يشير بعض النقاد إلى أن الاختبارات التشخيصية التي تقترحها معاينة o1 غالبًا ما تكون مكلفة وغير عملية.
على الرغم من أن OpenAI قد أصدرت إصدارات جديدة من o1 وo3 وأدت أداءً جيدًا في مهام الاستدلال المعقدة، إلا أن هذه النماذج الأكثر قوة لا تزال تفشل في حل مشكلات التطبيق العملي والتكلفة التي أثارها النقاد. ودعا رودمان الباحثين إلى الحاجة إلى طرق أفضل لتقييم أنظمة الذكاء الاصطناعي الطبية لفهم التعقيد في القرارات الطبية الواقعية. وأكد أن هذا البحث ليس المقصود منه أن يحل محل الأطباء، والعلاج الطبي الفعلي لا يزال يتطلب مشاركة الإنسان.
الورقة: https://arxiv.org/abs/2412.10849
تسليط الضوء على:
o1-تفوقت المعاينة على الأطباء في نسبة التشخيص حيث وصلت نسبة الدقة إلى 88.6%.
ومن حيث المنطق الطبي، حقق تطبيق o1-preview 78 درجة مثالية من أصل 80 حالة، وهو ما يتجاوز أداء الأطباء بكثير.
على الرغم من أدائها الممتاز، إلا أن التكلفة العالية لـ o1-preview وتوصيات الاختبار غير الواقعية في التطبيقات العملية لا تزال بحاجة إلى المعالجة.
وبشكل عام، توضح هذه الدراسة الإمكانات الكبيرة للذكاء الاصطناعي في مجال التشخيص الطبي، ولكنها تذكرنا أيضًا أننا بحاجة إلى توخي الحذر بشأن تطبيق الذكاء الاصطناعي في الممارسة الطبية والانتباه إلى حدوده ومخاطره المحتملة هناك حاجة إلى البحث والتحسين في المستقبل للتأكد من أن الذكاء الاصطناعي يمكنه مساعدة العمل الطبي بأمان وفعالية وخدمة صحة الإنسان بشكل أفضل.