حقق فريق بحث من جامعة بكين وجامعة هونغ كونغ للعلوم والتكنولوجيا تقدمًا ملفتًا للنظر، حيث طوروا طريقة تدريب مبتكرة ونجحوا في تحسين أداء نموذج خبير طبي بحجم 8B إلى مستوى GPT-4. لا يقتصر هذا البحث على تقديم مفهوم جديد هو "فجوة الاستقرار" لتفسير ظاهرة تقلبات أداء النماذج اللغوية الكبيرة أثناء التدريب المسبق المستمر، بل الأهم من ذلك أنه يقترح ثلاث استراتيجيات فعالة لحل هذه المشكلة، والمصادر المفتوحة نموذج Llama-3-Physician-8B، يحقق تقدمًا ثوريًا في مجال الذكاء الاصطناعي الطبي. ويتفوق أداء النموذج في مهام الإجابة على الأسئلة الطبية على النماذج مفتوحة المصدر من نفس الحجم ويقترب من مستوى GPT-4، مما يشير إلى الإمكانات الكبيرة للذكاء الاصطناعي الطبي.
أولاً، وجدوا أنه خلال عملية التدريب المسبق المستمرة، سينخفض أداء النموذج في المجال المستهدف أولاً ثم يزداد، وهو أمر مثير مثل السفينة الدوارة. ولحل هذه المشكلة، اقترحوا ثلاث استراتيجيات. الأول هو إجراء جولات متعددة من التدريب المسبق على مجموعات فرعية ذات حجم مناسب من البيانات، والتي يمكنها استعادة الأداء بشكل أسرع من جولة واحدة من التدريب المسبق على مجموعة بيانات كبيرة. والثاني هو اختيار المجموعة الفرعية الأعلى جودة لجولات متعددة من التدريب المسبق. وأخيرًا، فإن خلط البيانات لتقريب توزيع البيانات المدربة مسبقًا يمكن أن يجعل النموذج أكثر استقرارًا.
وقد حققت هذه الاستراتيجيات نتائج ملحوظة في التدريب المسبق المستمر وضبط التعليمات في المجال الطبي، وتحسين التأثير وتقليل كمية العمليات الحسابية. علاوة على ذلك، فإن نموذج Llama-3-Physician-8B مفتوح المصدر متاح بالفعل على HuggingFace.
وأهمية هذا البحث تتجاوز ذلك. ووجدوا أيضًا أنه باستخدام هذه الاستراتيجيات، يحتاج نموذج OpenLLaMa فقط إلى التدريب على 5 مليارات بيانات عالية الجودة لمدة 4 حقب ليتجاوز بشكل كبير جميع الخطوط الأساسية في المهام الطبية. وهذا لا يؤدي إلى تحسين الأداء فحسب، بل يقلل أيضًا من استهلاك موارد الحوسبة بشكل كبير.
والأمر الأكثر إثارة للإعجاب هو أن أداء نموذج Llama-3-Physician-8B-insturct في مهام الإجابة على الأسئلة الطبية ليس أفضل من النماذج الأخرى مفتوحة المصدر من نفس الحجم فحسب، بل إنه يفوق نموذج GPT-3.5 مغلق المصدر وهو كذلك. قريب من مستوى GPT-4. هذه ببساطة ثورة في المجال الطبي.
لا يوفر لنا هذا البحث طريقة تدريب جديدة فحسب، بل يسمح لنا أيضًا برؤية الإمكانات الهائلة لنماذج اللغات الكبيرة في المجال الطبي. ومن خلال التدريب المسبق المستمر والضبط الدقيق للتعليمات، يمكننا أن نجعل النموذج يحقق أداءً أعلى في مجالات محددة مع تقليل التكاليف الحسابية. وهذا بلا شك نعمة كبيرة للصناعة الطبية.
تذكرنا هذه الدراسة أيضًا أن تدريب نماذج اللغة الكبيرة لا يتم بين عشية وضحاها، ولكنه يتطلب التحسين والتعديل المستمر. من خلال تقديم مفهوم "فجوة الاستقرار"، يمكننا فهم المشكلات وحلها بشكل أفضل في التدريب النموذجي، مما يسمح للنموذج بلعب دور أكبر في مجالات محددة. وهذا ليس طفرة تكنولوجية فحسب، بل هو أيضًا نظرة عميقة للصناعة الطبية.
رابط الورقة: https://arxiv.org/abs/2406.14833
عنوان مفتوح المصدر: https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct
تشير نتيجة البحث هذه إلى الاتجاه لتطوير مجال الذكاء الاصطناعي الطبي وتوفر أيضًا خبرة قيمة للتدريب النموذجي في مجالات أخرى. في المستقبل، مع التقدم التكنولوجي المستمر، يمكننا أن نتوقع أن يكون تطبيق نماذج اللغة الكبيرة في المجال الطبي أكثر شمولاً وعمقًا، مما يقدم مساهمات أكبر لصحة الإنسان.