هل لا يزال الباحثون العلميون قلقين بشأن مراجعة الأدبيات وكتابة الأوراق البحثية؟ قد يتمكن OpenScholar الذي قدمه فريق AI2 من حل مشكلتك! تحتوي هذه الأداة القوية لكفاءة البحث العلمي على 450 مليون ورقة بحثية مفتوحة الوصول و237 مليون فقرة من فقرات المقالات، ويمكنها التعامل بكفاءة مع مشكلات البحث العلمي المختلفة وتعزيز آلية الاستدلال من خلال استرجاع الملاحظات الذاتية الفريدة لتحسين الإجابات بشكل مستمر حتى ترضي احتياجاتك. إن OpenScholar ليس قويًا فحسب، بل يمكن استخدامه أيضًا لتدريب نماذج أكثر كفاءة، فقد تفوق على الخبراء البشريين في اختبار SCHOLARQABENCH، مما يدل على إمكاناته الهائلة في مجال البحث العلمي.
هل تبقى مستيقظًا لمراجعة الأدبيات؟ هل تتساءل وتكتب ورقة بحثية؟ لا داعي للذعر! خبراء البحث العلمي في AI2 موجودون هنا لينقذوك بأحدث تحفة OpenScholar! كما المشي في الحديقة!
أكبر سلاح سري لـ OpenScholar هو نظام يسمى OpenScholar-Datastore (OSDS) الذي يحتوي على 450 مليون ورقة بحثية مفتوحة الوصول و237 مليون فقرة مقالة مضمنة. بفضل هذه القاعدة المعرفية القوية، يستطيع OpenScholar التعامل مع مشكلات البحث العلمي المختلفة بسهولة.
عندما تواجه مشكلة بحث علمي، سيرسل OpenScholar أولاً أدواته القوية - الباحث وإعادة الترتيب، لتصفية فقرات المقالة المتعلقة بمشكلتك من OSDS بسرعة. بعد ذلك، يحتوي نموذج اللغة (LM) على الإجابة الكاملة للمرجع. والأمر الأكثر قوة هو أن OpenScholar سيستمر في تحسين الإجابات بناءً على تعليقاتك باللغة الطبيعية واستكمال المعلومات المفقودة حتى تشعر بالرضا.
لا يعد OpenScholar قويًا في حد ذاته فحسب، بل يمكنه أيضًا المساعدة في تدريب نماذج أصغر حجمًا وأكثر كفاءة. استخدم الباحثون عملية OpenScholar لتوليد كميات هائلة من بيانات التدريب عالية الجودة، واستخدموا هذه البيانات لتدريب نموذج لغة معلمة مكون من 8 مليارات يسمى OpenScholar-8B، بالإضافة إلى نماذج استرجاع أخرى.
من أجل اختبار الفعالية القتالية لـ OpenScholar بشكل شامل، أنشأ الباحثون أيضًا ساحة اختبار جديدة خصيصًا تسمى SCHOLARQABENCH. يتم إعداد مجموعة متنوعة من مهام مراجعة الأدبيات العلمية في هذا المجال، بما في ذلك التصنيف المغلق، والاختيار من متعدد، والتوليد الطويل، الذي يغطي مجالات متعددة مثل علوم الكمبيوتر، والطب الحيوي، والفيزياء، وعلم الأعصاب. من أجل ضمان نزاهة وعدالة المنافسة، تستخدم SCHOLARQABENCH أيضًا أساليب تقييم متعددة الأوجه، بما في ذلك مراجعة الخبراء والمؤشرات التلقائية واختبار تجربة المستخدم.
بعد جولات عديدة من المنافسة الشرسة، برزت النتائج التجريبية أخيرًا! عمل مراجعة الأدبيات، مع التركيز على استكشاف أسرار العلم!
تستفيد الوظائف القوية لبرنامج OpenScholar بشكل أساسي من آلية الاستدلال المعززة الفريدة لاسترجاع الملاحظات الذاتية. لتبسيط الأمر، سوف يطرح على نفسه أولاً أسئلة، ثم يقوم باستمرار بتحسين الإجابات بناءً على إجاباته الخاصة، وفي النهاية يقدم لك الإجابة المثالية. أليس هذا مذهلاً؟
على وجه التحديد، تنقسم عملية التفكير في التعليقات الذاتية في OpenScholar إلى ثلاث خطوات: إنشاء الإجابات الأولية، وإنشاء التعليقات، وتكامل التعليقات. أولاً، يقوم نموذج اللغة بإنشاء إجابة أولية بناءً على مقاطع المقالة المستردة. بعد ذلك، مثل الممتحن الصارم، سوف ينتقد إجاباته ويحدد أوجه القصور ويولد بعض التعليقات اللغوية الطبيعية، مثل "تحتوي الإجابة فقط على نتائج تجريبية لمهام الأسئلة والأجوبة، يرجى استكمال أنواع أخرى من نتائج المهام". . أخيرًا، سيقوم نموذج اللغة بإعادة البحث في الأدبيات ذات الصلة بناءً على هذه التعليقات ودمج جميع المعلومات لإنشاء إجابة أكثر اكتمالاً.
ومن أجل تدريب نماذج أصغر ولكنها بنفس القدر من القوة، استخدم الباحثون أيضًا عملية استدلال الملاحظات الذاتية الخاصة بـ OpenScholar لتوليد كميات كبيرة من بيانات التدريب عالية الجودة. قاموا أولاً باختيار الأوراق الأكثر اقتباسًا من قاعدة البيانات، ثم قاموا بإنشاء بعض أسئلة الاستعلام عن المعلومات بناءً على ملخصات هذه الأوراق، وأخيرًا استخدموا عملية الاستدلال الخاصة بـ OpenScholar لتوليد إجابات عالية الجودة. تشكل هذه الإجابات ومعلومات التعليقات التي تم إنشاؤها في العملية بيانات تدريب قيمة. قام الباحثون بخلط هذه البيانات مع بيانات الضبط الدقيق لتعليمات المجال العام الحالية وبيانات الضبط الدقيق لتعليمات المجال العلمي لتدريب نموذج لغة معلمة مكون من 8 مليارات يسمى OpenScholar-8B.
ولتقييم أداء OpenScholar والنماذج المماثلة الأخرى بشكل كامل، أنشأ الباحثون أيضًا معيارًا جديدًا يسمى SCHOLARQABENCH. يحتوي هذا المعيار على 2967 سؤالًا لمراجعة الأدبيات كتبها خبراء في أربعة مجالات: علوم الكمبيوتر، والفيزياء، والطب الحيوي، وعلم الأعصاب. يحتوي كل سؤال على إجابة مطولة كتبها أحد الخبراء، وفي المتوسط، تستغرق كل إجابة من الخبير حوالي ساعة لإكمالها. يستخدم SCHOLARQABENCH أيضًا نهج تقييم متعدد الأوجه يجمع بين المقاييس الآلية والتقييم اليدوي لتوفير مقياس أكثر شمولاً لجودة الإجابات الناتجة عن النموذج.
تظهر النتائج التجريبية أن أداء OpenScholar على SCHOLARQABENCH يفوق بكثير النماذج الأخرى، بل ويتفوق على الخبراء البشريين في بعض الجوانب. على سبيل المثال، في مجال علوم الكمبيوتر، المعدل الصحيح لـ OpenScholar-8B أعلى بنسبة 5% من GPT-4o، وهو أعلى بنسبة 5%! مقارنة بـ GPT-4o، فإن PaperQA2 أعلى بنسبة 7%. علاوة على ذلك، فإن دقة الاقتباس من الإجابات التي تم إنشاؤها بواسطة OpenScholar يمكن مقارنتها بدقة الخبراء البشريين، في حين أن GPT-4o تصل إلى 78-90٪ ملفقة من فراغ.
لا شك أن ظهور OpenScholar يعد بمثابة نعمة عظيمة لمجال البحث العلمي، فهو لا يساعد الباحثين العلميين على توفير الكثير من الوقت والطاقة فحسب، بل يؤدي أيضًا إلى تحسين جودة وكفاءة مراجعات الأدبيات. أعتقد أنه في المستقبل القريب، سيصبح OpenScholar مساعدًا لا غنى عنه للباحثين العلميين!
عنوان الورقة: https://arxiv.org/pdf/2411.14199
عنوان المشروع: https://github.com/AkariAsai/OpenScholar
بشكل عام، أحدث OpenScholar تغييرات ثورية في أعمال البحث العلمي بفضل احتياطياته القوية من البيانات وآليات التفكير المبتكرة ونتائج الاختبارات الممتازة. سيحسن بشكل فعال كفاءة البحث العلمي ويساعد الباحثين على التركيز على الاستكشافات العلمية الأكثر أهمية، وهو إنجاز كبير في مجال البحث العلمي.