يُظهر بحث جديد من DeepMind أن النماذج اللغوية الكبيرة يمكن أن تتفوق على المدونين البشريين في التقييم الواقعي. تستخدم الدراسة مقيم SAFE لتقييم الحقائق الآلي وتجري معايير واسعة النطاق على مجموعة بيانات LongFact، مما يوضح أن النموذج الكبير يؤدي أداءً جيدًا في معالجة المعلومات الواقعية الطويلة. لا يثبت هذا البحث مزايا النماذج الكبيرة في مجال التقييم الواقعي فحسب، بل الأهم من ذلك أن فريق DeepMind قد فتح جميع نتائج الأبحاث بالكامل، مما يوفر موارد قيمة للأوساط الأكاديمية والصناعة.
تكشف أحدث ورقة بحثية لـ DeepMind عن مزايا النماذج الكبيرة في التقييم الواقعي. تظهر الأبحاث أن نماذج اللغات الكبيرة يمكن أن تتفوق على أداء المعلقين البشريين وتحقق تقييمًا واقعيًا تلقائيًا من خلال مقيم SAFE. أجرى الباحثون قياسًا شاملاً باستخدام مجموعة بيانات LongFact، وأظهرت النتائج أن النموذج الكبير كان أداؤه جيدًا في الجوانب الواقعية الطويلة. تسلط الدراسة بأكملها الضوء على مزايا النماذج الكبيرة في التقييم الواقعي وهي مفتوحة المصدر بالكامل.نتائج هذا البحث مشجعة، فهي لا تعزز تقدم الذكاء الاصطناعي في مجال التقييم الواقعي فحسب، بل توفر أيضًا اتجاهًا جديدًا للتطبيق المستقبلي للنماذج الكبيرة في موثوقية المعلومات. كما تمهد استراتيجية المصادر المفتوحة الطريق للبحث والتطبيق على نطاق أوسع، ومن الجدير التطلع إلى التطوير اللاحق.