تستكشف هذه المقالة تأثير حجم مجموعة بيانات ما قبل التدريب على أداء المهام النهائية في تدريب النماذج الكبيرة، وخاصة قانون القياس لنقل التعلم. قام الباحثون بتحليل العلاقة بين حجم مجموعة بيانات ما قبل التدريب وأداء المهام النهائية (التي يتم قياسها على أساس درجة BLEU والإنتروبيا المتقاطعة)، واقترحوا إرشاداتين لتقييم قيمة مجموعات بيانات ما قبل التدريب. وجدت الدراسة أن نتيجة BLEU أكثر اتساقًا مع القياس اللوغاريتمي، في حين أن الارتباط بين الإنتروبيا المتقاطعة ضعيف. وتعتمد فعالية مجموعة بيانات ما قبل التدريب على التوافق مع المهام النهائية، وقد لا تكون مجموعة البيانات كبيرة جدًا. تحقيق تحسين إضافي.
يرجع نجاح النماذج الكبيرة إلى حد كبير إلى وجود قانون القياس. استكشف الباحثون قانون قياس نقل التعلم ودرسوا مؤشرين: درجة BLEU النهائية والانتروبيا المتقاطعة النهائية، والعلاقة بين حجم مجموعة بيانات ما قبل التدريب وأداء المهام النهائية بعد ضبط المهمة. هل تعتبر الخسارة عبر الإنتروبيا مقياسًا جيدًا دائمًا؟ درجة BLEU أقرب إلى القانون اللوغاريتمي. قدم الباحثون إرشاداتين لتقييم قيمة مجموعات بيانات ما قبل التدريب للمهام النهائية المستهدفة. تظهر النتائج التجريبية أن التدريب المسبق له تحسن طفيف في درجة BLEU، وأن قانون القياس المطبق على درجة BLEU يختلف عن الإنتروبيا المتقاطعة والحيرة، التي تتبع سلوك تحجيم قانون القوة. العلاقة بين الإنتروبيا المتقاطعة ودرجة BLEU ليست جيدة، ويوفر دليل تقييم بيانات ما قبل التدريب طريقة تقييم لقيمة المهام النهائية. يعتمد تأثير مجموعة بيانات ما قبل التدريب على أداء المهمة على درجة التوافق، وقد لا تؤدي مجموعة بيانات ما قبل التدريب الكبيرة جدًا إلى تحقيق تحسينات إضافية. يمكن استخدام قانون القياس للتنبؤ بتحسينات أداء المهام النهائية. ما إذا كان من الممكن تكييف قانون القياس مع درجة BLEU يشير إلى مدى توافق بيانات ما قبل التدريب مع مهمة الترجمة المحددة.باختصار، تكشف هذه الدراسة دور قانون القياس في تقييم فعالية بيانات التدريب المسبق للنموذج الكبير وتسلط الضوء على أهمية اختيار مقاييس التقييم المناسبة والنظر في درجة مواءمة بيانات ما قبل التدريب مع المهام النهائية، مما يوفر رؤى قيمة للتدريب المسبق. التدريب النموذجي الكبير والتوجيه. يمكن للأبحاث المستقبلية أن تستكشف المزيد من مؤشرات وأساليب التقييم الأكثر فعالية لتوجيه التدريب وتحسين النماذج الكبيرة بشكل أفضل.