سيمنحك محرر Downcodes فهمًا متعمقًا لأسرار نموذج Transformer! في الآونة الأخيرة، شرحت ورقة بحثية بعنوان "طبقات المحولات كرسامين" بوضوح آلية عمل الطبقة الوسطى من نموذج المحولات من منظور "الرسام". من خلال الاستعارات والتجارب الذكية، تكشف هذه الورقة كيفية عمل التسلسل الهرمي للمحولات، مما يوفر لنا أفكارًا جديدة لفهم العمليات الداخلية لنماذج اللغة الكبيرة. في الورقة، يقارن المؤلف كل طبقة من طبقة المحول برسام، ويعملان معًا لإنشاء صورة لغوية كبيرة، ويتحقق من هذا الرأي من خلال سلسلة من التجارب.
في عالم الذكاء الاصطناعي، هناك مجموعة خاصة من الرسامين - الهيكل الهرمي في نموذج المحولات. إنها مثل فرش الرسم السحرية، ترسم عالمًا ملونًا على قماش اللغة. في الآونة الأخيرة، قدمت ورقة بحثية تسمى طبقات المحولات كرسامين منظورًا جديدًا لنا لفهم آلية عمل الطبقة الوسطى للمحولات.
نموذج المحولات، باعتباره النموذج اللغوي واسع النطاق الأكثر شيوعًا في الوقت الحاضر، يحتوي على مليارات المعلمات. كل طبقة منها تشبه الرسام، تعمل معًا لإكمال صورة لغوية عظيمة. ولكن كيف عمل هؤلاء الرسامون معًا وكيف اختلفت الفرش والدهانات التي استخدموها؟
من أجل استكشاف كيفية عمل طبقة المحولات، صمم المؤلف سلسلة من التجارب، بما في ذلك تخطي طبقات معينة، أو تغيير ترتيب الطبقات، أو تشغيل الطبقات بالتوازي. تشبه هذه التجارب وضع قواعد رسم مختلفة للرسامين لمعرفة ما إذا كان بإمكانهم التكيف.
في استعارة "خط أنابيب الرسام"، يُنظر إلى المدخلات على أنها لوحة قماشية، وتكون عملية المرور عبر الطبقات الوسيطة بمثابة تمرير اللوحة القماشية على خط التجميع. سيقوم كل "رسام"، أي كل طبقة من طبقة المحول، بتعديل اللوحة وفقًا لخبرته الخاصة. يساعدنا هذا التشبيه على فهم التوازي وقابلية التوسع لطبقة المحولات.
استخدمت التجربة نموذجين من اللغات الكبيرة المدربين مسبقًا (LLM): Llama2-7B وBERT. وجدت الدراسة أن الرسامين في الطبقات الوسطى يبدو أنهم يتشاركون في صندوق طلاء مشترك - يمثل الفضاء - يختلف عن أولئك الموجودين في المستويين الأول والأخير. الرسامون الذين يتخطون بعض الطبقات المتوسطة يكون لهم تأثير ضئيل على اللوحة بأكملها، مما يشير إلى أنه ليس كل الرسامين مطلوبين.
على الرغم من أن الرسامين في الطبقة الوسطى يستخدمون نفس صندوق الطلاء، إلا أنهم يستخدمون مهاراتهم الخاصة لرسم أنماط مختلفة على القماش. إذا قمت ببساطة بإعادة استخدام تقنية رسام معينة، فستفقد اللوحة سحرها الأصلي.
يعد الترتيب الذي ترسم به مهمًا بشكل خاص للمهام الرياضية والاستدلالية التي تتطلب منطقًا صارمًا. بالنسبة للمهام التي تعتمد على الفهم الدلالي، يكون تأثير الترتيب صغيرًا نسبيًا.
تظهر نتائج البحث أن الطبقة الوسطى للمحول لديها درجة معينة من الاتساق ولكنها ليست زائدة عن الحاجة. بالنسبة للمهام الرياضية والاستدلالية، يكون ترتيب الطبقات أكثر أهمية من المهام الدلالية.
ووجدت الدراسة أيضًا أنه ليست كل الطبقات ضرورية وأنه يمكن تخطي الطبقات المتوسطة دون التأثير بشكل كارثي على أداء النموذج. علاوة على ذلك، على الرغم من أن الطبقات المتوسطة تشترك في نفس مساحة التمثيل، إلا أنها تؤدي وظائف مختلفة. أدى تغيير ترتيب تنفيذ الطبقات إلى تدهور الأداء، مما يشير إلى أن الترتيب له تأثير مهم على أداء النموذج.
في طريق استكشاف نموذج المحول، يحاول العديد من الباحثين تحسينه، بما في ذلك التقليم، وتقليل المعلمات، وما إلى ذلك. توفر هذه الأعمال تجربة قيمة وإلهامًا لفهم نموذج المحولات.
عنوان الورقة: https://arxiv.org/pdf/2407.09298v1
بشكل عام، توفر هذه الورقة منظورًا جديدًا لنا لفهم الآلية الداخلية لنموذج المحولات وتقدم أفكارًا جديدة لتحسين النموذج في المستقبل. يوصي محرر Downcodes القراء المهتمين بقراءة المقال كاملاً للحصول على فهم متعمق لأسرار نموذج Transformer!