Griffin
Griffin : خلط التكرارات الخطية المسورة مع الاهتمام المحلي بنماذج اللغة الفعالة
arXiv
العمارة النموذجية
تحتوي جميع نماذجنا على المكونات التالية: (i) كتلة متبقية، (ii) كتلة MLP، و(iii) كتلة خلط زمنية. على الرغم من أن (i) و(ii) متماثلان في جميع النماذج، فإننا نعتبر ثلاث كتل خلط مؤقتة: انتباه الاستعلام المتعدد العالمي (MQA)، وMQA المحلي (نافذة منزلقة)، وكتلة متكررة مقترحة. كجزء من الكتلة المتكررة، نستخدم وحدة التكرار الخطي ذات البوابات الحقيقية (RG-LRU) - وهي طبقة متكررة جديدة مستوحاة من وحدة التكرار الخطي Orvieto et al., 2023b.
تحدد الكتلة المتبقية، كما هو موضح في الشكل 2 (أ)، البنية العالمية لنماذجنا وهي مستوحاة من المحولات السابقة للمعايير (Xiong et al., 2020). بعد تضمين تسلسل الإدخال نمرره $ن$ مثل هذه الكتل ( $ن$ للدلالة على عمق النموذج)، ثم نطبق RMSNorm Zhang وSennrich, 2019 لإنتاج التنشيط النهائي. لحساب احتمالات الرمز المميز، نطبق طبقة خطية نهائية متبوعة بطبقة softmax. تتم مشاركة أوزان هذه الطبقة مع طبقة تضمين الإدخال.
كتلة المتبقية
الشكل 2: أ) العمود الفقري الرئيسي لبنية الوضع لدينا هو الكتلة المتبقية، وهي مكدسة $ن$ مرات. ب) كتلة MLP المسورة التي نستخدمها. ج) الكتلة المتكررة التي نقترحها كبديل لانتباه الاستعلامات المتعددة (MQA). ويستخدم طبقة RG-LRU المقترحة، والمحددة في القسم 2.4.
تحتوي الكتلة المتبقية على مكونين، مطبقين بالترتيب. يأخذ المكون الأول الحالة المخفية $تشي$ ويطبق RMSNorm Zhang وSennrich, 2019، متبوعًا بكتلة الخلط الزمني. نقوم بعد ذلك بدمج الإخراج مع اتصال تخطي من $تشي$ من خلال الإضافة. وبالمثل، يطبق المكون الثاني RMSNorm، متبوعًا بكتلة MLP ثم يدمج مخرجاته مع اتصال تخطي من مدخلات RMSNorm. تم توضيح هذه الكتلة في الشكل 2 (أ).
كتلة MLP
نحن نستخدم كتلة MLP المسورة Dauphin et al., 2017 (موضحة في الشكل 2 (ب))، والتي تنشئ فرعين من مدخلات البعد الخاصة بها $د$ . نطبق طبقة خطية بأبعاد الإخراج $MD$ في كل فرع حيث $م$ يدل على عامل التوسع. للتبسيط نستخدم $م=3$ طوال هذا العمل. نحن نطبق Hendrycks and Gimpel، 2016 غير الخطية لـ GeLU على أحد الفروع قبل دمجها عن طريق الضرب حسب العناصر، على غرار GeGeLU Shazeer، 2020. ومع ذلك، في كتلة MLP الخاصة بنا، نطبق طبقة خطية نهائية ذات بُعد الإخراج $د$ على مخرجات طبقة GeGeLU.
كتل الخلط الزمني
كتلة الخلط الزمني هي أحد مكونات نموذجنا الذي يجمع عمليات تنشيط الطبقة المخفية في مواقع زمنية مختلفة في التسلسل. نحن نعتبر ثلاث كتل خلط زمنية: MQA Shazeer العالمية، 2019، وMQA Beltagy وآخرون المحلية، 2020، وكتلةنا المتكررة المقترحة.
الاهتمام العالمي متعدد الاستعلام
ما لم يُنص على خلاف ذلك، فإننا نستخدم MQA بدلاً من MHA لتحسين سرعات الاستدلال لخطوط الأساس الخاصة بالمحولات Shazeer, 2019. نحن نستخدم بُعدًا ثابتًا للرأس $D_{الرأس}=128$ ، ونقوم بإصلاح عدد رؤوس الانتباه $ح$ مثل هذا $HD_{الرأس}=D$ . وهذا يتطلب البعد النموذجي $د$ لتكون من مضاعفات 128. نحن لا نستخدم أي تضمينات موضعية مطلقة، ولكننا نستخدم Rotary Position Embedding (RoPE) Su et al., 2021 كتضمين موضعي نسبي.
الاهتمام بالنافذة المنزلقة المحلية
أحد العيوب الرئيسية لاستخدام الاهتمام العالمي هو أن تعقيده الحسابي ينمو بشكل تربيعي في طول التسلسل. ولمعالجة ذلك، بدأت العديد من الأعمال في اعتماد الاهتمام المحلي بلتاجي وآخرون، 2020، والمعروف أيضًا باسم الاهتمام بالنافذة المنزلقة. فهو يسمح لكل مركز بالاهتمام فقط بعدد محدد من الرموز المميزة في الماضي. وهذا لا يقلل من FLOPs الحسابية فحسب، بل يحد أيضًا من حجم ذاكرة التخزين المؤقت KV إلى حجم النافذة، مما يجعلها لم تعد تربيعية في طول التسلسل. جميع التفاصيل الأخرى هي نفس MQA العالمية.
كتلة متكررة
كتلتنا المتكررة (الشكل 2 (ج)) تشبه كتلة GSS Mehta et al., 2022 والكتلة التي يستخدمها Mamba Gu و Dao, 2023. نحن نأخذ مدخلات البعد $د$ وتطبيق طبقتين خطيتين مع البعد الناتج $D_{RNN}$ بالتوازي، إنشاء فرعين. في الفرع الأول، قمنا بتطبيق طبقة Conv1D صغيرة قابلة للفصل، مستوحاة من Shift-SSM في H3 Dao et al., 2022b، مع بُعد مرشح زمني قدره 4. لاحظ أن طبقة Conv1D هذه صغيرة جدًا، مع فقط $4D$ حدود. نحن نتبع طبقة Conv1D مع طبقة RG-LRU المقترحة (المحددة أدناه). في الفرع الثاني، نطبق اللاخطية GeLU ثم ندمج الفروع عن طريق الضرب حسب العناصر. نقوم بعد ذلك بتطبيق طبقة خطية نهائية بأبعاد الإخراج $د$ .
وحدة التكرار الخطي ذات البوابات الحقيقية (RG-LRU)
تتميز طبقة RG-LRU المقترحة بتكرار بسيط مستوحى من وحدة التكرار الخطي (LRU) Orvieto et al., 2023b، ولكنها تتضمن آلية بوابة مدفوعة بالأدبيات المتعلقة بشبكات RNN غير الخطية، ولا سيما LSTMs Hochreiter and Schmidhuber, 1997 و GRUs Chung et al., 2014. المعادلات التي تصف الطبقة هي كما يلي:
$$begin{align} r_t &= sigma(W_{a} x_t + b_a)، & text{بوابة التكرار} \ i_t &= sigma(W_{x} x_t + b_x)، & text{ بوابة الإدخال} \ a_t &= a^{cr_t}, & text{} \ h_t &= a_t odot h_{t-1} + sqrt{1 - a_t^2} odot (i_t odot x_t). & نص{} end{محاذاة}$$
إخراج الطبقة هو $y_t=h_t$ ، وعدم الخطية $سيجما$ في المعادلات هي الدالة السيني. الوزن المتكرر $أ$ في المعادلة (4) قطري. ومن ثم فإن جميع العمليات هي عناصر حكيمة. نحن المعلمات $أ$ في المعادلة (3) مثل $a=سيجما(لامدا)$ ، أين $لامدا$ هي معلمة قابلة للتعلم. وهذا يضمن ذلك $0 <= أ <= 1$ ، مما يضمن أن التكرار مستقر. المتغير $ج$ هو ثابت ذو قيمة عددية مضبوط على 8. لتحقيق الاستقرار العددي، نقوم بالحساب عمليًا $أ^{cr_t}$ في مساحة السجل (انظر الملحق أ). تحتوي الطبقة على بوابات على كل من المدخلات $x$ والوزن المتكرر $أ$ . ومع ذلك، لا تعتمد أي بوابة على الحالة المتكررة $ح_{ر-1}$ ، مما يضمن إمكانية تنفيذ الحساب بكفاءة على الجهاز. نقوم بتهيئة كليهما $W_{أ}$ و $W_{ب}$ باستخدام LeCun init LeCun et al., 2002. نقوم بالتهيئة $لامدا$ مثل هذا $أ^ج$ يتم توزيعها بشكل موحد بين 0.9 دولار و 0.999 دولار في بداية التدريب، على غرار (Orvieto et al., 2023b.). على عكس العديد من الأعمال الحديثة في أدبيات SSM، لا تستخدم RG-LRU التهيئة المستوحاة من نظرية كثيرات الحدود المتعامدة Gu et al., 2020، كما لم يتم تعريفها أيضًا على أنها تمييز لنظام مستمر أساسي Gu et al., 2021 أ. على عكس طبقة LRU الأصلية، فإننا لا نستخدم الجبر المعقد في التكرار. بينما يؤدي استخدام التكرارات المعقدة إلى طبقة أكثر تعبيرًا، وجدنا أورفيتو وآخرون، 2023 أ، أن التكرارات المعقدة لم تكن مفيدة لنمذجة اللغة في الممارسة العملية، كما لاحظ أيضًا جو وداو، 2023. (انظر الملحق ب)
سلوك البوابة
بوابة الإدخال $i_t$ يشبه ذلك الموجود في LSTM، والذي يمكنه تصفية (أو تقليل) الإدخال $x_t$ . ومع ذلك، على حد علمنا، لدينا بوابة التكرار $r_t$ يختلف عن آليات البوابات الأخرى في الأدب. على سبيل المثال، آلية الاختيار المقترحة في Mamba Gu و Dao، 2023 قابلة للمقارنة ببوابة التحديث الخاصة بوحدات GRU التي تستوفي $x_t$ . تأثيره على الحالة المخفية يسمح له بإعادة ضبط حالته ونسيان أي معلومات يحملها من الماضي، على غرار بوابة النسيان في LSTM. في المقابل، يمكن لبوابة التكرار الخاصة بنا أن تستكمل تقريبًا بين تحديث LRU القياسي من Orvieto et al., 2023a والحالة المخفية السابقة، مما يسمح لها بتجاهل الإدخال بشكل فعال والحفاظ على جميع المعلومات من السجل السابق (انظر الملحق أ لمزيد من التفاصيل ). نعتقد أن الدور الرئيسي لهذه البوابة هو تمكين النموذج من تحقيق ذاكرة فائقة الأسية عن طريق تقليل تأثير المدخلات غير المعلوماتية.