يشهد الذكاء الاصطناعي التوليدي نموًا سريعًا، ويعمل هذا المستودع كمركز شامل لتحديثات أبحاث الذكاء الاصطناعي التوليدي ومواد المقابلات والدفاتر والمزيد!
استكشف الموارد التالية:
سنقوم بتحديث هذا المستودع بانتظام، لذا ترقب أحدث الإضافات!
تعلم سعيد!
*يتم التحديث نهاية كل شهر
تاريخ | عنوان | خلاصة | المواضيع |
---|---|---|---|
31 مايو 2024 | تحقق LLMs الأداء البشري البالغ في مهام نظرية العقل ذات الترتيب الأعلى | تبحث هذه الورقة في مدى تطوير نماذج اللغة الكبيرة (LLMs) لنظرية العقل ذات الترتيب الأعلى (ToM)؛ قدرة الإنسان على التفكير في حالات عقلية وعاطفية متعددة بطريقة متكررة (على سبيل المثال، أعتقد أنك تعتقد أنها تعرف). تعتمد هذه الورقة على العمل السابق من خلال تقديم مجموعة اختبارات مكتوبة بخط اليد - أسئلة وأجوبة حول نظرية العقل متعددة الطلبات - واستخدامها لمقارنة أداء خمسة ماجستير في القانون مع معيار بشري للبالغين تم جمعه حديثًا. لقد وجدنا أن GPT-4 وFlan-PaLM يصلان إلى أداء مستوى البالغين وقريب من مستوى البالغين في مهام ToM بشكل عام، وأن GPT-4 يتجاوز أداء البالغين في استنتاجات الترتيب السادس. تشير نتائجنا إلى أن هناك تفاعلًا بين حجم النموذج والضبط الدقيق لتحقيق قدرات ToM، وأن أفضل طلاب LLM أداءً قد طوروا قدرة عامة على ToM. نظرًا للدور الذي يلعبه ToM ذو الترتيب الأعلى في مجموعة واسعة من السلوكيات البشرية التعاونية والتنافسية، فإن هذه النتائج لها آثار مهمة على تطبيقات LLM التي تواجه المستخدم. | نظرية العقل |
30 مايو 2024 | JINA CLIP: نموذج CLIP الخاص بك هو أيضًا مسترد النصوص الخاص بك | يُستخدم التدريب المسبق على اللغة والصور التباينية (CLIP) على نطاق واسع لتدريب النماذج على محاذاة الصور والنصوص في مساحة التضمين المشتركة عن طريق تعيينها إلى متجهات ذات حجم ثابت. تعتبر هذه النماذج أساسية لاسترجاع المعلومات المتعددة الوسائط والمهام ذات الصلة. ومع ذلك، فإن أداء نماذج CLIP بشكل عام ضعيف في المهام النصية فقط مقارنة بنماذج النص المتخصصة. يؤدي هذا إلى عدم كفاءة أنظمة استرجاع المعلومات التي تحتفظ بتضمينات ونماذج منفصلة للمهام النصية فقط والمهام متعددة الوسائط. نقترح طريقة تدريب تباينية جديدة ومتعددة المهام لمعالجة هذه المشكلة، والتي نستخدمها لتدريب نموذج jina-clip-v1 لتحقيق أداء متطور في كل من مهام استرجاع النص والصورة والنص . | نماذج متعددة الوسائط |
30 مايو 2024 | الببغاء: التقديم الفعال للتطبيقات المستندة إلى LLM مع المتغير الدلالي | أدى ظهور نماذج اللغات الكبيرة (LLMs) إلى تمكين التطبيقات المستندة إلى LLM (المعروفة أيضًا باسم وكلاء الذكاء الاصطناعي أو الطيارين المساعدين)، وهو نموذج برمجي جديد يجمع بين قوة LLM والبرمجيات التقليدية. يمكن لتطبيقات LLM المتنوعة من مستأجرين مختلفين تصميم مسارات عمل معقدة باستخدام طلبات LLM متعددة لإنجاز مهمة واحدة. ومع ذلك، يتعين عليهم استخدام واجهة برمجة التطبيقات (API) على مستوى الطلب المفرطة في التبسيط والتي توفرها خدمات LLM العامة اليوم، مما يؤدي إلى فقدان المعلومات الأساسية على مستوى التطبيق. يتعين على خدمات LLM العامة أن تعمل على تحسين طلبات LLM الفردية بشكل أعمى، مما يؤدي إلى أداء دون المستوى الأمثل لتطبيقات LLM. تقدم هذه الورقة Parrot، وهو نظام خدمة LLM يركز على التجربة الشاملة للتطبيقات المستندة إلى LLM. يقترح Parrot المتغير الدلالي، وهو تجريد موحد لكشف المعرفة على مستوى التطبيق لخدمات LLM العامة. يقوم المتغير الدلالي بتعليق متغير الإدخال/الإخراج في موجه الطلب، وإنشاء خط أنابيب البيانات عند توصيل طلبات LLM المتعددة، مما يوفر طريقة طبيعية لبرمجة تطبيقات LLM. يتيح كشف المتغيرات الدلالية لخدمة LLM العامة إجراء تحليل تدفق البيانات التقليدي للكشف عن الارتباط عبر طلبات LLM المتعددة. يفتح هذا الارتباط مساحة تحسين جديدة تمامًا للأداء الشامل للتطبيقات المستندة إلى LLM. تثبت التقييمات الشاملة أن Parrot يمكنه تحقيق ما يصل إلى تحسين كبير لحالات الاستخدام الشائعة والعملية لتطبيقات LLM | وكلاء LLM |
30 مايو 2024 | في حيرة من الحيرة: تشذيب البيانات القائمة على الحيرة باستخدام نماذج مرجعية صغيرة | في هذا العمل، نتحقق مما إذا كانت نماذج اللغة الصغيرة يمكنها تحديد مجموعات فرعية عالية الجودة من مجموعات البيانات النصية واسعة النطاق التي تعمل على تحسين أداء نماذج اللغات الأكبر حجمًا. في حين أن العمل الحالي قد أظهر أن التقليم القائم على الحيرة في نموذج أكبر يمكن أن يؤدي إلى بيانات عالية الجودة، فإننا نتحقق مما إذا كان يمكن استخدام النماذج الأصغر في التقليم القائم على الحيرة وكيف يتأثر التقليم بتكوين مجال البيانات التي يتم تقليمها. لقد أثبتنا أنه بالنسبة لتركيبات مجموعات البيانات المتعددة، يمكن أن يؤدي التقليم القائم على الحيرة لبيانات التدريب المسبق إلى تحسين أداء المهام النهائية بشكل كبير: فالتقليم المعتمد على الحيرة المحسوبة باستخدام نموذج 125 مليون معلمة يحسن متوسط الأداء في المهام النهائية لنموذج معلمة 3 مليارات بنسبة تصل إلى 2.04 ويحقق انخفاضًا يصل إلى 1.45× في خطوات التدريب المسبق للوصول إلى أداء أساسي متناسب. علاوة على ذلك، فقد أثبتنا أن مثل هذا التقليم القائم على الحيرة للبيانات يؤدي أيضًا إلى مكاسب في الأداء النهائي في الأنظمة شديدة التدريب ومقيدة البيانات. | نماذج اللغة الصغيرة |
30 مايو 2024 | GNN-RAG: استرجاع الرسم البياني العصبي لاستدلال نماذج اللغة الكبيرة | تمثل الرسوم البيانية المعرفية (KGs) المعرفة الواقعية التي صنعها الإنسان في شكل ثلاثة توائم (الرأس، العلاقة، الذيل)، والتي تشكل مجتمعة رسمًا بيانيًا. الإجابة على الأسئلة في رياض الأطفال (KGQA) هي مهمة الإجابة على الأسئلة الطبيعية التي تؤسس المنطق على المعلومات المقدمة من رياض الأطفال. نماذج اللغة الكبيرة (LLMs) هي أحدث النماذج لمهام ضمان الجودة نظرًا لقدرتها الرائعة على فهم اللغة الطبيعية. من ناحية أخرى، تم استخدام شبكات الرسم البياني العصبية (GNNs) على نطاق واسع في KGQA حيث يمكنها التعامل مع معلومات الرسم البياني المعقدة المخزنة في KG. في هذا العمل، نقدم GNN-RAG، وهي طريقة جديدة للجمع بين قدرات فهم اللغة للماجستير في القانون مع القدرات المنطقية لشبكات GNN بأسلوب الجيل المعزز للاسترجاع (RAG). أولاً، تقوم GNN بالتفكير في رسم بياني فرعي كثيف لـ KG لاسترداد الإجابات المرشحة لسؤال معين. ثانيًا، يتم استخراج أقصر المسارات في رياض الأطفال التي تربط بين كيانات الأسئلة ومرشحي الإجابات لتمثيل مسارات التفكير المنطقي في رياض الأطفال. يتم لفظ المسارات المستخرجة وتقديمها كمدخلات لاستدلال LLM باستخدام RAG. في إطار عمل GNN-RAG الخاص بنا، تعمل GNN كمسبب للرسم البياني الفرعي الكثيف لاستخراج معلومات الرسم البياني المفيدة، بينما تستفيد LLM من قدرتها على معالجة اللغة الطبيعية من أجل KGQA النهائي. علاوة على ذلك، نقوم بتطوير تقنية زيادة الاسترجاع (RA) لتعزيز أداء KGQA باستخدام GNN-RAG. تظهر النتائج التجريبية أن GNN-RAG يحقق أداءً متطورًا في اثنين من معايير KGQA المستخدمة على نطاق واسع (WebQSP وCWQ)، متفوقًا أو مطابقًا لأداء GPT-4 مع LLM المضبوط 7B. بالإضافة إلى ذلك، تتفوق GNN-RAG في الأسئلة متعددة القفزات ومتعددة الكيانات متفوقة على الأساليب المنافسة بنسبة 8.9-15.5% في الإجابة F1. نحن نقدم الكود ونتائج KGQA على https://github.com/cmavro/GNN-RAG. | RAG على الرسوم البيانية المعرفية |
29 مايو 2024 | نماذج اللغة ذاتية الاستكشاف: استنباط التفضيلات النشطة للمواءمة عبر الإنترنت | لقد حقق تحسين التفضيلات، لا سيما من خلال التعلم المعزز من الملاحظات البشرية (RLHF)، نجاحًا كبيرًا في مواءمة نماذج اللغات الكبيرة (LLMs) للالتزام بالنوايا البشرية. على عكس المحاذاة دون اتصال بالإنترنت مع مجموعة بيانات ثابتة، يؤدي جمع التعليقات عبر الإنترنت من البشر أو الذكاء الاصطناعي على أجيال النماذج عادةً إلى نماذج مكافآت أكثر قدرة وLLMs أفضل توافقًا من خلال عملية متكررة. ومع ذلك، فإن تحقيق نموذج مكافأة دقيق عالميًا يتطلب استكشافًا منهجيًا لتوليد استجابات متنوعة تغطي المساحة الشاسعة للغة الطبيعية. إن أخذ عينات عشوائية من LLMs القياسية التي تزيد المكافأة إلى الحد الأقصى لا يكفي وحده للوفاء بهذا المطلب. لمعالجة هذه المشكلة، نقترح هدفًا ثنائي المستوى متحيزًا بشكل متفائل نحو الاستجابات التي يحتمل أن تكون ذات مكافأة عالية لاستكشاف المناطق خارج التوزيع بشكل فعال. من خلال حل مشكلة المستوى الداخلي باستخدام وظيفة المكافأة المعاد قياسها، فإن الخوارزمية الناتجة، المسماة نماذج اللغة ذاتية الاستكشاف (SELM)، تلغي الحاجة إلى RM منفصلة وتقوم بتحديث LLM بشكل متكرر بهدف مباشر. بالمقارنة مع تحسين التفضيل المباشر (DPO)، فإن هدف SELM يقلل من التفضيل العشوائي للاستقراءات غير المرئية ويعزز كفاءة الاستكشاف. توضح نتائجنا التجريبية أنه عند ضبطه على نماذج Zephyr-7B-SFT وLlama-3- 8B-Instruct، يعمل SELM على تعزيز الأداء بشكل كبير في المعايير التي تتبع التعليمات مثل MT-Bench وAlpacaEval 2.0، بالإضافة إلى العديد من المعايير الأكاديمية القياسية في إعدادات مختلفة. . الكود والنماذج الخاصة بنا متاحة على https://github.com/shenao-zhang/SELM. | المحاذاة، تحسين التفضيلات |
28 مايو 2024 | OpenRLHF: إطار عمل RLHF سهل الاستخدام وقابل للتطوير وعالي الأداء | مع استمرار نمو النماذج اللغوية الكبيرة (LLMs) من خلال توسيع نطاق القوانين، فقد اكتسب التعلم المعزز من ردود الفعل البشرية (RLHF) اهتمامًا كبيرًا بسبب أدائه المتميز. ومع ذلك، على عكس التدريب المسبق أو الضبط الدقيق لنموذج واحد، فإن توسيع نطاق التعلم المعزز من ردود الفعل البشرية (RLHF) لتدريب نماذج اللغة الكبيرة يفرض تحديات التنسيق عبر أربعة نماذج. نقدم OpenRLHF، وهو إطار عمل مفتوح المصدر يتيح توسيع نطاق RLHF بكفاءة. على عكس أطر عمل RLHF الحالية التي تحدد موقع أربعة نماذج على نفس وحدات معالجة الرسومات، يعيد OpenRLHF تصميم الجدولة للنماذج التي تتجاوز 70B من المعلمات باستخدام Ray وvLLM وDeepSpeed، مع الاستفادة من تحسين استخدام الموارد وأساليب التدريب المتنوعة. من خلال التكامل بسلاسة مع Hugging Face، يوفر OpenRLHF حلاً خارج الصندوق مع خوارزميات محسّنة ونصوص تشغيل، مما يضمن سهولة الاستخدام. يقوم OpenRLHF بتنفيذ RLHF وDPO وأخذ عينات الرفض وتقنيات المحاذاة الأخرى. من خلال تمكين تطوير LLM المتطور، يتوفر كود OpenRLHF على https://github.com/OpenLLMAI/OpenRLHF. | RLHF، مجموعة الأدوات |
28 مايو 2024 | LLAMA-NAS: بنية عصبية فعالة للبحث عن نماذج لغة كبيرة | لقد كانت قدرات نماذج اللغة الكبيرة الحديثة (LLMs) في حل معالجة اللغة الطبيعية والتفكير المعقد وتحليل المشاعر والمهام الأخرى غير عادية مما دفع إلى اعتمادها على نطاق واسع. ولسوء الحظ، تأتي هذه القدرات مع ذاكرة وتكاليف حسابية عالية جدًا مما يحول دون استخدام LLMs على معظم منصات الأجهزة. للتخفيف من ذلك، نقترح طريقة فعالة للعثور على بنيات شبكة Pareto الأمثل استنادًا إلى LLaMA2-7B باستخدام NAS مرة واحدة. على وجه الخصوص، قمنا بضبط LLaMA2-7B مرة واحدة فقط ثم قمنا بتطبيق البحث القائم على الخوارزمية الجينية للعثور على بنيات شبكة أصغر حجمًا وأقل تعقيدًا من الناحية الحسابية. لقد أظهرنا أنه بالنسبة لبعض المهام المعيارية القياسية، تكون شبكة LLaMA2-7B المدربة مسبقًا كبيرة ومعقدة بشكل غير ضروري. وبشكل أكثر تحديدًا، نعرض انخفاضًا بمقدار 1.5 مرة في حجم النموذج وتسريعًا بمعدل 1.3 مرة في الإنتاجية لمهام معينة مع انخفاض لا يُذكر في الدقة. بالإضافة إلى العثور على بنيات شبكية أصغر حجمًا وأعلى أداءً، فإن طريقتنا تقوم بذلك بشكل أكثر فعالية وكفاءة من بعض تقنيات التقليم أو التشتت. أخيرًا، نوضح كيف يكون التكميم مكملاً لطريقتنا وأن حجم وتعقيد الشبكات التي نجدها يمكن تقليلها بشكل أكبر باستخدام التكميم. نعتقد أن عملنا يوفر طريقة لإنشاء LLMs تلقائيًا والتي يمكن استخدامها على منصات الأجهزة الأقل تكلفة والأكثر توفرًا بسهولة. | بحث العمارة العصبية، تقليل حجم النموذج |
28 مايو 2024 | لا تنسى الاتصال! تحسين RAG من خلال إعادة الترتيب المستندة إلى الرسم البياني | لقد أدى الجيل المعزز للاسترجاع (RAG) إلى تحسين أداء استجابات نموذج اللغة الكبيرة (LLM) بشكل كبير من خلال تأسيس التوليد مع السياق من المستندات الموجودة. تعمل هذه الأنظمة بشكل جيد عندما تكون المستندات ذات صلة واضحة بسياق السؤال. ولكن ماذا يحدث عندما تحتوي الوثيقة على معلومات جزئية، أو ارتباطات أقل وضوحًا بالسياق؟ وكيف يجب أن نفكر في الروابط بين المستندات؟ في هذا العمل، نسعى للإجابة على هذين السؤالين الأساسيين حول توليد RAG. نقدم G-RAG، وهو نظام إعادة ترتيب يعتمد على الشبكات العصبية البيانية (GNNs) بين المسترد والقارئ في RAG. تجمع طريقتنا بين كل من الروابط بين المستندات والمعلومات الدلالية (عبر الرسوم البيانية لتمثيل المعنى الملخص) لتوفير تصنيف مستنير بالسياق لـ RAG. تتفوق G-RAG في الأداء على أحدث الأساليب مع وجود بصمة حسابية أصغر. بالإضافة إلى ذلك، قمنا بتقييم أداء PaLM 2 كمُعيد ترتيب ووجدنا أنه أقل من أداء G-RAG بشكل كبير. تؤكد هذه النتيجة على أهمية إعادة ترتيب RAG حتى عند استخدام نماذج اللغات الكبيرة. | خرقة للاستدلال |
27 مايو 2024 | النيزك: اجتياز الأساس المنطقي القائم على مامبا لنماذج اللغة والرؤية الكبيرة | كان التطور السريع لنماذج اللغة والرؤية الكبيرة (LLVMs) مدفوعًا بالتقدم في ضبط التعليمات المرئية. في الآونة الأخيرة، قامت LLVMs مفتوحة المصدر برعاية مجموعات بيانات ضبط التعليمات المرئية عالية الجودة واستخدمت أجهزة تشفير رؤية إضافية أو نماذج رؤية حاسوبية متعددة من أجل تضييق فجوة الأداء باستخدام LLVMs القوية مغلقة المصدر. تُعزى هذه التطورات إلى المعلومات متعددة الأوجه المطلوبة لقدرات متنوعة، بما في ذلك فهم الصور الأساسية والمعرفة الواقعية حول المفاهيم المنطقية وغير الكائنية (مثل المخططات والرسوم البيانية والرموز والعلامات والمسائل الرياضية) والخطوات المتدرجة - إجراءات خطوة لحل الأسئلة المعقدة. بالاعتماد على المعلومات متعددة الأوجه، نقدم LLVM جديد فعال، اجتياز المبررات المنطقية (Meteor) القائم على Mamba، والذي يعزز المبررات المنطقية متعددة الأوجه لتعزيز قدرات الفهم والإجابة. لتضمين مبررات مطولة تحتوي على معلومات وفيرة، نستخدم بنية Mamba، القادرة على معالجة البيانات المتسلسلة ذات التعقيد الزمني الخطي. نحن نقدم مفهومًا جديدًا لاجتياز الأساس المنطقي الذي يسهل التضمين الفعال للأساس المنطقي. وبعد ذلك، يتم تدريب نموذج اللغة متعدد الوسائط (MLM) على توليد الإجابات بمساعدة المنطق. من خلال هذه الخطوات، تحقق Meteor تحسينات كبيرة في أداء لغة الرؤية عبر معايير تقييم متعددة تتطلب قدرات متنوعة، دون توسيع حجم النموذج أو استخدام أجهزة تشفير رؤية إضافية ونماذج رؤية حاسوبية. الكود متاح على https://github.com/ByungKwanLee/Meteor. | نماذج الدولة الفضائية، النماذج المتعددة الوسائط |
27 مايو 2024 | مقدمة لنمذجة الرؤية واللغة | بعد الشعبية الأخيرة لنماذج اللغات الكبيرة (LLMs)، تم إجراء عدة محاولات لتوسيعها إلى المجال المرئي. من وجود مساعد بصري يمكنه إرشادنا عبر بيئات غير مألوفة إلى النماذج التوليدية التي تنتج صورًا باستخدام وصف نصي عالي المستوى فقط، ستؤثر تطبيقات نموذج لغة الرؤية (VLM) بشكل كبير على علاقتنا بالتكنولوجيا. ومع ذلك، هناك العديد من التحديات التي تحتاج إلى معالجة لتحسين موثوقية تلك النماذج. في حين أن اللغة منفصلة، فإن الرؤية تتطور في مساحة ذات أبعاد أعلى بكثير حيث لا يمكن دائمًا تمييز المفاهيم بسهولة. لفهم آليات رسم خرائط الرؤية للغة بشكل أفضل، نقدم هذه المقدمة لـ VLMs والتي نأمل أن تساعد أي شخص يرغب في دخول هذا المجال. أولاً، نقدم لك ما هي أجهزة VLM، وكيفية عملها، وكيفية تدريبها. بعد ذلك، نقدم ونناقش طرق تقييم VLMs. على الرغم من أن هذا العمل يركز في المقام الأول على ربط الصور باللغة، إلا أننا نناقش أيضًا توسيع نطاق VLMs ليشمل مقاطع الفيديو. | النماذج المتعددة الوسائط، المسح |
27 مايو 2024 | نماذج ماتريوشكا المتعددة الوسائط | أظهرت النماذج المتعددة الوسائط الكبيرة (LMMs) مثل LLaVA أداءً قويًا في التفكير البصري اللغوي. تقوم هذه النماذج أولاً بتضمين الصور في عدد كبير ثابت من الرموز المرئية ثم تغذيها في نموذج لغة كبير (LLM). ومع ذلك، فإن هذا التصميم يسبب عددًا زائدًا من الرموز المميزة للسيناريوهات المرئية الكثيفة مثل الصور ومقاطع الفيديو عالية الدقة، مما يؤدي إلى عدم الكفاءة بشكل كبير. على الرغم من وجود طرق تقليم ودمج الرمز المميز، إلا أنها تنتج مخرجات ذات طول واحد لكل صورة ولا يمكنها تحمل المرونة في مقايضة كثافة المعلومات مقابل الكفاءة. مستوحاة من مفهوم Matryoshka Dolls، نقترح M3: نماذج Matryoshka Multimodal، التي تتعلم كيفية تمثيل المحتوى المرئي كمجموعات متداخلة من الرموز المرئية التي تلتقط المعلومات عبر حبيبات متعددة من الخشنة إلى الدقيقة. يقدم نهجنا العديد من المزايا الفريدة لـ LMMs: (1) يمكن للمرء التحكم بوضوح في التفاصيل المرئية لكل مثيل اختبار أثناء الاستدلال، على سبيل المثال، ضبط عدد الرموز المميزة المستخدمة لتمثيل صورة بناءً على التعقيد المتوقع أو بساطة المحتوى؛ (2) يوفر M3 إطارًا لتحليل التفاصيل المطلوبة لمجموعات البيانات الحالية، حيث نجد أن معايير نمط COCO تحتاج فقط إلى حوالي 9 رموز مرئية للحصول على دقة مماثلة لتلك المستخدمة في استخدام جميع الرموز المميزة البالغ عددها 576؛ (3) يوفر منهجنا أساسًا لاستكشاف أفضل مفاضلة بين الأداء وطول الرمز المرئي على مستوى العينة، حيث يكشف تحقيقنا عن وجود فجوة كبيرة بين الحد الأعلى لأوراكل والتمثيلات الحالية ذات النطاق الثابت. | نماذج متعددة الوسائط |
27 مايو 2024 | Trans-LoRA: نحو ضبط فعال للمعلمات القابلة للتحويل وخالية من البيانات | تعد المحولات ذات الرتبة المنخفضة (LoRA) ومتغيراتها من تقنيات الضبط الدقيق ذات كفاءة المعلمات (PEFT) الشائعة والتي تتطابق بشكل وثيق مع أداء الضبط الدقيق للنموذج الكامل بينما لا تتطلب سوى عدد صغير من المعلمات الإضافية. تعد معلمات LoRA الإضافية هذه خاصة بالنموذج الأساسي الذي يتم تكييفه. عندما يلزم إهمال النموذج الأساسي واستبداله بنموذج جديد، يجب إعادة تدريب جميع وحدات LoRA المرتبطة به. تتطلب إعادة التدريب هذه الوصول إلى البيانات المستخدمة لتدريب LoRA على النموذج الأساسي الأصلي. يمثل هذا مشكلة خاصة بالنسبة للتطبيقات السحابية التجارية حيث تتم استضافة وحدات LoRA والنماذج الأساسية من قبل موفري الخدمة الذين قد لا يُسمح لهم باستضافة بيانات مهمة العميل الخاصة. ولمواجهة هذا التحدي، نقترح Trans-LoRA، وهي طريقة جديدة لنقل LoRAs بدون فقدان البيانات تقريبًا عبر النماذج الأساسية. يعتمد نهجنا على البيانات الاصطناعية لنقل وحدات LoRA. باستخدام نماذج لغوية كبيرة، نقوم بتصميم منشئ بيانات تركيبية لتقريب عملية إنشاء البيانات لمجموعة فرعية من بيانات المهام المرصودة. يؤدي التدريب على مجموعة البيانات الاصطناعية الناتجة إلى نقل وحدات LoRA إلى نماذج جديدة. لقد أظهرنا فعالية نهجنا باستخدام عائلتي نموذجي لاما وجيما. يحقق نهجنا نقل LoRA بدون فقدان (محسّن في الغالب) بين النماذج داخل وعبر عائلات النماذج الأساسية المختلفة، وحتى بين طرق PEFT المختلفة، في مجموعة واسعة من المهام. | طرق PEFT، الضبط الدقيق |
26 مايو 2024 | تحسين تفضيلات التشغيل الذاتي لمحاذاة نموذج اللغة | إن أساليب التعلم المعزز التقليدية من ردود الفعل البشرية (RLHF) التي تعتمد على النماذج البارامترية مثل نموذج برادلي تيري تفشل في التقاط التعقيد واللاعقلانية في التفضيلات البشرية. تشير التطورات الحديثة إلى أن العمل المباشر مع احتمالات التفضيلات يمكن أن يؤدي إلى انعكاس أكثر دقة للتفضيلات البشرية، مما يتيح محاذاة نموذج اللغة بشكل أكثر مرونة ودقة. في هذا البحث، نقترح طريقة قائمة على اللعب الذاتي لمحاذاة نموذج اللغة، والتي تعالج المشكلة باعتبارها لعبة ثنائية اللاعبين تهدف إلى تحديد سياسة توازن ناش. إن النهج الذي نتبناه، والذي يطلق عليه اسم "تحسين تفضيلات اللعب الذاتي" (SPPO)، يقترب من توازن ناش من خلال تحديثات متكررة للسياسات ويتمتع بضمان التقارب النظري. يمكن لطريقتنا أن تزيد بشكل فعال من احتمالية تسجيل الاستجابة المختارة وتقليل الاستجابة المرفوضة، والتي لا يمكن تحقيقها بشكل تافه من خلال الخسارة الزوجية المتماثلة مثل تحسين التفضيل المباشر (DPO) وتحسين تفضيلات الهوية (IPO). في تجاربنا، باستخدام 60 ألف مطالبة فقط (بدون استجابات) من مجموعة بيانات UltraFeedback ودون أي زيادة سريعة، من خلال الاستفادة من نموذج التفضيل المُدرب مسبقًا PairRM مع معلمات 0.4B فقط، يمكن لـ SPPO الحصول على نموذج من الضبط الدقيق لـ Mistral-7B- Instruct-v0.2 الذي يحقق معدل الفوز المتطور الذي يتم التحكم فيه بطول 28.53% مقابل GPT-4-Turbo على الألبكة إيفال 2.0. كما أنه يتفوق على DPO (التكراري) وIPO على MT-Bench وOpen LLM Leaderboard. ومن الجدير بالذكر أن الأداء القوي لـ SPPO يتم تحقيقه دون إشراف خارجي إضافي (على سبيل المثال، الاستجابات والتفضيلات وما إلى ذلك) من GPT-4 أو نماذج لغوية أقوى أخرى. | المحاذاة والتحسين |
23 مايو 2024 | ليست كل ميزات نموذج اللغة خطية | اقترح العمل الحديث فرضية التمثيل الخطي: أن نماذج اللغة تقوم بالحساب عن طريق معالجة تمثيلات أحادية البعد للمفاهيم ("الميزات") في مساحة التنشيط. في المقابل، نستكشف ما إذا كانت بعض تمثيلات نماذج اللغة قد تكون متعددة الأبعاد بطبيعتها. نبدأ بتطوير تعريف صارم للميزات متعددة الأبعاد غير القابلة للاختزال استنادًا إلى ما إذا كان من الممكن تحليلها إلى ميزات ذات أبعاد أقل مستقلة أو غير متزامنة. بدافع من هذه التعريفات، قمنا بتصميم طريقة قابلة للتطوير تستخدم أجهزة تشفير تلقائية متفرقة للعثور تلقائيًا على ميزات متعددة الأبعاد في GPT-2 وMistral 7B. تتضمن هذه الميزات المكتشفة تلقائيًا أمثلة قابلة للتفسير بشكل ملفت للنظر، على سبيل المثال، ميزات دائرية تمثل أيام الأسبوع وأشهر السنة. نحدد المهام التي تُستخدم فيها هذه الدوائر الدقيقة لحل المشكلات الحسابية التي تتضمن الحساب المعياري في أيام الأسبوع وأشهر السنة. أخيرًا، نقدم دليلاً على أن هذه الميزات الدائرية هي بالفعل الوحدة الأساسية للحساب في هذه المهام من خلال تجارب التدخل على Mistral 7B وLlama 3 8B، ونجد المزيد من التمثيلات الدائرية عن طريق تقسيم الحالات المخفية لهذه المهام إلى مكونات قابلة للتفسير. | تحليل التمثيل الخطي |
23 مايو 2024 | AlignGPT: نماذج لغات كبيرة متعددة الوسائط مع إمكانية المحاذاة التكيفية | تعتبر نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) على نطاق واسع أمرًا حاسمًا في استكشاف الذكاء العام الاصطناعي (AGI). جوهر MLLMs يكمن في قدرتها على تحقيق التوافق بين الوسائط. لتحقيق هذا الهدف، عادةً ما يتبع MLLMs الحاليون نموذج تدريب من مرحلتين: مرحلة ما قبل التدريب ومرحلة ضبط التعليمات. وعلى الرغم من نجاحها، هناك أوجه قصور في نمذجة قدرات المحاذاة ضمن هذه النماذج. أولاً، خلال مرحلة ما قبل التدريب، يفترض النموذج عادةً أن جميع أزواج الصور والنص متسقة بشكل موحد، ولكن في الواقع درجة المحاذاة بين أزواج نص الصور المختلفة غير متسقة. ثانيًا، تتضمن التعليمات المستخدمة حاليًا للضبط الدقيق مجموعة متنوعة من المهام، وعادةً ما تتطلب تعليمات المهام المختلفة مستويات مختلفة من قدرات المحاذاة، ولكن MLLMs السابقة تتجاهل احتياجات المحاذاة المتباينة هذه. لمعالجة هذه المشكلات، نقترح نموذجًا جديدًا متعدد الوسائط للغة كبيرة الحجم AlignGPT. في مرحلة ما قبل التدريب، بدلاً من التعامل مع جميع أزواج نص الصورة على قدم المساواة، نقوم بتعيين مستويات مختلفة من إمكانيات المحاذاة لأزواج مختلفة من نص الصورة. بعد ذلك، في مرحلة ضبط التعليمات، نقوم بدمج هذه المستويات المختلفة من قدرات المحاذاة بشكل تكيفي لتلبية احتياجات المحاذاة الديناميكية للتعليمات المختلفة. تظهر النتائج التجريبية الشاملة أن نموذجنا يحقق أداءً تنافسيًا على 12 معيارًا. | المحاذاة، النموذج المتعدد الوسائط |
23 مايو 2024 | HippoRAG: الذاكرة طويلة المدى مستوحاة من الناحية البيولوجية العصبية لنماذج اللغات الكبيرة | من أجل الازدهار في بيئات طبيعية معادية ومتغيرة باستمرار، تطورت أدمغة الثدييات لتخزن كميات كبيرة من المعرفة حول العالم وتدمج المعلومات الجديدة باستمرار مع تجنب النسيان الكارثي. على الرغم من الإنجازات الرائعة، لا تزال نماذج اللغات الكبيرة (LLMs)، حتى مع الجيل الاسترجاعي (RAG)، تكافح من أجل دمج قدر كبير من الخبرات الجديدة بكفاءة وفعالية بعد التدريب المسبق. في هذا العمل، نقدم HippoRAG، وهو إطار استرجاع جديد مستوحى من نظرية فهرسة الحصين للذاكرة البشرية طويلة المدى لتمكين تكامل المعرفة بشكل أعمق وأكثر كفاءة عبر التجارب الجديدة. يقوم HippoRAG بتنسيق LLMs والرسوم البيانية المعرفية وخوارزمية PageRank المخصصة لتقليد الأدوار المختلفة للقشرة المخية الحديثة والحصين في الذاكرة البشرية. قمنا بمقارنة HippoRAG مع أساليب RAG الموجودة في الإجابة على الأسئلة متعددة القفزات وأظهرنا أن أسلوبنا يتفوق على الأساليب الحديثة بشكل ملحوظ، بنسبة تصل إلى 20%. يحقق الاسترجاع أحادي الخطوة باستخدام HippoRAG أداءً مشابهًا أو أفضل من الاسترجاع التكراري مثل IRCoT بينما يكون أرخص بـ 10-30 مرة وأسرع بـ 6-13 مرة، كما أن دمج HippoRAG في IRCoT يجلب المزيد من المكاسب الكبيرة. أخيرًا، نوضح أن طريقتنا يمكنها معالجة أنواع جديدة من السيناريوهات التي لا يمكن الوصول إليها من خلال الأساليب الحالية. | تحسين RAG |
21 مايو 2024 | OmniGlue: مطابقة الميزات القابلة للتعميم مع إرشادات نموذج الأساس | يشهد مجال مطابقة الصور ظهورًا مستمرًا لتقنيات مطابقة الميزات الجديدة القابلة للتعلم، مع أداء يتحسن باستمرار وفقًا للمعايير التقليدية. ومع ذلك، يُظهر تحقيقنا أنه على الرغم من هذه المكاسب، فإن إمكاناتها للتطبيقات في العالم الحقيقي مقيدة بقدراتها المحدودة على التعميم على مجالات الصور الجديدة. في هذه الورقة، نقدم OmniGlue، أول أداة مطابقة للصور قابلة للتعلم تم تصميمها مع التعميم كمبدأ أساسي. يستفيد OmniGlue من المعرفة الواسعة من نموذج أساس الرؤية لتوجيه عملية مطابقة الميزات، وتعزيز التعميم على المجالات التي لم يتم رؤيتها في وقت التدريب. بالإضافة إلى ذلك، نقترح آلية جديدة للانتباه موجهة لموضع النقطة الرئيسية والتي تعمل على فصل المعلومات المكانية والمظهرية، مما يؤدي إلى تحسين واصفات المطابقة. نقوم بإجراء تجارب شاملة على مجموعة من 7 مجموعات بيانات ذات مجالات صور متنوعة، بما في ذلك الصور على مستوى المشهد والصور المتمحورة حول الكائن والصور الجوية. تؤدي مكونات OmniGlue الجديدة إلى تحقيق مكاسب نسبية في المجالات غير المرئية بنسبة 20.9% فيما يتعلق بالنموذج المرجعي القابل للمقارنة بشكل مباشر، بينما تتفوق أيضًا على طريقة LightGlue الحديثة بنسبة 9.5% نسبيًا. يمكن العثور على الكود والنموذج على https: //hwjiang1510.github.io/OmniGlue. | نماذج متعددة الوسائط |
20 مايو 2024 | MoRA: تحديث عالي المستوى للضبط الدقيق بكفاءة المعلمات | يعد التكيف ذو الرتبة المنخفضة (LoRA) طريقة شائعة للضبط الدقيق (PEFT) ذات كفاءة المعلمة لنماذج اللغات الكبيرة (LLMs). في هذه الورقة، نقوم بتحليل تأثير التحديث ذو الرتبة المنخفضة، كما هو مطبق في LoRA. تشير النتائج التي توصلنا إليها إلى أن آلية التحديث ذات الرتبة المنخفضة قد تحد من قدرة حاملي الماجستير في القانون على تعلم وحفظ المعرفة الجديدة بشكل فعال. مستوحاة من هذه الملاحظة، نقترح طريقة جديدة تسمى MoRA، والتي تستخدم مصفوفة مربعة لتحقيق تحديث عالي المستوى مع الحفاظ على نفس العدد من المعلمات القابلة للتدريب. ولتحقيق ذلك، قمنا بإدخال العوامل غير المعلمية المقابلة لتقليل بُعد الإدخال وزيادة بُعد الإخراج للمصفوفة المربعة. علاوة على ذلك، يضمن هؤلاء المشغلون إمكانية دمج الوزن مرة أخرى في LLMs، مما يجعل طريقتنا قابلة للنشر مثل LoRA. نقوم بإجراء تقييم شامل لطريقتنا عبر خمس مهام: ضبط التعليمات، والتفكير الرياضي، والتدريب المسبق المستمر، والذاكرة، والتدريب المسبق. تتفوق طريقتنا على LoRA في المهام كثيفة الذاكرة وتحقق أداءً مشابهًا في المهام الأخرى. سيكون الكود الخاص بنا متاحًا على https://github.com/kongds/MoRA. | نهج PEFT، الضبط الدقيق |
19 مايو 2024 | المحول الخاص بك هو خطي سرا | يكشف هذا البحث عن خاصية خطية جديدة حصرية لأجهزة فك تشفير المحولات، بما في ذلك نماذج مثل GPT، LLaMA، OPT، BLOOM وغيرها. نقوم بتحليل تحويلات التضمين بين الطبقات المتسلسلة، ونكشف عن علاقة خطية شبه مثالية (درجة تشابه بروكرست تبلغ 0.99). ومع ذلك، فإن الخطية تتناقص عند إزالة المكون المتبقي بسبب انخفاض معيار الإخراج لطبقة المحولات بشكل ثابت. تُظهر تجاربنا أن إزالة بعض كتل المحولات الأكثر خطية أو تقريبها خطيًا لا يؤثر بشكل كبير على الخسارة أو أداء النموذج. علاوة على ذلك، في تجاربنا التدريبية المسبقة على النماذج الأصغر، نقدم تنظيمًا قائمًا على تشابه جيب التمام، يهدف إلى تقليل خطية الطبقة. يعمل هذا التنظيم على تحسين مقاييس الأداء في معايير مثل Tiny Stories وSuperGLUE، كما يقلل بنجاح من خطية النماذج. تتحدى هذه الدراسة الفهم الحالي لبنيات المحولات، مما يشير إلى أن تشغيلها قد يكون أكثر خطية مما كان مفترضًا سابقًا | تحليل المحولات |
18 مايو 2024 | نحو LLMs معيارية من خلال بناء وإعادة استخدام مكتبة LoRAs | إن العدد المتزايد من التعديلات ذات الكفاءة المعلمية لنموذج اللغة الكبير الأساسي (LLM) يدعو إلى دراسة ما إذا كان بإمكاننا إعادة استخدام هذه المحولات المدربة لتحسين الأداء للمهام الجديدة. نحن ندرس أفضل طريقة لبناء مكتبة من المحولات التي توفر بيانات متعددة المهام ونبتكر تقنيات لكل من تعميم المهام بدون إطلاق والمهام الخاضعة للإشراف من خلال التوجيه في مثل هذه المكتبة. نحن نقيس الأساليب الحالية لبناء هذه المكتبة ونقدم التجميع القائم على النموذج، MBC، وهي طريقة تجمع المهام بناءً على تشابه معلمات المحول الخاصة بها، مما يؤدي بشكل غير مباشر إلى تحسين النقل عبر مجموعة البيانات متعددة المهام. لإعادة استخدام المكتبة، نقدم آلية توجيه جديدة بدون إطلاق، سهم، والتي تتيح الاختيار الديناميكي للمحولات الأكثر صلة بالمدخلات الجديدة دون الحاجة إلى إعادة التدريب. لقد قمنا بتجربة العديد من حاملي شهادات LLM، مثل Phi-2 وMistral، على مجموعة واسعة من المهام المعلقة، والتحقق من أن المحولات المستندة إلى MBC وتوجيه السهم يؤدي إلى تعميم فائق للمهام الجديدة. نحن نتخذ خطوات نحو إنشاء LLMs معيارية وقابلة للتكيف يمكنها أن تتطابق مع التدريب المشترك التقليدي أو تتفوق عليه. | نهج PEFT، الضبط الدقيق، مجموعة الأدوات |
16 مايو 2024 | الحرباء: نماذج مؤسسة الانصهار المبكر المختلطة | نقدم Chameleon، وهي عائلة من نماذج الوسائط المختلطة القائمة على الرموز المميزة للاندماج المبكر والقادرة على فهم وإنشاء الصور والنصوص في أي تسلسل عشوائي. نوضح نهج تدريب مستقر من البداية ، وصفة محاذاة ، ومعلمات معمارية مصممة خصيصًا للإعداد المبكر ، القائم على الرمز المميز ، المختلط. يتم تقييم النماذج على مجموعة شاملة من المهام ، بما في ذلك الإجابة على الأسئلة المرئية ، وتسمية الصور ، وتوليد النص ، وتوليد الصور ، وتوليد مشروط مختلط طويل الشكل. يوضح Chameleon قدرات واسعة وعامة ، بما في ذلك أحدث الأداء في مهام التعليق على الصور ، يتفوق على LLAMA-2 في مهام النص فقط بينما تكون قادرة على التنافس مع نماذج مثل Mixtral 8x7B و Gemini-Pro ، وتنفيذ صورة غير تافهة جيل ، كل ذلك في نموذج واحد. كما أنه يطابق أو يتجاوز أداء النماذج الأكبر بكثير ، بما في ذلك Gemini Pro و GPT-4V ، وفقًا للأحكام البشرية على تقييم جديد لتوليد الوسائط المختلطة الطويلة ، حيث تحتوي المخرجات أو المخرجات على تسلسلات مختلطة من كل من الصور والنصوص . يمثل الحرباء خطوة مهمة إلى الأمام في نمذجة موحدة لمستندات متعددة الوسائط كاملة. | النماذج متعددة الوسائط ، نموذج الأساس |
16 مايو 2024 | العديد من التعلم في السياق في نماذج الأساس متعدد الوسائط | من المعروف أن نماذج اللغة الكبيرة فعالة في التعلم في السياق (ICL). مكنت التطورات الحديثة في نماذج الأساس المتعدد الوسائط نوافذ سياق طويلة بشكل غير مستحق ، مما يوفر فرصة لاستكشاف قدرتها على أداء ICL مع العديد من الأمثلة التي تظهر. في هذا العمل ، نقوم بتقييم أداء نماذج الأساس المتعدد الوسائط التي تتوسع من طلقة قليلة إلى العديد من اللقطات ICL. نقوم بتقييم GPT-4O و Gemini 1.5 PRO عبر 10 مجموعات بيانات تمتد على العديد من المجالات (الصور الطبيعية ، والصور الطبية ، والاستشعار عن بعد ، والصور الجزيئية) والمهام (تصنيف متعدد الطبقات ، وعلامة متعددة ، وتصنيف دقيق). نلاحظ أن العديد من ICL ، بما في ذلك ما يقرب من 2000 أمثلة توضيح متعددة الوسائط ، يؤدي إلى تحسينات كبيرة مقارنة بعلاقة قليلة (<100 أمثلة) ICL في جميع مجموعات البيانات. علاوة على ذلك ، يستمر أداء Gemini 1.5 Pro في تحسين السجل الخطي حتى الحد الأقصى لعدد الأمثلة المختبرة على العديد من مجموعات البيانات. نظرًا لتكاليف الاستدلال المرتفعة المرتبطة بالمطالبات الطويلة المطلوبة للعديد من اللقطات الدولية ، فإننا نستكشف أيضًا تأثير استفسارات متعددة في مكالمة API واحدة. نوضح أن ما يصل إلى 50 استفسارًا يمكن أن يؤدي إلى تحسينات في الأداء تحت طلقة صفرية والعديد من ICL ، مع مكاسب كبيرة في إعداد صفرة على مجموعات بيانات متعددة ، مع تقليل تكلفة ومواصفات كلاب بشكل كبير. أخيرًا ، نقيس كفاءة بيانات ICL للنماذج ، أو المعدل الذي تتعلم به النماذج من أمثلة أكثر إظهارًا. نجد أنه على الرغم من أن GPT-4O و Gemini 1.5 Pro يحققان أداءً مماثلًا صفراً صفريًا عبر مجموعات البيانات ، فإن Gemini 1.5 Pro يعرض كفاءة بيانات ICL أعلى من GPT-4O على معظم مجموعات البيانات. تشير نتائجنا إلى أن العديد من ICL يمكن أن يمكّن المستخدمين من تكييف نماذج الأساس متعددة الوسائط بكفاءة مع التطبيقات والمجالات الجديدة. تتوفر قاعدة كودنا للجمهور على https://github.com/stanfordmlgroup/manyicl. | ICL ، نماذج متعددة الوسائط |
15 مايو 2024 | تتعلم لورا أقل وتنسى أقل | التكيف المنخفض الرتبة (LORA) هو طريقة معلمة فعالة على نطاق واسع للمعلمة لنماذج اللغة الكبيرة. Lora يوفر الذاكرة عن طريق تدريب اضطرابات رتبة منخفضة فقط لمصفوفات الوزن المحددة. في هذا العمل ، نقارن أداء Lora والتعبير الكامل على مجالين مستهدفين ، البرمجة والرياضيات. نحن نعتبر كل من أنظمة بيانات التعليمات (≈100k response-desponse) وأنظمة البيانات المستمرة (≈10b الرموز غير المهيكلة). توضح نتائجنا أنه في معظم الإعدادات ، كان لورا يضعف في الأداء الكامل. ومع ذلك ، تعرض Lora شكلاً مرغوبًا في التنظيم: إنه يحافظ بشكل أفضل على أداء النموذج الأساسي في المهام خارج المجال المستهدف. نوضح أن لورا توفر تنظيمًا أقوى مقارنة بالتقنيات الشائعة مثل تسوس الوزن والتسرب ؛ كما أنه يساعد في الحفاظ على أجيال أكثر تنوعًا. نوضح أن Finetuning الكامل يتعلم الاضطرابات برتبة أكبر 10-100x من تكوينات Lora النموذجية ، وربما شرح بعض الثغرات المبلغ عنها. نختتم من خلال اقتراح أفضل الممارسات للتأثير مع لورا. | مقاربات PEFT ، صقل |
14 مايو 2024 | فهم فجوة الأداء بين خوارزميات المحاذاة عبر الإنترنت والخطوط غير المتصلة بالإنترنت | التعلم التعزيز من التعليقات البشرية (RLHF) هو الإطار الأساسي لمحاذاة نموذج اللغة الكبيرة. ومع ذلك ، فإن ارتفاع شعبية في خوارزميات المحاذاة دون اتصال بالإنترنت تتحدى الحاجة إلى أخذ عينات من السياسة في RLHF. في سياق تحسين المكافأة ، نبدأ بمجموعة افتتاحية من التجارب التي توضح الميزة الواضحة للطرق عبر الإنترنت على الطرق غير المتصلة بالإنترنت. هذا يدفعنا إلى التحقيق في أسباب التناقض في الأداء من خلال سلسلة من الواجهات التجريبية المصممة بعناية. نظهر تجريبياً أن الفرضيات مثل تغطية البيانات غير المتصلة وجودة البيانات في حد ذاتها لا يمكن أن تفسر بشكل مقنع فرق الأداء. نجد أيضًا أنه على الرغم من أن سياسة تدريب الخوارزميات غير المتصلة لتصبح جيدة في التصنيف الزوجي ، إلا أنها أسوأ في الأجيال ؛ في غضون ذلك ، تكون السياسات التي تم تدريبها بواسطة الخوارزميات عبر الإنترنت جيدة في الأجيال في حين أن الأسوأ في التصنيف الزوجي. هذا يلمح إلى تفاعل فريد بين القدرات التمييزية والتوليدية ، والتي تتأثر بشكل كبير بعملية أخذ العينات. أخيرًا ، نلاحظ أن تباين الأداء يستمر في كل من وظائف الخسارة المتناقضة وغير المتباينة ، ويبدو أنه لا يتم معالجته بمجرد زيادة شبكات السياسة. مجتمعة ، تلقي دراستنا الضوء على الدور المحوري لأخذ العينات على الجودة في محاذاة الذكاء الاصطناعي ، وتلميحات في بعض التحديات الأساسية لخوارزميات المحاذاة غير المتصلة بالإنترنت. | تنسيق |
13 مايو 2024 | سير العمل RLHF: من نمذجة المكافآت إلى RLHF عبر الإنترنت | نقدم سير عمل التعلم التعزيز التكراري عبر الإنترنت من التعليقات البشرية (RLHF) في هذا التقرير الفني ، والذي تم الإبلاغ عنه على نطاق واسع يتفوق على نظيره دون اتصال بهامش كبير في أدبيات نموذج اللغة الكبيرة الحديثة (LLM). ومع ذلك ، لا تزال مشاريع RLHF الحالية مفتوحة المصدر محصورة إلى حد كبير في إعداد التعلم في وضع عدم الاتصال. في هذا التقرير الفني ، نهدف إلى ملء هذه الفجوة وتوفير وصفة مفصلة سهلة إعادة إنتاجها لـ RLHF التكراري عبر الإنترنت. على وجه الخصوص ، نظرًا لأن ردود الفعل البشرية عبر الإنترنت لا يمكن عادةً أن تكون المجتمعات المفتوحة المصدر ذات الموارد المحدودة ، نبدأ ببناء نماذج تفضيل باستخدام مجموعة متنوعة من مجموعات البيانات مفتوحة المصدر ونستخدم نموذج تفضيلات الوكيل المبني لتقريب التعليقات البشرية. بعد ذلك ، نناقش الرؤى النظرية والمبادئ الخوارزمية وراء RLHF التكراري عبر الإنترنت ، تليها تطبيق عملي مفصل. يحقق LLM المدرب LLM ، SFR-Titerative-DPO-LLAMA-3-8B-R ، أداءً مثيرًا للإعجاب على معايير LLM chatbot ، بما في ذلك Alpacaeval-2 و Arena-Hard و Mt-bench ، بالإضافة إلى معايير أكاديمية أخرى مثل Humaneval و صدق. لقد أظهرنا أن التثبيت الخاضع للإشراف (SFT) و RLHF التكراري يمكنه الحصول على أداء أحدث مع مجموعات بيانات مفتوحة المصدر بالكامل. علاوة على ذلك ، قمنا بإنشاء نماذجنا ومجموعات البيانات المنسقة وأدلة دليل التعليمات البرمجية الشاملة خطوة بخطوة متوفرة للجمهور. يرجى الرجوع إلى https://github.com/rlhflow/rlhf-reward-modeling و https://github.com/rlhflow/online-rlhf للحصول على معلومات أكثر تفصيلاً. | تحسين التفضيل ، RLHF |
2 مايو 2024 | Prometheus 2: نموذج لغة مفتوح المصدر متخصص في تقييم نماذج اللغة الأخرى | غالبًا ما يتم استخدام LMS الملكية مثل GPT-4 لتقييم جودة الاستجابات من مختلف LMS. ومع ذلك ، فإن المخاوف بما في ذلك الشفافية ، والتحكم ، والقدرة على تحمل التكاليف تحفز بشكل قوي على تطوير OpenSource LMS المتخصصة في التقييمات. من ناحية أخرى ، تظهر LMS المقيِّم المفتوحة الحالية أوجه القصور الحرجة: 1) أنها تصدر درجات تتباين بشكل كبير عن تلك التي تم تعيينها من قبل البشر ، و 2) أنها تفتقر إلى المرونة في إجراء التقييم المباشر والتصنيف الزوجي ، وأكثر أشكال التقييم انتشارًا . بالإضافة إلى ذلك ، لا يمتلكون القدرة على التقييم بناءً على معايير التقييم المخصص ، مع التركيز بدلاً من ذلك على السمات العامة مثل المساعدة والضرر. لمعالجة هذه القضايا ، نقدم Prometheus 2 ، وهو مُقيِّم أكثر قوة من سلفه يعكس عن كثب أحكام الإنسان و GPT-4. علاوة على ذلك ، فهي قادرة على معالجة كل من تنسيقات التقييم المباشر وتنسيقات الترتيب الحكيمة المجمعة مع معايير التقييم المعرفة من قبل المستخدم. في أربعة معايير للتقييم المباشر وأربعة معايير تصنيف الزوجين ، يسجل Prometheus 2 أعلى ارتباط واتفاق مع البشر وقضاة LM الملكية بين جميع LMS المقيّم المفتوح. نماذجنا ورمزنا وبياناتنا كلها متاحة للجمهور 1. | التقييم ، الوكلاء |
2 مايو 2024 | Wildchat: سجلات التفاعل 1M ChatGpt في البرية | تقدم chatbots مثل GPT-4 و ChatGPT ملايين المستخدمين. على الرغم من استخدامها على نطاق واسع ، لا يزال هناك نقص في مجموعات البيانات العامة التي تعرض كيفية استخدام هذه الأدوات من قبل مجموعة من المستخدمين في الممارسة العملية. لسد هذه الفجوة ، قدمنا وصولًا مجانيًا إلى chatgpt للمستخدمين عبر الإنترنت في مقابل الاشتراك الإيجابي والتوافقي في جمع نصوص الدردشة الخاصة بهم بشكل مجهول وطلب الرؤوس. من هذا ، قمنا بتجميع WildChat ، مجموعة من مليون محادثات من مستخدمين ، والتي تتكون من أكثر من 2.5 مليون مركبة تفاعل. نقوم بمقارنة WildChat مع مجموعات بيانات التفاعل الشهيرة للمستخدمين ، ونجد أن مجموعة البيانات الخاصة بنا تقدم أكثر مطالبات المستخدمين تنوعًا ، وتحتوي على أكبر عدد من اللغات ، وتقدم أغنى مجموعة من حالات الاستخدام السامة التي يمكن أن يدرسها الباحثون. بالإضافة إلى نصوص الدردشة الطارية ، فإننا نثري مجموعة البيانات بالبيانات الديموغرافية ، بما في ذلك عناوين الولاية والبلد وعناوين IP ، إلى جانب رؤوس الطلبات. يسمح هذا التعزيز بتحليل أكثر تفصيلاً لسلوكيات المستخدم عبر المناطق الجغرافية المختلفة والأبعاد الزمنية. أخيرًا ، نظرًا لأنه يلتقط مجموعة واسعة من حالات الاستخدام ، فإننا نوضح الأداة المساعدة المحتملة لمجموعة البيانات في نماذج تتبع التعليمات الدقيقة. يتم إصدار WildChat على https://wildchat.allen.ai بموجب التراخيص AI2 Impact1. | القياس ، التقييم |
2 مايو 2024 | StoryDiffusion: التوليد الذاتي المتسق لتوليد الصور والفيديو بعيدة المدى | بالنسبة للنماذج التوليدية القائمة على الانتشار الحديثة ، فإن الحفاظ على محتوى ثابت عبر سلسلة من الصور التي تم إنشاؤها ، وخاصة تلك التي تحتوي على مواضيع وتفاصيل معقدة ، يمثل تحديًا كبيرًا. في هذه الورقة ، نقترح طريقة جديدة لحساب الاعتداء الذاتي ، والتي تسمى الالتحاق الذاتي المتسق ، والتي تعزز بشكل كبير الاتساق بين الصور التي تم إنشاؤها ويزيد من نماذج النص إلى الصورة القائمة على الانتشار بشكل كبير بطريقة صفرية. لتمديد طريقتنا إلى توليد الفيديو بعيد المدى ، نقدم كذلك وحدة تنبؤ بحركة زمنية جديدة للفضاء ، والتي تحمل اسم تنبؤ الحركة الدلالية. يتم تدريبه على تقدير شروط الحركة بين صورتين مقدمة في المساحات الدلالية. تقوم هذه الوحدة بتحويل التسلسل الذي تم إنشاؤه من الصور إلى مقاطع فيديو ذات انتقالات سلسة ومواضيع متسقة أكثر استقرارًا بكثير من الوحدات القائمة على المساحات الكامنة فقط ، وخاصة في سياق توليد الفيديو الطويل. من خلال دمج هذين المكونين الجديدين ، يمكن أن يصف إطار عملنا ، المشار إليه باسم StoryDiffusion ، قصة نصية مع صور أو مقاطع فيديو متسقة تشمل مجموعة متنوعة من المحتويات. يشمل سرد القصص المقترح استكشافات رائدة في توليد القصة البصرية مع عرض الصور ومقاطع الفيديو ، والتي نأمل أن تلهم المزيد من الأبحاث من جانب التعديلات المعمارية. | نماذج متعددة الوسائط ، الانتشار |
2 مايو 2024 | Flame: محاذاة واقعية على نماذج اللغة الكبيرة | المحاذاة هي إجراء قياسي لضبط نماذج اللغة الكبيرة التي تم تدريبها مسبقًا (LLMS) لاتباع تعليمات اللغة الطبيعية وتكون بمثابة مساعدين مفيدين من الذكاء الاصطناعي. ومع ذلك ، لاحظنا أن عملية المحاذاة التقليدية تفشل في تعزيز الدقة الواقعية لـ LLMS ، وغالبًا ما تؤدي إلى توليد حقائق أكثر كاذبة (أي هلوسة). في هذه الورقة ، ندرس كيفية جعل عملية محاذاة LLM أكثر واقعية ، من خلال تحديد العوامل التي تؤدي أولاً إلى الهلوسة في كل من خطوات المحاذاة: الضبط الخاضع للإشراف (SFT) وتعلم التعزيز (RL). على وجه الخصوص ، نجد أن تدريب LLM على المعرفة الجديدة أو النصوص غير المألوفة يمكن أن يشجع الهلوسة. هذا يجعل SFT أقل واقعية لأنه يدرب على البيانات التي تحمل علامة الإنسان والتي قد تكون جديدة على LLM. علاوة على ذلك ، يمكن أن تشجع وظائف المكافآت المستخدمة في RL القياسية الهلوسة ، لأنها توجه LLM لتوفير استجابات مفيدة أكثر على مجموعة متنوعة من التعليمات ، وغالبًا ما تفضل الاستجابات الطويلة والتفصيل. استنادًا إلى هذه الملاحظات ، نقترح محاذاة واقعية للواقع (Flame) ، والتي تتألف من SFT المعروفة في الواقعية والواقعية RL من خلال تحسين التفضيل المباشر. تُظهر التجارب أن دليل محاذاة واقعية على واقعية مقترحة LLMs لإخراج المزيد من الاستجابات الواقعية مع الحفاظ على إمكانية تتبع التعليمات | المحاذاة ، الواقعية |
2 مايو 2024 | Nemo-Aligner: مجموعة أدوات قابلة للتطوير لمحاذاة النموذج الفعالة | يعد محاذاة نماذج اللغة الكبيرة (LLMs) مع القيم والتفضيلات الإنسانية أمرًا ضروريًا لجعلها مفيدة وآمنة. ومع ذلك ، يمكن أن يكون بناء أدوات فعالة لأداء محاذاة أمرًا صعبًا ، خاصة بالنسبة لأكبر LLM وأكثرها كفاءة والتي تحتوي غالبًا على عشرات المليارات من المليارات. نقوم بإنشاء Nemo-Aligner ، وهي مجموعة أدوات لمحاذاة النموذج يمكن أن تتوسع بكفاءة لاستخدام مئات وحدات معالجة الرسومات للتدريب. يأتي Nemo-Aligner مع تطبيقات محسّنة للغاية وقابلة للتطوير للنماذج الرئيسية لمحاذاة النموذج مثل: التعلم التعزيز من التعليقات البشرية (RLHF) ، وتحسين التفضيل المباشر (DPO) ، و steerlm ، والضغط الذاتي للعب (Spin). بالإضافة إلى ذلك ، تدعم مجموعة الأدوات الخاصة بنا تشغيل معظم تقنيات المحاذاة في إعداد صقل فعال (PEFT) الفعال. تم تصميم Nemo-Aligner للتمديد ، مما يسمح بدعم تقنيات المحاذاة الأخرى بأقل جهد. إنه مفتوح المصدر باستخدام ترخيص Apache 2.0 وندعو مساهمات المجتمع في https://github.com/nvidia/nemo-aligner. | المحاذاة ، مجموعة الأدوات |
1 مايو 2024 | هل حجم الدُفعة الأكبر أفضل دائمًا؟ - دراسة تجريبية عن تحرير النموذج مع LLAMA-3 | تقدم هذه الدراسة تحليلًا مستهدفًا لتحرير النماذج يركز على أحدث نموذج لغوي كبير ، Llama-3. نستكشف فعالية تقنيات تحرير النماذج الشعبية - روما ، ميميت ، و emmet ، والتي تم تصميمها لتدخلات الطبقة الدقيقة. نحدد الطبقات الأكثر فعالية للتحريرات المستهدفة من خلال تقييم يشمل ما يصل إلى 4096 تعديلات عبر ثلاث استراتيجيات مميزة: التحرير المتسلسل ، تحرير الدُفعات ، ونهج هجين نسميه كتحرير متسلسل. تشير النتائج التي توصلنا إليها إلى أن زيادة أحجام الدفعات قد تؤدي إلى تدهور أداء النموذج بشكل أكثر أهمية من استخدام دفعات التحرير الأصغر بشكل متتابع لعدد متساوٍ من التعديلات. مع هذا ، نؤكد أن تحرير النماذج المتسلسلة هو مكون مهم لتوسيع نطاق طرق تحرير النماذج والأبحاث المستقبلية يجب أن تركز على الأساليب التي تجمع بين كل من التحرير المتجدد والتسلسل. تشير هذه الملاحظة إلى قيود محتملة في أساليب تحرير النماذج الحالية التي تتجه نحو أحجام دفعات أكبر تحرير ، ونأمل أن تهدف إلى تحقيق التحقيقات المستقبلية في تحسين أحجام الدُفعات وأداء تحرير النماذج. | تحرير النموذج |
1 مايو 2024 | Lora Land: 310 LLMs التي تم ضبطها والتي تنافس GPT-4 ، تقرير فني | برزت تكيف الترتيب المنخفض (LORA) كواحدة من أكثر الطرق التي تم اعتمادها على نطاق واسع للضوء الدقيق (PEFT) الفعال (PEFT) لنماذج اللغة الكبيرة (LLMS). يقلل Lora من عدد المعلمات القابلة للتدريب واستخدام الذاكرة مع تحقيق أداء مماثل للضوء الكامل. نحن نهدف إلى تقييم صلاحية التدريب وخدمة LLMs التي تم ضبطها مع Lora في تطبيقات العالم الحقيقي. أولاً ، نقوم بقياس جودة LLMs التي تم ضبطها مع محولات كمية منخفضة التصنيف عبر 10 طرز أساسية و 31 مهمة لما مجموعه 310 نماذج. نجد أن طرز Lora المكونة من 4 بت تتفوق على النماذج الأساسية بمقدار 34 نقطة و GPT-4 بمقدار 10 نقاط في المتوسط. ثانياً ، نتحقق من النماذج الأساسية الأكثر فاعلية لضبط وتقييم القدرات المترابطة والتنبؤة لاستدلال تعقيد المهام في التنبؤ بنتائج التثبيت. أخيرًا ، نقوم بتقييم إمكانيات الكمون والتزامن في Lorax ، وهو خادم الاستدلال متعدد Lora مفتوح المصدر يسهل نشر نماذج LORA التي تم ضبطها على مستوى GPU واحد باستخدام أوزان نموذجية مشتركة وتحميل محول ديناميكي. تقوم شركة Lorax Power Lora Land ، وهي تطبيق ويب يستضيف 25 LORA MISTRAL-7B LLMS على وحدة معالجة الرسومات NVIDIA A100 مع ذاكرة 80 جيجابايت. تبرز Lora Land جودة وفعالية التكلفة لتوظيف LLMs المتخصصة المتعددة على LLM واحد للأغراض العامة. | مقاربات PEFT ، صقل |
انضم إلى أكثر من 1000 طالب في هذه المغامرة التي استمرت 10 أسابيع ونحن نتعمق في تطبيق LLMS عبر مجموعة متنوعة من حالات الاستخدام
؟ ️ *الأسبوع 1 [15 يناير 2024] *: مقدمة عملية إلى LLMS
؟ ️ *الأسبوع 2 [22 يناير 2024] *: هندسة مطالبة ومرحلة
؟ ️ *الأسبوع 3 [29 يناير 2024] *: LLM Tuning
؟ ️ *الأسبوع 4 [5 فبراير 2024] *: خرقة (جيل معجزة)
؟ ️ *الأسبوع 5 [12 فبراير 2024] *: أدوات لبناء تطبيقات LLM
؟ ️ *الأسبوع 6 [19 فبراير 2024] *: تقنيات التقييم
؟ ️ *الأسبوع 7 [26 فبراير 2024] *: بناء تطبيق LLM الخاص بك
؟ ️ *الأسبوع 8 [4 مارس 2024] *: الميزات المتقدمة والنشر
؟ ️ *الأسبوع 9 [11 مارس 2024] *: التحديات مع LLMS
؟ ️ *الأسبوع 10 [18 مارس 2024] *: اتجاهات البحث الناشئة
؟ ️ *الأسبوع 11 *مكافأة *[25 مارس 2024] *: الأسس
نماذج لغة كبيرة من إيث زيوريخ
فهم نماذج اللغة الكبيرة من قبل برينستون
دورة Transformers عن طريق Huggingface
دورة NLP عن طريق Huggingface
CS324 - نماذج لغة كبيرة من ستانفورد
الذكاء الاصطناعي التوليدي مع نماذج لغة كبيرة من قبل Coursera
مقدمة إلى الذكاء الاصطناعى التوليدي بواسطة Coursera
أساسيات الذكاء الاصطناعي بواسطة Google Cloud
مقدمة لنماذج اللغة الكبيرة بواسطة Google Cloud
مقدمة إلى الذكاء الاصطناعي بواسطة Google Cloud
مفاهيم الذكاء الاصطناعي التوليدي بواسطة Datacamp (Daniel Tedesco Data Lead @ Google)
1 ساعة مقدمة إلى LLM (نماذج لغة كبيرة) من قبل Weclouddata
نماذج مؤسسة LLM من الألف إلى الياء | التمهيدي بواسطة Databricks
تولي منظمة العفو الدولية التي أوضحها Nvidia
نماذج المحولات ونموذج BERT بواسطة Google Cloud
خطة التعلم من الذكاء الاصطناعى الصلاحية لصانعي القرار من قبل AWS
مقدمة إلى AI المسؤولة بواسطة Google Cloud
أساسيات الذكاء الاصطناعي من قبل Microsoft Azure
الذكاء الاصطناعى التوليدي للمبتدئين من قبل Microsoft
chatgpt للمبتدئين: حالات الاستخدام النهائية للجميع من قبل Udemy
[1 ساعة حديث] مقدمة لنماذج اللغة الكبيرة من قبل أندريج كاربيني
chatgpt للجميع من خلال تعلم المطالبة
نماذج لغة كبيرة (LLMS) (باللغة الإنجليزية) بقلم Kshitiz Verma (جامعة JK Lakshmipat ، جايبور ، الهند)
LLMOPS: بناء تطبيقات في العالم الحقيقي مع نماذج لغة كبيرة من قبل Udacity
Full Stack LLM Bootcamp بواسطة FSDL
الذكاء الاصطناعى التوليدي للمبتدئين من قبل Microsoft
نماذج لغة كبيرة: التطبيق من خلال الإنتاج بواسطة Databricks
أسس الذكاء الاصطناعى التوليدي بواسطة AWS
مقدمة في دورة مجتمع الذكاء الاصطناعى من قبل إينورون
جامعة LLM بواسطة Cohere
LLM Learning Lab بواسطة Lightning AI
Langchain لتطوير تطبيق LLM بواسطة deeplearning.ai
llmops بواسطة deeplearning.ai
الاختبار الآلي لـ LLMOPS بواسطة deeplearning.ai
بناء تطبيقات الذكاء الاصطناعى الأمازون باستخدام حجر الأساس Amazon بواسطة AWS
خدمة LLMS بكفاءة بواسطة Deeplearning.ai
بناء أنظمة مع API chatgpt من قبل deeplearning.ai
تطبيقات LLM Serverless مع Amazon Bedrock by deeplearning.ai
بناء التطبيقات مع قواعد بيانات المتجهات من قبل deeplearning.ai
الاختبار الآلي لـ LLMOPS بواسطة deeplearning.ai
llmops بواسطة deeplearning.ai
بناء تطبيقات LLM مع langchain.js بواسطة deeplearning.ai
استرجاع متقدم ل AI مع Chroma بواسطة deeplearning.ai
تشغيل LLMS على Azure بواسطة Coursera
دورة AI Full Course - Gemini Pro ، Openai ، Llama ، Langchain ، Pinecone ، قواعد بيانات المتجهات والمزيد من FreeCodecamp.org
تدريب LLMS وضوء الإنتاج من قبل Activeloop
قواعد بيانات Langchain & Vector في الإنتاج بواسطة Activeloop
التعلم التعزيز من ردود الفعل البشرية من قبل deeplearning.ai
بناء التطبيقات مع قواعد بيانات المتجهات من قبل deeplearning.ai
نماذج لغة كبيرة من قبل Deeplearning.ai
Langchain: الدردشة مع بياناتك بواسطة Deeplearning.ai
بناء أنظمة مع API chatgpt من قبل deeplearning.ai
هندسة سريعة مع Llama 2 بواسطة Deeplearning.ai
بناء التطبيقات مع قواعد بيانات المتجهات من قبل deeplearning.ai
chatgpt reghingering للمطورين من قبل deeplearning.ai
سلسلة Advanced Rag Orchestration بواسطة Llamaindex
التخصص الهندسي الفوري من قبل Coursera
قم بزيادة LLM باستخدام جيل معزز للاسترجاع بواسطة Nvidia
الرسوم البيانية المعرفة لـ RAG بواسطة Deeplearning.ai
نماذج مفتوحة المصدر مع وجه المعانقة من قبل deeplearning.ai
قواعد بيانات المتجهات: من التضمينات إلى التطبيقات بواسطة Deeplearning.ai
فهم وتطبيق تضمينات النص بواسطة deeplearning.ai
تطبيقات الويب JavaScript Rag مع Llamaindex بواسطة Deeplearning.ai
الأساسيات الكمية مع وجه المعانقة من قبل deeplearning.ai
البيانات غير المنظمة لتطبيقات LLM من قبل Deeplearning.ai
الجيل المعزز للاسترجاع للإنتاج مع Langchain & Llamaindex بواسطة Activeloop
الكمي في العمق بواسطة deeplearning.ai
إذا كنت ترغب في إضافة إلى المستودع أو العثور على أي مشكلات ، فلا تتردد في رفع العلاقات العامة وضمان الموضع الصحيح في القسم أو الفئة ذات الصلة.
للاستشهاد بهذا الدليل ، استخدم التنسيق أدناه:
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[ترخيص معهد ماساتشوستس للتكنولوجيا]