يشهد الذكاء الاصطناعي التوليدي نموًا سريعًا، ويعمل هذا المستودع كمركز شامل لتحديثات أبحاث الذكاء الاصطناعي التوليدي ومواد المقابلات والدفاتر والمزيد!
استكشف الموارد التالية:
سنقوم بتحديث هذا المستودع بانتظام، لذا ترقب أحدث الإضافات!
تعلم سعيد!
*يتم التحديث نهاية كل شهر
تاريخ | عنوان | خلاصة |
---|---|---|
30 سبتمبر 2024 | MM1.5: الأساليب والتحليلات والرؤى من الضبط الدقيق للماجستير في الوسائط المتعددة | نقدم MM1.5، وهي عائلة جديدة من نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) المصممة لتعزيز القدرات في فهم الصور الغنية بالنص، والإحالة البصرية والتأريض، والاستدلال متعدد الصور. بناءً على بنية MM1، يتبنى MM1.5 نهجًا يركز على البيانات للتدريب النموذجي، ويستكشف بشكل منهجي تأثير مجموعات البيانات المتنوعة عبر دورة حياة تدريب النموذج بأكملها. يتضمن ذلك بيانات التعرف الضوئي على الحروف عالية الجودة والتسميات التوضيحية الاصطناعية للتدريب المسبق المستمر، بالإضافة إلى مزيج بيانات ضبط التعليمات المرئية الأمثل للضبط الدقيق تحت الإشراف. تتراوح نماذجنا من معلمات 1B إلى 30B، بما في ذلك المتغيرات الكثيفة والمختلطة من الخبراء (MoE)، وتثبت أن استراتيجيات تنظيم البيانات والتدريب الدقيقة يمكن أن تؤدي إلى أداء قوي حتى على النطاقات الصغيرة (1B و3B). بالإضافة إلى ذلك، نقدم متغيرين متخصصين: MM1.5-Video، المصمم لفهم الفيديو، وMM1.5-UI، المصمم لفهم واجهة المستخدم المتنقلة. من خلال الدراسات التجريبية والاستئصالات المكثفة، نقدم رؤى تفصيلية حول عمليات التدريب والقرارات التي تحدد تصميماتنا النهائية، مما يوفر إرشادات قيمة للأبحاث المستقبلية في تطوير الامتيازات البحرية. |
26 سبتمبر 2024 | MIO: نموذج أساسي للرموز متعددة الوسائط | في هذه الورقة، نقدم MIO، وهو نموذج أساسي جديد مبني على رموز متعددة الوسائط، قادر على فهم وإنشاء الكلام والنصوص والصور ومقاطع الفيديو بطريقة انحدارية شاملة. في حين أن ظهور نماذج اللغات الكبيرة (LLMs) ونماذج اللغات الكبيرة متعددة الوسائط (MM-LLMs) يدفع التقدم في الذكاء العام الاصطناعي من خلال قدراتها المتنوعة، إلا أنها لا تزال تفتقر إلى الفهم والجيل الحقيقيين. في الآونة الأخيرة، أظهر إصدار GPT-4o الإمكانات الرائعة التي يتمتع بها حاملو شهادات الماجستير في المهام المعقدة في العالم الحقيقي، مما يتيح الإدخال والإخراج متعدد الاتجاهات عبر الصور والكلام والنص. ومع ذلك، فهو مصدر مغلق ولا يدعم إنشاء تسلسلات مشذرة متعددة الوسائط. ولمعالجة هذه الفجوة، نقدم MIO، الذي تم تدريبه على مزيج من الرموز المميزة المنفصلة عبر أربع طرائق باستخدام النمذجة السببية متعددة الوسائط. يخضع MIO لعملية تدريب من أربع مراحل: (1) التدريب المسبق للمحاذاة، (2) التدريب المسبق المتداخل، (3) التدريب المسبق المعزز للكلام، و (4) الضبط الدقيق الشامل الخاضع للإشراف على النصوص والمرئيات المتنوعة. ومهام الكلام. تشير نتائجنا التجريبية إلى أن MIO يُظهر أداءً تنافسيًا، وفي بعض الحالات متفوقًا، مقارنة بخطوط الأساس المزدوجة الوسائط السابقة، وخطوط الأساس النموذجية من أي إلى أي نموذج، وحتى خطوط الأساس الخاصة بالطريقة المحددة. علاوة على ذلك، يُظهر MIO القدرات المتقدمة المتأصلة في ميزة "من أي شيء إلى أي شخص"، مثل إنشاء نص فيديو مشذّب، واستدلال سلسلة الأفكار المرئية، وتوليد المبادئ التوجيهية المرئية، وتحرير الصور التعليمية، وما إلى ذلك. |
26 سبتمبر 2024 | MaskLLM: تناثر شبه منظم قابل للتعلم لنماذج اللغات الكبيرة | تتميز نماذج اللغات الكبيرة (LLMs) بعدد كبير من المعلمات، مما يؤدي عادةً إلى تكرار كبير. يقدم هذا العمل MaskLLM، وهي طريقة تقليم قابلة للتعلم تعمل على إنشاء تناثر شبه منظم (أو ``N:M'') في LLMs، بهدف تقليل الحمل الحسابي أثناء الاستدلال. بدلاً من تطوير معيار أهمية جديد، يقوم MaskLLM بشكل واضح بتصميم أنماط N:M كتوزيع قابل للتعلم من خلال أخذ عينات Gumbel Softmax. يسهل هذا النهج التدريب الشامل على مجموعات البيانات واسعة النطاق ويقدم ميزتين ملحوظتين: 1) أقنعة عالية الجودة - تتدرج طريقتنا بشكل فعال لتشمل مجموعات البيانات الكبيرة وتتعلم الأقنعة الدقيقة؛ 2) قابلية النقل - تتيح النمذجة الاحتمالية لتوزيع القناع نقل التعلم المتناثر عبر المجالات أو المهام. قمنا بتقييم MaskLLM باستخدام متناثرة 2:4 على العديد من شهادات LLM، بما في ذلك LLaMA-2 وNemotron-4 وGPT-3، بأحجام تتراوح من 843M إلى 15B من المعلمات، وتظهر نتائجنا التجريبية تحسينات كبيرة مقارنة بأحدث ما توصلت إليه التكنولوجيا. طُرق. على سبيل المثال، تحقق الأساليب الرائدة درجة حيرة (PPL) تبلغ 10 أو أكثر في Wikitext مقارنة بـ 5.12 PPL للنموذج الكثيف، لكن MaskLLM يحقق درجة أقل بكثير من 6.72 PPL فقط من خلال تعلم الأقنعة ذات الأوزان المجمدة. علاوة على ذلك، تسمح طبيعة MaskLLM القابلة للتعلم بأقنعة مخصصة للتطبيق غير المنقوص بنسبة 2:4 على المهام أو المجالات النهائية. الكود متاح على url{https://github.com/NVlabs/MaskLLM}. |
25 سبتمبر 2024 | Molmo وPixMo: الأوزان المفتوحة والبيانات المفتوحة لأحدث النماذج متعددة الوسائط | تظل نماذج الوسائط المتعددة الأكثر تقدمًا اليوم ملكية خاصة. تعتمد أقوى النماذج ذات الوزن المفتوح بشكل كبير على البيانات الاصطناعية من VLMs المملوكة لتحقيق أداء جيد، وتقطير هذه النماذج المغلقة بشكل فعال إلى نماذج مفتوحة. ونتيجة لذلك، لا يزال المجتمع يفتقر إلى المعرفة الأساسية حول كيفية إنشاء أجهزة VLM عالية الأداء من البداية. نقدم Molmo، وهي عائلة جديدة من أجهزة VLM التي تعد الأحدث في فئتها من الانفتاح. ابتكارنا الرئيسي هو مجموعة بيانات جديدة ومفصلة للغاية لتعليقات الصور تم جمعها بالكامل من المفسرين البشريين باستخدام الأوصاف المستندة إلى الكلام. لتمكين مجموعة واسعة من تفاعلات المستخدم، نقدم أيضًا مزيجًا متنوعًا من مجموعات البيانات للضبط الدقيق الذي يتضمن أسئلة وأجوبة داخلية وبيانات تأشير مبتكرة ثنائية الأبعاد. يعتمد نجاح نهجنا على الاختيارات الدقيقة لتفاصيل بنية النموذج، وخط التدريب المضبوط جيدًا، والأهم من ذلك، جودة مجموعات البيانات التي تم جمعها حديثًا، والتي سيتم إصدارها جميعًا. لا يتفوق نموذج 72B الأفضل في فئته ضمن عائلة Molmo على الآخرين في فئة الوزن المفتوح ونماذج البيانات فحسب، بل يقارن أيضًا بشكل إيجابي مع الأنظمة الخاصة مثل GPT-4o وClaude 3.5 وGemini 1.5 في كل من المعايير الأكاديمية والتقييم البشري. . سنقوم بإصدار جميع أوزان النماذج والتسميات التوضيحية وبيانات الضبط الدقيق وكود المصدر في المستقبل القريب. تتوفر أوزان النماذج المحددة ورمز الاستدلال والعرض التوضيحي على https://molmo.allenai.org. |
25 سبتمبر 2024 | VPTQ: تكمية ما بعد التدريب لمتجهات منخفضة البت للغاية لنماذج اللغات الكبيرة | إن توسيع حجم النموذج يتحدى بشكل كبير نشر واستدلال نماذج اللغات الكبيرة (LLMs). نظرًا للتكرار في أوزان LLM، ركزت الأبحاث الحديثة على دفع تكميم الوزن فقط إلى بت منخفض للغاية (حتى يصل إلى 2 بت). فهو يقلل من متطلبات الذاكرة، ويحسن تكاليف التخزين، ويقلل من احتياجات النطاق الترددي للذاكرة أثناء الاستدلال. ومع ذلك، نظرًا لقيود التمثيل العددي، فإن تكميم الوزن التقليدي القائم على العددية يكافح من أجل تحقيق مثل هذه البتات المنخفضة للغاية. أظهرت الأبحاث الحديثة حول تقدير المتجهات (VQ) لـ LLMs إمكانية تكميم نموذج البتات المنخفضة للغاية عن طريق ضغط المتجهات في مؤشرات باستخدام جداول البحث. في هذه الورقة، نقدم تقنية القياس الكمي الموجه لما بعد التدريب (VPTQ) من أجل تكميم البتات المنخفضة للغاية لمجالات LLM. نحن نستخدم تحسين الترتيب الثاني لصياغة مشكلة LLM VQ وتوجيه تصميم خوارزمية القياس الكمي لدينا من خلال حل التحسين. نقوم بتحسين الأوزان بشكل أكبر باستخدام تحسين الترتيب الثاني المستقل للقناة للحصول على VQ محبب. بالإضافة إلى ذلك، من خلال تحليل مشكلة التحسين، نقترح خوارزمية تهيئة كتاب الرموز مختصرة وفعالة. نقوم أيضًا بتوسيع VPTQ لدعم التكميم المتبقي والخارجي، مما يعزز دقة النموذج ويزيد من ضغط النموذج. تظهر نتائجنا التجريبية أن VPTQ يقلل من حيرة القياس الكمي للنموذج بمقدار |
24 سبتمبر 2024 | Time-MoE: نماذج مؤسسة لسلاسل زمنية بمقياس ملياري مع مزيج من الخبراء | شهد التعلم العميق للتنبؤ بالسلاسل الزمنية تطورات كبيرة على مدى العقود الماضية. ومع ذلك، على الرغم من نجاح التدريب المسبق على نطاق واسع في مجالات اللغة والرؤية، تظل نماذج السلاسل الزمنية المدربة مسبقًا محدودة الحجم وتعمل بتكلفة عالية، مما يعيق تطوير نماذج تنبؤية أكبر قدرة في تطبيقات العالم الحقيقي. واستجابة لذلك، نقدم Time-MoE، وهي بنية موحدة وقابلة للتطوير مصممة للتدريب المسبق على نماذج أساس تنبؤية أكبر وأكثر قدرة مع تقليل تكاليف الاستدلال. من خلال الاستفادة من تصميم خليط متناثر من الخبراء (MoE)، يعمل Time-MoE على تعزيز الكفاءة الحسابية من خلال تنشيط مجموعة فرعية فقط من الشبكات لكل تنبؤ، مما يقلل الحمل الحسابي مع الحفاظ على سعة النموذج العالية. يتيح ذلك لـ Time-MoE التوسع بشكل فعال دون زيادة مقابلة في تكاليف الاستدلال. يشتمل Time-MoE على عائلة من نماذج المحولات الخاصة بوحدة فك التشفير فقط والتي تعمل بطريقة انحدارية تلقائية وتدعم آفاق التنبؤ المرنة بأطوال سياق الإدخال المختلفة. لقد قمنا بتدريب هذه النماذج مسبقًا على بياناتنا واسعة النطاق Time-300B التي تم تقديمها حديثًا، والتي تمتد على أكثر من 9 مجالات وتشمل أكثر من 300 مليار نقطة زمنية. ولأول مرة، قمنا بتوسيع نطاق نموذج أساس السلاسل الزمنية ليصل إلى 2.4 مليار معلمة، مما أدى إلى تحقيق دقة تنبؤ محسنة بشكل كبير. تتحقق نتائجنا من إمكانية تطبيق قوانين القياس لرموز التدريب وحجم النموذج في سياق التنبؤ بالسلاسل الزمنية. بالمقارنة مع النماذج الكثيفة التي لها نفس العدد من المعلمات النشطة أو ميزانيات الحساب المكافئة، فإن نماذجنا تتفوق عليها باستمرار بفارق كبير. تضع هذه التطورات Time-MoE كحل متطور لمعالجة تحديات التنبؤ بالسلاسل الزمنية في العالم الحقيقي بقدرة وكفاءة ومرونة فائقة. |
23 سبتمبر 2024 | دراسة أولية لـ o1 في الطب: هل نحن أقرب إلى طبيب الذكاء الاصطناعي؟ | أظهرت النماذج اللغوية الكبيرة (LLMs) قدرات ملحوظة في مختلف المجالات والمهام، مما دفع حدود معرفتنا في التعلم والإدراك. يبرز النموذج الأحدث، OpenAI's o1، كأول ماجستير في إدارة الأعمال باستخدام تقنية سلسلة التفكير الداخلية باستخدام استراتيجيات التعلم المعزز. وفي حين أظهرت قدرات قوية بشكل مدهش في مختلف المهام اللغوية العامة، إلا أن أدائها في المجالات المتخصصة مثل الطب لا يزال غير معروف. ولتحقيق هذه الغاية، يقدم هذا التقرير استكشافًا شاملاً لـ o1 في سيناريوهات طبية مختلفة، ويفحص ثلاثة جوانب رئيسية: الفهم والاستدلال وتعدد اللغات. على وجه التحديد، يشمل تقييمنا 6 مهام باستخدام بيانات من 37 مجموعة بيانات طبية، بما في ذلك مهمتين للإجابة على الأسئلة (QA) تم إنشاؤهما حديثًا وأكثر صعوبة استنادًا إلى اختبارات طبية احترافية من مجلة New England Journal of Medicine (NEJM) وThe Lancet. توفر مجموعات البيانات هذه أهمية سريرية أكبر مقارنة بمعايير ضمان الجودة الطبية القياسية مثل MedQA، مما يترجم بشكل أكثر فعالية إلى فائدة سريرية في العالم الحقيقي. يشير تحليلنا لـ o1 إلى أن القدرة الاستدلالية المعززة لطلاب LLM قد تفيد (بشكل كبير) قدرتهم على فهم التعليمات الطبية المختلفة والعقل من خلال السيناريوهات السريرية المعقدة. ومن الجدير بالذكر أن o1 يتفوق على GPT-4 السابق من حيث الدقة بمتوسط 6.2% و6.6% عبر 19 مجموعة بيانات وسيناريوهين معقدين لضمان الجودة تم إنشاؤهما حديثًا. ولكن في الوقت نفسه، حددنا العديد من نقاط الضعف في كل من قدرة النموذج وبروتوكولات التقييم الحالية، بما في ذلك الهلوسة، والقدرة غير المتسقة في تعدد اللغات، ومقاييس التقييم المتضاربة. ننشر بياناتنا الأولية ومخرجات النموذج على https://ucsc-vlaa.github.io/o1_medicine/ للبحث المستقبلي. |
21 سبتمبر 2024 | اتباع التعليمات دون ضبط التعليمات | ضبط التعليمات يعني عادة ضبط نموذج اللغة على أزواج التعليمات والاستجابة. نكتشف شكلين من أشكال التكيف (الضبط) ناقصين مقارنة بضبط التعليمات، ومع ذلك لا يزالان يؤديان إلى اتباع التعليمات؛ نحن نسمي هذا ضبط التعليمات الضمنية. لقد وجدنا أولاً أن أزواج التعليمات والاستجابة ليست ضرورية: فالتدريب فقط على الاستجابات، دون أي تعليمات مقابلة، يؤدي إلى اتباع التعليمات. يشير هذا إلى أن النماذج المدربة مسبقًا تحتوي على خريطة للتعليمات والاستجابة والتي يتم الكشف عنها من خلال تعليم النموذج التوزيع المطلوب للاستجابات. ومع ذلك، فإننا نجد بعد ذلك أنه ليس من الضروري تدريس التوزيع المرغوب فيه للاستجابات: فالتدريب على الاستجابة للتعليمات على بيانات النطاق الضيق مثل الشعر لا يزال يؤدي إلى سلوك واسع النطاق يتبع التعليمات مثل إنشاء الوصفات. على وجه الخصوص، عندما تكون التعليمات مختلفة تمامًا عن تلك الموجودة في مجال الضبط الدقيق، فإن استجابات النماذج لا تلتزم بأسلوب مجال الضبط الدقيق. للبدء في شرح ضبط التعليمات الضمنية، نفترض أن التغييرات البسيطة جدًا في توزيع نموذج اللغة تؤدي إلى اتباع التعليمات. نحن ندعم ذلك من خلال الكتابة اليدوية لنموذج لغة قائم على القواعد والذي ينتج عنه التعليمات التالية في منتج من الخبراء باستخدام نموذج تم تدريبه مسبقًا. تتمثل القواعد في زيادة احتمال إنهاء التسلسل ببطء، ومعاقبة التكرار، وتغيير احتمالات 15 كلمة بشكل موحد. باختصار، التعديلات التي تم إجراؤها دون أن تكون مصممة لإنتاج التعليمات التالية يمكن أن تفعل ذلك ضمنيًا. |
20 سبتمبر 2024 | تخيل نفسك: إنشاء صور شخصية بدون ضبط | أثبتت نماذج الانتشار فعالية ملحوظة عبر مختلف مهام تحويل الصورة إلى صورة. في هذا البحث، نقدم لك تخيل نفسك، وهو نموذج حديث مصمم لتوليد الصور الشخصية. على عكس تقنيات التخصيص التقليدية القائمة على الضبط، يعمل برنامج تخيل نفسك كنموذج خالٍ من الضبط، مما يمكّن جميع المستخدمين من الاستفادة من إطار عمل مشترك دون تعديلات فردية. علاوة على ذلك، واجه العمل السابق تحديات في تحقيق التوازن بين الحفاظ على الهوية، واتباع المطالبات المعقدة والحفاظ على جودة بصرية جيدة، مما أدى إلى وجود نماذج لها تأثير نسخ ولصق قوي للصور المرجعية. وبالتالي، يصعب عليهم إنشاء صور باتباع المطالبات التي تتطلب تغييرات كبيرة في الصورة المرجعية، على سبيل المثال، تغيير تعبيرات الوجه ووضعيات الرأس والجسم، كما أن تنوع الصور التي تم إنشاؤها منخفض. لمعالجة هذه القيود، تقدم طريقتنا المقترحة 1) آلية جديدة لتوليد البيانات المقترنة الاصطناعية لتشجيع تنوع الصور، 2) بنية اهتمام متوازية تمامًا مع ثلاثة برامج ترميز نصية وجهاز تشفير رؤية قابل للتدريب بالكامل لتحسين دقة النص، و3) أ منهجية ضبط جديدة متعددة المراحل من الخشن إلى الناعم تدفع تدريجيًا حدود الجودة البصرية. توضح دراستنا أن تخيل نفسك يتفوق على نموذج التخصيص الحديث، ويظهر قدرات فائقة في الحفاظ على الهوية، والجودة البصرية، ومحاذاة النص. يرسي هذا النموذج أساسًا قويًا لمختلف تطبيقات التخصيص. تؤكد نتائج التقييم البشري تفوق SOTA للنموذج في جميع الجوانب (الحفاظ على الهوية، وإخلاص النص، والجاذبية البصرية) مقارنة بنماذج التخصيص السابقة. |
19 سبتمبر 2024 | تدريب نماذج اللغة على التصحيح الذاتي من خلال التعلم المعزز | يعد التصحيح الذاتي قدرة مرغوبة للغاية في نماذج اللغات الكبيرة (LLMs)، ومع ذلك فقد وجد باستمرار أنه غير فعال إلى حد كبير في LLMs الحديثة. تعتمد الأساليب الحالية لتدريب التصحيح الذاتي عادةً إما على نماذج متعددة، أو نموذج أكثر تقدمًا، أو أشكال إضافية من الإشراف. لمعالجة أوجه القصور هذه، قمنا بتطوير نهج التعلم المعزز عبر الإنترنت (RL) متعدد المنعطفات، SCoRe، الذي يعمل على تحسين قدرة التصحيح الذاتي لـ LLM بشكل كبير باستخدام البيانات المولدة ذاتيًا بالكامل. لإنشاء SCoRe، نوضح أولاً أن متغيرات الضبط الدقيق الخاضع للإشراف (SFT) على آثار التصحيح التي تم إنشاؤها بواسطة النموذج دون اتصال بالإنترنت غالبًا ما تكون غير كافية لغرس سلوك التصحيح الذاتي. على وجه الخصوص، نلاحظ أن التدريب عبر SFT يقع فريسة إما لعدم تطابق التوزيع بين الأخطاء التي ارتكبتها سياسة جمع البيانات واستجابات النموذج نفسه، أو لانهيار السلوك، حيث يفضل التعلم ضمنيًا نمطًا معينًا فقط من سلوك التصحيح الذي غالبًا ما يكون ليست فعالة في التصحيح الذاتي في مشاكل الاختبار. يعالج SCoRe هذه التحديات من خلال التدريب في ظل توزيع النموذج الخاص لآثار التصحيح التي تم إنشاؤها ذاتيًا واستخدام التنظيم المناسب لتوجيه عملية التعلم إلى تعلم سلوك التصحيح الذاتي الذي يكون فعالاً في وقت الاختبار بدلاً من ملاءمة الاستجابات ذات المكافأة العالية لعنصر معين. اِسْتَدْعَى. تتضمن عملية التنظيم هذه مرحلة أولية من RL متعدد المنعطفات على نموذج أساسي لإنشاء تهيئة سياسة أقل عرضة للانهيار، يليها استخدام مكافأة المكافأة لتضخيم التصحيح الذاتي. مع نماذج Gemini 1.0 Pro و1.5 Flash، نجد أن SCoRe يحقق أداء تصحيح ذاتي متطور، مما يؤدي إلى تحسين التصحيح الذاتي للنماذج الأساسية بنسبة 15.6% و9.1% على التوالي في MATH وHumanEval. |
19 سبتمبر 2024 | القياس الذكي: تسريع التدريب المسبق لنموذج اللغة الكبير باستخدام تهيئة النموذج الصغير | غالبًا ما تبدأ مرحلة ما قبل التدريب لنماذج اللغة بمعلمات تمت تهيئتها بشكل عشوائي. مع الاتجاهات الحالية في نماذج القياس، يمكن أن يكون تدريب عدد كبير من المعلمات بطيئًا ومكلفًا للغاية. وفي المقابل، فإن تدريب النماذج اللغوية الصغيرة أقل تكلفة، لكنها في كثير من الأحيان لا تستطيع تحقيق دقة النماذج الكبيرة. في هذه الورقة، نستكشف فكرة مثيرة للاهتمام لربط هذين النظامين المختلفين: هل يمكننا تطوير طريقة لتهيئة نماذج لغوية كبيرة باستخدام نماذج أصغر مدربة مسبقًا؟ هل ستحقق هذه التهيئة أي فوائد من حيث وقت التدريب والدقة النهائية؟ في هذا البحث، نقدم تقنية HyperCloning، وهي طريقة يمكنها توسيع معلمات نموذج اللغة المدرب مسبقًا إلى تلك الخاصة بنموذج أكبر مع زيادة الأبعاد المخفية. تضمن طريقتنا احتفاظ النموذج الأكبر بوظيفة النموذج الأصغر. ونتيجة لذلك، يرث النموذج الأكبر بالفعل القوة التنبؤية والدقة للنموذج الأصغر قبل بدء التدريب. لقد أثبتنا أن تدريب مثل هذا النموذج الذي تمت تهيئته يؤدي إلى توفير كبير من حيث ساعات وحدة معالجة الرسومات المطلوبة للتدريب المسبق على نماذج اللغات الكبيرة. |
18 سبتمبر 2024 | Qwen2.5-التقرير الفني للمبرمج | في هذا التقرير، نقدم سلسلة Qwen2.5-Coder، وهي ترقية مهمة عن سابقتها، CodeQwen1.5. تتضمن هذه السلسلة طرازين: Qwen2.5-Coder-1.5B وQwen2.5-Coder-7B. كنموذج خاص بكود محدد، تم بناء Qwen2.5-Coder على بنية Qwen2.5 ويستمر تدريبه مسبقًا على مجموعة كبيرة تضم أكثر من 5.5 تريليون رمز مميز. من خلال التنظيف الدقيق للبيانات، وتوليد البيانات الاصطناعية القابلة للتطوير، وخلط البيانات المتوازن، يُظهر Qwen2.5-Coder قدرات رائعة في إنشاء التعليمات البرمجية مع الحفاظ على التنوع العام. تم تقييم النموذج على نطاق واسع من المهام المتعلقة بالتعليمات البرمجية، مما أدى إلى تحقيق أداء متطور (SOTA) عبر أكثر من 10 معايير، بما في ذلك إنشاء التعليمات البرمجية، والإكمال، والاستدلال، والإصلاح، والتفوق باستمرار على النماذج الأكبر من النموذج. نفس حجم النموذج. نحن نؤمن بأن إصدار سلسلة Qwen2.5-Coder لن يدفع حدود البحث في مجال ذكاء التعليمات البرمجية فحسب، بل سيشجع أيضًا، من خلال ترخيصها المتسامح، على اعتماد أوسع من قبل المطورين في تطبيقات العالم الحقيقي. |
18 سبتمبر 2024 | دراسة مضبوطة حول تمديد السياق الطويل والتعميم في ماجستير إدارة الأعمال | يتطلب الفهم النصي الواسع والتعلم في السياق نماذج لغوية تستخدم سياقات المستند الكاملة. نظرًا لتحديات التنفيذ المرتبطة بالتدريب المباشر على نماذج السياق الطويل، فقد تم اقتراح العديد من الطرق لتوسيع النماذج للتعامل مع السياقات الطويلة. ومع ذلك، ونظرًا للاختلافات في البيانات وفئات النماذج، كان من الصعب مقارنة هذه الأساليب، مما أدى إلى عدم اليقين بشأن كيفية تقييم الأداء طويل السياق وما إذا كان يختلف عن التقييم القياسي. نحن ننفذ بروتوكولًا خاضعًا للرقابة لطرق الإرشاد مع تقييم موحد، باستخدام نماذج أساسية متسقة وبيانات الإرشاد. تسفر دراستنا عن العديد من الأفكار حول السلوك طويل السياق. أولاً، نؤكد من جديد الدور الحاسم للحيرة كمؤشر أداء للأغراض العامة حتى في المهام ذات السياق الأطول. ثانيًا، وجدنا أن أساليب الاهتمام التقريبي الحالية تؤدي أداءً ضعيفًا بشكل منهجي عبر المهام ذات السياق الطويل. أخيرًا، نؤكد أن الأساليب المعتمدة على الضبط الدقيق تكون فعالة بشكل عام في نطاق امتدادها، في حين يظل الاستقراء أمرًا صعبًا. سيتم توفير جميع قواعد التعليمات البرمجية والنماذج ونقاط التفتيش مفتوحة المصدر، مما يعزز الشفافية ويسهل إجراء المزيد من الأبحاث في هذا المجال الحاسم لتطوير الذكاء الاصطناعي. |
18 سبتمبر 2024 | LLMs + Persona-Plug = LLMs مخصصة | يلعب التخصيص دورًا حاسمًا في العديد من المهام والتطبيقات اللغوية، نظرًا لأن المستخدمين الذين لديهم نفس المتطلبات قد يفضلون مخرجات متنوعة بناءً على اهتماماتهم الفردية. وقد أدى ذلك إلى تطوير أساليب مخصصة مختلفة تهدف إلى تكييف نماذج اللغات الكبيرة (LLMs) لإنشاء مخرجات مخصصة تتماشى مع تفضيلات المستخدم. يتضمن بعضها ضبطًا دقيقًا لمادة LLM مخصصة وفريدة لكل مستخدم، وهو أمر مكلف للغاية بحيث لا يمكن تطبيقه على نطاق واسع. تقدم الأساليب البديلة معلومات التخصيص بطريقة التوصيل والتشغيل من خلال استرداد النصوص التاريخية ذات الصلة للمستخدم كعروض توضيحية. ومع ذلك، فإن هذه الإستراتيجية القائمة على الاسترجاع قد تؤدي إلى قطع استمرارية سجل المستخدم وتفشل في التقاط الأنماط والأنماط العامة للمستخدم، مما يؤدي إلى أداء دون المستوى الأمثل. ولمواجهة هذه التحديات، نقترح نموذجًا جديدًا ومخصصًا لماجستير إدارة الأعمال، خاص بنا{}. يقوم بإنشاء تضمين خاص بالمستخدم لكل فرد من خلال نمذجة جميع سياقاته التاريخية من خلال وحدة تضمين مستخدم إضافية خفيفة الوزن. من خلال إرفاق هذا التضمين بمدخلات المهمة، يمكن لطلاب LLM فهم عادات المستخدم وتفضيلاته والتقاطها بشكل أفضل، وبالتالي إنتاج مخرجات أكثر تخصيصًا دون ضبط المعلمات الخاصة بهم. تثبت التجارب المكثفة على المهام المختلفة في معيار تخصيص نموذج اللغة (LaMP) أن النموذج المقترح يتفوق بشكل كبير على أساليب LLM المخصصة الحالية. |
17 سبتمبر 2024 | NVLM: LLMs متعددة الوسائط من الدرجة الحدودية المفتوحة | نقدم NVLM 1.0، وهي عائلة من نماذج اللغات الكبيرة متعددة الوسائط (LLMs) من الدرجة الأولى التي تحقق أحدث النتائج في مهام لغة الرؤية، وتنافس النماذج المسجلة الملكية الرائدة (على سبيل المثال، GPT-4o) والوصول المفتوح النماذج (على سبيل المثال، Llama 3-V 405B وInternVL 2). ومن اللافت للنظر أن NVLM 1.0 يُظهر أداءً محسنًا للنص فقط عبر عموده الفقري LLM بعد التدريب متعدد الوسائط. فيما يتعلق بتصميم النموذج، فإننا نقوم بإجراء مقارنة شاملة بين LLMs متعدد الوسائط المخصص لوحدة فك التشفير فقط (على سبيل المثال، LLaVA) والنماذج القائمة على الاهتمام المتبادل (على سبيل المثال، Flamingo). واستنادًا إلى نقاط القوة والضعف في كلا النهجين، فإننا نقترح بنية جديدة تعزز كفاءة التدريب وقدرات التفكير متعدد الوسائط. علاوة على ذلك، نقدم تصميمًا لعلامات التجانب أحادية الأبعاد للصور الديناميكية عالية الدقة القائمة على التجانب، مما يعزز الأداء بشكل كبير في التفكير متعدد الوسائط والمهام المتعلقة بالتعرف الضوئي على الحروف. فيما يتعلق ببيانات التدريب، فإننا ننظم بدقة ونقدم معلومات مفصلة عن التدريب المسبق متعدد الوسائط لدينا ومجموعات بيانات الضبط الدقيق الخاضعة للإشراف. تشير النتائج التي توصلنا إليها إلى أن جودة مجموعة البيانات وتنوع المهام أكثر أهمية من الحجم، حتى أثناء مرحلة ما قبل التدريب، عبر جميع البنى. ومن الجدير بالذكر أننا نقوم بتطوير وسائط متعددة على مستوى الإنتاج لنماذج NVLM-1.0، مما يمكّنها من التفوق في مهام لغة الرؤية مع الحفاظ على أداء النص فقط وحتى تحسينه مقارنة بالأعمدة الأساسية لـ LLM الخاصة بها. ولتحقيق ذلك، نقوم بصياغة ودمج مجموعة بيانات نصية عالية الجودة في التدريب متعدد الوسائط، جنبًا إلى جنب مع كمية كبيرة من البيانات الرياضية والاستدلالية متعددة الوسائط، مما يؤدي إلى تعزيز قدرات الرياضيات والترميز عبر الأساليب. لتعزيز البحث في هذا المجال، قمنا بإصدار أوزان النموذج وسنفتح الكود البرمجي للمجتمع: https://nvlm-project.github.io/. |
17 سبتمبر 2024 | الموجه: يمكن مطالبة المستردين المدربين على التعليمات مثل نماذج اللغة | نماذج اللغة المضبوطة للتعليمات (LM) قادرة على الاستجابة للأوامر الحتمية، مما يوفر واجهة مستخدم أكثر طبيعية مقارنة بنظيراتها الأساسية. في هذا العمل، نقدم Promptriever، وهو أول نموذج استرجاع يمكن تحفيزه مثل LM. لتدريب Promptriever، نقوم برعاية وإصدار مجموعة تدريب جديدة على مستوى المثيل من MS MARCO، والتي تغطي ما يقرب من 500 ألف مثيل. لا يحقق برنامج Promptriver أداءً قويًا في مهام الاسترجاع القياسية فحسب، بل يتبع التعليمات أيضًا. نلاحظ: (1) مكاسب كبيرة (الوصول إلى SoTA) في اتباع التعليمات التفصيلية ذات الصلة (+14.3 p-MRR / +3.1 nDCG على FollowIR)، (2) زيادة كبيرة في قوة الاختيارات المعجمية/الصياغة في الاستعلام + التعليمات (+12.9) Robustness@10 على InstructIR)، و(3) القدرة على إجراء بحث عن المعلمات الفائقة من خلال المطالبة بتحسين أداء الاسترجاع بشكل موثوق (+1.4 متوسط زيادة في بير). يوضح Promptriever أنه يمكن التحكم في نماذج الاسترجاع من خلال المطالبات على أساس كل استعلام، مما يمهد الطريق للعمل المستقبلي الذي يقوم بمواءمة تقنيات مطالبة LM مع استرجاع المعلومات. |
17 سبتمبر 2024 | تقييم شامل لنماذج اللغة الكبيرة المضبوطة للتعليم الكمي: تحليل تجريبي يصل إلى 405B | قامت الأعمال البحثية السابقة بتقييم LLMs الكمية باستخدام مقاييس محدودة مثل الحيرة أو عدد قليل من مهام المعرفة الأساسية ومجموعات البيانات القديمة. بالإضافة إلى ذلك، لم يتم فحص النماذج الحديثة واسعة النطاق مثل Llama 3.1 التي تصل إلى 405B بشكل شامل. تقوم هذه الورقة بتقييم أداء LLMs المضبوطة بالتعليمات عبر طرق القياس الكمي المختلفة (GPTQ، AWQ، SmoothQuant، وFP8) على نماذج تتراوح من 7B إلى 405B. باستخدام 13 معيارًا، نقوم بتقييم الأداء عبر ستة أنواع من المهام: الأسئلة والأجوبة المنطقية، والمعرفة وفهم اللغة، واتباع التعليمات، واكتشاف الهلوسة، والرياضيات، والحوار. تكشف النتائج الرئيسية التي توصلنا إليها أن (1) قياس LLM أكبر إلى حجم مماثل لـ FP16 LLM الأصغر يؤدي عمومًا بشكل أفضل عبر معظم المعايير، باستثناء اكتشاف الهلوسة والتعليمات التالية؛ (2) يختلف الأداء بشكل كبير باختلاف طرق القياس الكمي، وحجم النموذج، وعرض البت، حيث تؤدي طرق الوزن فقط في كثير من الأحيان إلى نتائج أفضل في النماذج الأكبر؛ (3) صعوبة المهمة لا تؤثر بشكل كبير على تدهور الدقة بسبب التكميم؛ و (4) أسلوب تقييم MT-Bench له قوة تمييزية محدودة بين طلاب LLM ذوي الأداء العالي. |
16 سبتمبر 2024 | الاهتمام بالاسترجاع: تسريع استدلال LLM للسياق الطويل عبر استرجاع المتجهات | أصبحت نماذج اللغات الكبيرة القائمة على المحولات (LLMs) ذات أهمية متزايدة. ومع ذلك، نظرًا للتعقيد الزمني التربيعي لحساب الاهتمام، فإن توسيع نطاق LLM إلى سياقات أطول يؤدي إلى زمن استجابة استدلالي بطيء للغاية واستهلاك مرتفع لذاكرة وحدة معالجة الرسومات للتخزين المؤقت لمتجهات القيمة الرئيسية (KV). تقترح هذه الورقة RetrievalAttention، وهو نهج خالي من التدريب لتسريع حساب الانتباه وتقليل استهلاك ذاكرة وحدة معالجة الرسومات. من خلال الاستفادة من آلية التفرق الديناميكي للانتباه، يقترح برنامج RetrievalAttention استخدام فهارس البحث التقريبي لأقرب جيران (ANNS) لمتجهات KV في ذاكرة وحدة المعالجة المركزية واسترداد الفهارس الأكثر صلة باستخدام بحث المتجهات أثناء الإنشاء. لسوء الحظ، نلاحظ أن فهارس ANNS الجاهزة غالبًا ما تكون غير فعالة لمهام الاسترجاع هذه بسبب عدم التوزيع (OOD) بين متجهات الاستعلام والمتجهات الرئيسية في آلية الانتباه. يعالج RetrievalAttention تحدي OOD من خلال تصميم خوارزمية بحث متجهة مدركة للانتباه يمكنها التكيف مع توزيع متجهات الاستعلام. يوضح تقييمنا أن RetrievalAttention يحتاج فقط إلى الوصول إلى 1-3% من البيانات مع الحفاظ على دقة النموذج العالية. يؤدي هذا إلى انخفاض كبير في تكلفة الاستدلال لـ LLMs ذات السياق الطويل مع مساحة ذاكرة GPU أقل بكثير. على وجه الخصوص، يحتاج RetrievalAttention فقط إلى NVIDIA RTX4090 (24 جيجابايت) واحد لخدمة 128 ألف رمز مميز في LLMs مع معلمات 8B، وهو قادر على إنشاء رمز مميز واحد في 0.188 ثانية. |
16 سبتمبر 2024 | محول كولموجوروف-أرنولد | تمثل المحولات حجر الزاوية في التعلم العميق الحديث. تقليديًا، تعتمد هذه النماذج على طبقات الإدراك الحسي متعددة الطبقات (MLP) لخلط المعلومات بين القنوات. في هذا البحث، نقدم محول Kolmogorov-Arnold (KAT)، وهو عبارة عن بنية جديدة تستبدل طبقات MLP بطبقات شبكة Kolmogorov-Arnold (KAN) لتعزيز تعبير النموذج وأدائه. ومع ذلك، فإن دمج شبكات KAN في المحولات ليس بالأمر السهل، خاصة عند توسيع نطاقه. وعلى وجه التحديد، حددنا ثلاثة تحديات رئيسية: (C1) الوظيفة الأساسية. لم يتم تحسين وظيفة B-spline القياسية المستخدمة في شبكات KAN للحوسبة المتوازية على الأجهزة الحديثة، مما يؤدي إلى سرعات استدلال أبطأ. (C2) عدم كفاءة المعلمة والحساب. يتطلب KAN وظيفة فريدة لكل زوج من المدخلات والمخرجات، مما يجعل الحساب كبيرًا للغاية. (C3) تهيئة الوزن. تمثل تهيئة الأوزان في شبكات KAN تحديًا خاصًا نظرًا لوظائف التنشيط القابلة للتعلم، والتي تعتبر ضرورية لتحقيق التقارب في الشبكات العصبية العميقة. للتغلب على التحديات المذكورة أعلاه، نقترح ثلاثة حلول رئيسية: (S1) الأساس العقلاني. نحن نستبدل وظائف B-spline بوظائف عقلانية لتحسين التوافق مع وحدات معالجة الرسومات الحديثة. ومن خلال تنفيذ ذلك في CUDA، نحقق حسابات أسرع. (S2) مجموعة كان. نحن نشارك أوزان التنشيط من خلال مجموعة من الخلايا العصبية، لتقليل الحمل الحسابي دون التضحية بالأداء. (S3) تهيئة الحفاظ على التباين. نقوم بتهيئة أوزان التنشيط بعناية للتأكد من الحفاظ على تباين التنشيط عبر الطبقات. مع هذه التصميمات ، تتفوق KAT بشكل فعال وسهولة على المحولات التقليدية المستندة إلى MLP. |
16 سبتمبر 2024 | على مخطط الفكر | نقدم رسم تخطيطي للفكر (DOT) ، وهو إطار يعمل على علب التفكير التكراري في نماذج اللغة الكبيرة (LLMS) كبناء لرسم بياني حكيمي موجه (DAG) داخل نموذج واحد. على عكس الأساليب التقليدية التي تمثل التفكير كسلاسل خطية أو أشجار ، تنظم DOT المقترحات والانتقادات والتحسينات والتحسينات في بنية DAG متماسكة ، مما يسمح للنموذج باستكشاف مسارات التفكير المعقدة مع الحفاظ على الاتساق المنطقي. تتوافق كل عقدة في الرسم البياني مع اقتراح تم اقتراحه أو انتقاده أو صقله أو التحقق منه ، مما يتيح LLM تحسين تفكيره من خلال ملاحظات اللغة الطبيعية. من خلال الاستفادة من التنبؤ التلقائي القادم مع الرموز المميزة للدور ، يسهل DOT التحولات السلسة بين اقتراح الأفكار وتقييمها بشكل نقدي ، وتوفير ملاحظات أكثر ثراءً من الإشارات الثنائية. علاوة على ذلك ، نقوم بإضفاء الطابع الرسمي على إطار النقل باستخدام نظرية TOPOS ، مما يوفر أساسًا رياضيًا يضمن الاتساق المنطقي والسلامة في عملية التفكير. يعزز هذا النهج كل من عمليات التدريب والاستدلال داخل LLM واحد ، مما يلغي الحاجة إلى نماذج متعددة أو آليات التحكم الخارجية. يقدم DOT إطارًا مفاهيميًا لتصميم النماذج المتخصصة في الجيل التالي ، مع التركيز على كفاءة التدريب ، وقدرات التفكير القوية ، والتأسيس النظري. الكود متاح على https://github.com/diagram-of-edrey/diagram-of-hought. |
12 سبتمبر 2024 | DSBENCH: إلى أي مدى هم وكلاء علوم البيانات ليصبحوا خبراء في علم البيانات؟ | أظهرت نماذج اللغة الكبيرة (LLMS) ونماذج لغة الرؤية الكبيرة (LVLMs) قدرات مثيرة للإعجاب في اللغة/الرؤية ، مما يؤدي إلى إشعال الاتجاه الأخير لوكلاء البناء للتطبيقات المستهدفة مثل مساعدي التسوق أو مهندسي برمجيات الذكاء الاصطناعي. في الآونة الأخيرة ، تم اقتراح العديد من معايير علوم البيانات للتحقيق في أدائها في مجال علوم البيانات. ومع ذلك ، لا تزال معايير علوم البيانات الحالية تقصر عند مقارنتها بتطبيقات علوم البيانات في العالم الحقيقي بسبب إعداداتها المبسطة. لسد هذه الفجوة ، نقدم DSBench ، وهو معيار شامل مصمم لتقييم عوامل علوم البيانات بمهام واقعية. يتضمن هذا المعيار 466 مهمة لتحليل البيانات و 74 مهمة نمذجة البيانات ، والتي يتم الحصول عليها من مسابقات البلاغة و Kaggle. يوفر DSBench إعدادًا واقعيًا عن طريق شمل سياقات طويلة وخلفيات مهمة متعددة الوسائط والتفكير مع ملفات البيانات الكبيرة والهياكل متعددة الطاولة ، وأداء مهام نمذجة البيانات الشاملة. يوضح تقييمنا لأحدث LLMs و LVLMs والوكلاء أنهم يكافحون مع معظم المهام ، مع أفضل وكيل يحل 34.12 ٪ فقط من مهام تحليل البيانات وتحقيق فجوة أداء نسبية 34.74 ٪ (RPG). تؤكد هذه النتائج على الحاجة إلى مزيد من التطورات في تطوير وكلاء علوم البيانات الأكثر عملية وذكية ومستقلة. |
10 سبتمبر 2024 | Pingpong: معيار لنماذج لغة لعب الأدوار مع محاكاة المستخدم وتقييم النماذج المتعددة | نقدم معيارًا جديدًا لتقييم إمكانات لعب الأدوار لنماذج اللغة. يستفيد نهجنا من نماذج اللغة نفسها لمحاكاة المستخدمين في محادثات ديناميكية متعددة المنعطفات وتقييم الحوارات الناتجة. يتكون الإطار من ثلاثة مكونات رئيسية: نموذج لاعب يفترض دورًا محددًا في الحرف ، ونموذج المحقق يحاكي سلوك المستخدم ، ونموذج القاضي الذي يقيم جودة المحادثة. أجرينا تجارب تقارن التقييمات الآلية مع التعليقات التوضيحية البشرية للتحقق من صحة نهجنا ، مما يدل على ارتباطات قوية عبر معايير متعددة. يوفر هذا العمل أساسًا لتقييم قوي وديناميكي لقدرات النموذج في السيناريوهات التفاعلية. |
10 سبتمبر 2024 | لاما أومني: تفاعل خطاب سلس مع نماذج اللغة الكبيرة | تتيح نماذج مثل GPT-4O التفاعل في الوقت الفعلي مع نماذج اللغة الكبيرة (LLMs) من خلال الكلام ، مما يعزز بشكل كبير تجربة المستخدم مقارنة بالتفاعل التقليدي القائم على النص. ومع ذلك ، لا يزال هناك نقص في الاستكشاف حول كيفية بناء نماذج تفاعل الكلام على أساس LLMs مفتوحة المصدر. لمعالجة هذا ، نقترح Llama-Omni ، وهي بنية نموذجية جديدة مصممة لتفاعل الكلام منخفض الجودة وتفاعل الكلام عالي الجودة مع LLMs. يدمج Llama-Omni مشفرًا للكلام المسبق ، ومحول الكلام ، و LLM ، ودلور الكلام المتدفق. إنه يلغي الحاجة إلى نسخ الكلام ، ويمكنه توليد استجابات النص والكلام في وقت واحد مباشرة من تعليمات الكلام مع زمن انتقال منخفض للغاية. نقوم ببناء نموذجنا استنادًا إلى أحدث نموذج LLAMA-3.1-8B-instruct. لمحاذاة النموذج مع سيناريوهات تفاعل الكلام ، نقوم ببناء مجموعة بيانات تسمى addructs2s-200k ، والتي تتضمن تعليمات الكلام 200k واستجابات الكلام المقابلة. تُظهر النتائج التجريبية أنه بالمقارنة مع نماذج اللغة السابقة ، توفر Llama-Omni استجابات أفضل في كل من المحتوى والأناقة ، مع زمن استجابة يصل إلى 226 مللي ثانية. بالإضافة إلى ذلك ، يستغرق تدريب Llama-Omni أقل من 3 أيام على 4 وحدات معالجة الرسومات فقط ، مما يمهد الطريق للتطوير الفعال لنماذج اللغة الكلام في المستقبل. |
10 سبتمبر 2024 | هل يمكن أن تفتح نماذج اللغة الكبيرة أفكار البحث العلمي الجديد؟ | "الفكرة ليست أكثر ولا أقل من مجموعة جديدة من العناصر القديمة" (Young ، JW). لقد حقق التبني الواسع النطاق لنماذج اللغة الكبيرة (LLMS) و chatgpt المتاحة للجمهور نقطة تحول مهمة في دمج الذكاء الاصطناعي (AI) في حياة الناس اليومية. تستكشف هذه الدراسة قدرة LLMs في توليد أفكار بحثية جديدة بناءً على معلومات من الأوراق البحثية. نجري فحصًا شاملاً لـ 4 LLMs في خمسة مجالات (على سبيل المثال ، الكيمياء ، الكمبيوتر ، الاقتصاد ، الطبي ، والفيزياء). لقد وجدنا أن الأفكار البحثية المستقبلية التي تم إنشاؤها بواسطة Claude-2 و GPT-4 تتوافق مع منظور المؤلف من GPT-3.5 و Gemini. وجدنا أيضًا أن Claude-2 يولد أفكارًا بحثية مستقبلية أكثر تنوعًا من GPT-4 و GPT-3.5 و Gemini 1.0. لقد أجرينا أيضًا تقييمًا إنسانيًا للحداثة والملاءمة وجدوى الأفكار البحثية المستقبلية التي تم إنشاؤها. يقدم هذا التحقيق نظرة ثاقبة على الدور المتطور لـ LLMs في توليد الأفكار ، مما يبرز كل من قدرته وقيوده. يساهم عملنا في الجهود المستمرة في تقييم نماذج اللغة واستخدامها لتوليد أفكار بحثية مستقبلية. نجعل مجموعات البيانات ورموزنا متوفرة للجمهور. |
9 سبتمبر 2024 | Songcreator: توليد الأغاني العالمي القائم على الأغاني | الموسيقى هي جزء لا يتجزأ من الثقافة الإنسانية ، حيث تجسد الذكاء البشري والإبداع ، والتي تشكل الأغاني جزءًا أساسيًا منها. في حين تم استكشاف جوانب مختلفة من توليد الأغاني من خلال الأعمال السابقة ، مثل الغناء الصوتي والتكوين الصوتي والترتيب الآلي ، وما إلى ذلك ، لا يزال توليد الأغاني مع كل من غناء ومرافقة كلمات محددة يمثل تحديًا كبيرًا ، مما يعيق تطبيق نماذج توليد الموسيقى في العالم الحقيقي. في هذا الضوء ، نقترح Songcreator ، وهو نظام لتوظيف الأغاني المصمم لمعالجة هذا التحدي. يتميز النموذج بتصميمين جديدين: نموذج لغة ثنائي التسلسل مصمم بدقة (DSLM) لالتقاط معلومات الغناء ومرافقة توليد الأغاني ، واستراتيجية إضافية لقناع الاهتمام لـ DSLM ، والتي تتيح نموذجنا لفهم وتوليد وتحرير الأغاني ، مما يجعلها مناسبة لمختلف مهام الجيل المتعلقة بالأغاني. توضح التجارب الواسعة فعالية Songcreator من خلال تحقيق أحدث الأداء أو التنافسية في جميع المهام الثمانية. والجدير بالذكر أنه يتفوق على الأعمال السابقة بهامش كبير في كلمات إلى الأغنية وكلمات من أجل المركز. بالإضافة إلى ذلك ، فإنه قادر على التحكم بشكل مستقل في الظروف الصوتية للغناء والمرافقة في الأغنية التي تم إنشاؤها من خلال مطالبات مختلفة ، مع إظهار قابلية تطبيقها المحتملة. عيناتنا متوفرة على https://songcreator.github.io/. |
9 سبتمبر 2024 | Hyperagent: عوامل هندسة البرمجيات العامة لحل مهام الترميز على نطاق واسع | أحدثت نماذج اللغة الكبيرة (LLMS) ثورة في هندسة البرمجيات (SE) ، مما يدل على إمكانات ملحوظة في مهام الترميز المختلفة. على الرغم من أن الجهود الأخيرة أنتجت وكلاء برامج مستقلة استنادًا إلى LLMs لمهام التطوير الشاملة ، إلا أن هذه الأنظمة مصممة عادةً لمهام SE المحددة. نقدم HyperAgent ، وهو نظام متعدد العوامل من الخبير العام المصمم لمعالجة مجموعة واسعة من مهام SEN عبر لغات البرمجة المختلفة من خلال محاكاة سير عمل المطورين البشريين. تضم أربعة وكلاء متخصصين - مخطط ، مستكشف ، محرر رمز ، ومنفذ. يدير Hyperagent دورة الحياة الكاملة لمهام SE ، من الحمل الأولي إلى التحقق النهائي. من خلال التقييمات المكثفة ، يحقق HyperAgent أداءً حديثًا عبر مهام SE المتنوعة: فهو يحقق معدل نجاح بنسبة 25.01 ٪ على SWE-Bench-Lite و 31.40 ٪ على مقاعد البدلاء المحدد لدقة قضية Github ، متجاوزة الأساليب الحالية. علاوة على ذلك ، يوضح HyperAgent أداء SOTA في توليد رمز مستوي المستودع (REPOEXEC) ، وفي توطين الأعطال وإصلاح البرامج (DEFECS4J) ، غالبًا ما يتفوق على أنظمة متخصصة. يمثل هذا العمل تقدمًا كبيرًا نحو عوامل متعددة الاستخدامات ، قادرة على التعامل مع مهام SES المعقدة متعددة الخطوات عبر مختلف المجالات واللغات ، مما يحتمل أن يحول ممارسات تطوير البرمجيات بمساعدة AI. |
9 سبتمبر 2024 | Memorag: الانتقال نحو خرقة من الجيل التالي عبر اكتشاف المعرفة المستوحى من الذاكرة | يعمل الجيل المتمثل في الاسترجاع (RAG) على الاستفادة من أدوات الاسترجاع للوصول إلى قواعد البيانات الخارجية ، وبالتالي تعزيز جودة توليد نماذج اللغة الكبيرة (LLMS) من خلال السياق الأمثل. ومع ذلك ، فإن طرق الاسترجاع الحالية مقيدة بطبيعتها ، حيث يمكنها فقط أداء المطابقة ذات الصلة بين الاستعلامات المعلنة بشكل صريح والمعرفة التي يتم تشكيلها جيدًا ، ولكنها غير قادرة على التعامل مع المهام التي تنطوي على احتياجات المعلومات الغامضة أو المعرفة غير المنظمة. وبالتالي ، فإن أنظمة الخرقة الحالية فعالة في المقام الأول لمهام الإساءة المباشرة للأسئلة. في هذا العمل ، نقترح Memorag ، نموذج الجيل الجديد المتمثل في الاسترجاع الممكّن من الذاكرة على المدى الطويل. Memorag تعتمد بنية نظام ثنائية. من ناحية ، يستخدم LLM الضوء ولكن بعيد المدى لتشكيل الذاكرة العالمية لقاعدة البيانات. بمجرد تقديم المهمة ، فإنه يولد مسودة الإجابات ، مما يؤدي إلى تحديد أدوات الاسترجاع لتحديد معلومات مفيدة داخل قاعدة البيانات. من ناحية أخرى ، فإنه يعزز LLM باهظة الثمن ولكنه معبرة ، والذي يولد الإجابة النهائية بناءً على المعلومات التي تم استردادها. بناءً على هذا الإطار العام ، نقوم بتحسين أداء Memorag من خلال تعزيز آلية cluing وقدرة الحفظ. في تجربتنا ، يحقق Memorag أداءً فائقًا عبر مجموعة متنوعة من مهام التقييم ، بما في ذلك كلا من تلك المعقدة حيث تفشل الخرقة التقليدية وتطبيقها بشكل مباشر حيث يتم تطبيق الخرقة بشكل شائع. |
8 سبتمبر 2024 | Onegen: جيل موحد فعال من تمرير واحد واسترجاع لـ LLMS | على الرغم من التطورات الأخيرة في نماذج اللغة الكبيرة (LLMS) ، والتي عززت بشكل كبير القدرات التوليدية لمختلف مهام NLP ، لا تزال LLMs تواجه قيودًا في مهام الاسترجاع مباشرة. ومع ذلك ، تتطلب العديد من التطبيقات العملية التكامل السلس لكل من الاسترجاع والتوليد. تقدم هذه الورقة إطارًا جديدًا وفعالًا للتمرير الواحد والاسترجاع (OneGen) ، مصمم لتحسين أداء LLMS في المهام التي تتطلب كل من التوليد والاسترجاع. يجسد الإطار المقترح مناهج التدريب المنفصلة تقليديًا لتوليد واسترجاع من خلال دمج الرموز الرموز التي تم إنشاؤها على الإطلاق. يمكّن ذلك LLM واحد من التعامل مع كلتا المهامتين في وقت واحد في تمريرة موحدة للأمام. نقوم بإجراء تجارب على نوعين متميزين من المهام المركبة ، والخرقة والكيان الربط ، للتحقق من صحة قابلية التوليد وفعالية وكفاءة OneGen في التدريب والاستدلال. علاوة على ذلك ، تظهر نتائجنا أن دمج التوليد والاسترجاع في نفس السياق يحافظ على القدرات التوليدية لـ LLMS مع تحسين أداء الاسترجاع. على حد علمنا ، فإن Onegen هو أول من يمكّن LLMs من إجراء استرجاع متجه أثناء الجيل. |
6 سبتمبر 2024 | Paper CoPilot: نظام LLM المتدرب ذاتيًا وفعالًا للمساعدة الأكاديمية الشخصية | مع انتشار الأبحاث العلمية ، يواجه الباحثون المهمة الشاقة المتمثلة في التنقل وقراءة كميات هائلة من الأدب. الحلول الحالية ، مثل وثيقة QA ، تفشل في تقديم معلومات شخصية وحديثة بكفاءة. نقدم Paper Copilot ، وهو نظام LLM ذو التطور الذاتي وفعال المصمم لمساعدة الباحثين ، استنادًا إلى Retrival ، ملف تعريف المستخدم وتحسين الأداء العالي. على وجه التحديد ، يمكن لـ Paper Copilot تقديم خدمات بحثية مخصصة ، والحفاظ على قاعدة بيانات محدثة في الوقت الفعلي. يوضح التقييم الكمي أن الورق copilot يوفر 69.92 ٪ من الوقت بعد النشر الفعال. تفاصيل هذه الورقة تصميم وتنفيذ Paper Copilot ، مع تسليط الضوء على مساهماتها في الدعم الأكاديمي المخصص وقدرتها على تبسيط عملية البحث. |
5 سبتمبر 2024 | رؤساء الانتباه من نماذج اللغة الكبيرة: مسح | منذ ظهور chatgpt ، تميزت نماذج اللغة الكبيرة (LLMS) في مختلف المهام ولكنها تظل أنظمة صناديق سوداء. وبالتالي ، تتأثر اختناقات العقل من LLMs بشكل أساسي بالهندسة المعمارية الداخلية. ونتيجة لذلك ، بدأ العديد من الباحثين في استكشاف الآليات الداخلية المحتملة لـ LLMS ، حيث تركز معظم الدراسات على رؤوس الانتباه. يهدف مسحنا إلى إلقاء الضوء على عمليات التفكير الداخلي لـ LLMS من خلال التركيز على آليات رؤوس الاهتمام الأساسية. نقوم أولاً بتقطير عملية التفكير الإنساني إلى إطار من أربع مراحل: المعرفة التي تتذكر ، والتعريف في السياق ، والتفكير الكامن ، وإعداد التعبير. باستخدام هذا الإطار ، نقوم بمراجعة الأبحاث الحالية بشكل منهجي لتحديد وتصنيف وظائف رؤساء الاهتمام المحددة. علاوة على ذلك ، نلخص المنهجيات التجريبية المستخدمة لاكتشاف هذه الرؤوس الخاصة ، ونقسمها إلى فئتين: طرق خالية من النمذجة والأساليب المطلوبة للنمذجة. أيضا ، نوضح طرق التقييم ذات الصلة والمعايير. أخيرًا ، نناقش حدود البحث الحالي ونقترح عدة اتجاهات مستقبلية محتملة. |
5 سبتمبر 2024 | كيف تؤدي الكود LLMS الخاص بك؟ تمكين ضبط تعليمات الكود مع بيانات عالية الجودة | في الآونة الأخيرة ، كان هناك اهتمام متزايد بدراسة كيفية إنشاء بيانات ضبط تعليمات التعليمات البرمجية بشكل أفضل. ومع ذلك ، نلاحظ أن نماذج الكود المدربة مع مجموعات البيانات هذه تظهر أداءً عالياً على Humaneval ولكن أداء أسوأ على المعايير الأخرى مثل LiveCodeBench. عند مزيد من التحقيق ، نجد أن العديد من مجموعات البيانات تعاني من تسرب البيانات الشديد. بعد تنظيف معظم البيانات التي تم تسريبها ، تعمل بعض مجموعات البيانات عالية الجودة المعروفة بشكل سيء. يكشف هذا الاكتشاف عن تحد جديد: تحديد مجموعة البيانات المؤهلة حقًا كبيانات تعليمات الرمز عالية الجودة. لمعالجة هذا ، نقترح استراتيجية تشذيب بيانات الكود الفعالة لاختيار عينات جيدة. يعتمد نهجنا على ثلاثة أبعاد: تعقيد التعليمات ، وجودة الاستجابة ، وتنوع التعليمات. استنادًا إلى بياناتنا المختارة ، نقدم Xcoder ، وهي عائلة من النماذج التي تم تجنيدها من LLAMA3. تُظهر تجاربنا أن Xcoder تحقق أداءً جديدًا جديدًا باستخدام بيانات تدريب أقل ، والتي تتحقق من فعالية استراتيجية البيانات الخاصة بنا. علاوة على ذلك ، نقوم بإجراء تحليل شامل حول تكوين البيانات ونجد أن مجموعات بيانات التعليمات البرمجية الحالية لها خصائص مختلفة وفقًا لطرق البناء الخاصة بهم ، والتي توفر رؤى جديدة لـ Future Code LLMs. يتم إصدار نماذجنا ومجموعة البيانات في https://github.com/banksy23/xcoder |
5 سبتمبر 2024 | من MOOC إلى MAIC: إعادة تشكيل التعليم عبر الإنترنت والتعلم من خلال وكلاء LLM | منذ الحالات الأولى من التعليم عبر الإنترنت ، حيث تم تحميل الدورات التدريبية إلى منصات يمكن الوصول إليها والمشتركة عبر الإنترنت ، فإن هذا الشكل من توسيع نطاق نشر المعرفة الإنسانية للوصول إلى جمهور أوسع أثار مناقشة مكثفة واعتماد واسع النطاق. إدراكًا أن التعلم الشخصي لا يزال يحمل إمكانات كبيرة للتحسين ، فقد تم دمج تقنيات الذكاء الاصطناعى الجديدة بشكل مستمر في تنسيق التعلم هذا ، مما يؤدي إلى مجموعة متنوعة من تطبيقات الذكاء الاصطناعى التعليمية مثل التوصية التعليمية والدروس الذكية. سمح ظهور الذكاء في نماذج اللغة الكبيرة (LLMS) ببناء هذه التحسينات التعليمية على نموذج أساسي موحد ، مما يتيح التكامل الأعمق. في هذا السياق ، نقترح MAIC (دورة AI-AI-EMPERED الضخمة) ، وهو شكل جديد من أشكال التعليم عبر الإنترنت الذي يعزز أنظمة متعددة الوكلاء التي تعتمد على LLM لبناء فصل دراسي من AI-AUGMENTED ، موازنة قابلية التوسع مع التكيف. إلى جانب استكشاف الإطار المفاهيمي والابتكارات التقنية ، نقوم بإجراء تجارب أولية في جامعة Tsinghua ، إحدى الجامعات الرائدة في الصين. بالاعتماد على أكثر من 100000 سجل تعليمي لأكثر من 500 طالب ، نحصل على سلسلة من الملاحظات القيمة والتحليلات الأولية. سيستمر هذا المشروع في التطور ، ويهدف في النهاية إلى إنشاء منصة مفتوحة شاملة تدعم وتوحيد البحث والتكنولوجيا والتطبيقات في استكشاف إمكانيات التعليم عبر الإنترنت في عصر الذكاء الاصطناعي الكبير. نحن نتصور هذا المنصة كمركز تعاوني ، حيث جمع بين المعلمين والباحثين والمبتكرين لاستكشاف مستقبل التعليم عبر الإنترنت الذي يحركه AI. |
4 سبتمبر 2024 | Longcite: تمكين LLMs لإنشاء استشهادات دقيقة في سياق QA | على الرغم من أن نماذج اللغة الكبيرة الحالية (LLMS) قد أظهرت قدرات رائعة في الإجابة على أسئلة المستخدم بناءً على نص مكثف ، إلا أن عدم الاستشهادات في ردودها يجعل التحقق من المستخدم أمرًا صعبًا ، مما يؤدي إلى مخاوف بشأن جدارة بالثقة بسبب الهلوسة المحتملة. في هذا العمل ، نهدف إلى تمكين LLMs Long-Context من توليد ردود على الاستشهادات ذات الحبيبات الدقيقة على مستوى الجملة ، وتحسين إخلاصها ومثبتها. نقدم أولاً Longbench-Cite ، وهو معيار تلقائي لتقييم أداء LLMS الحالي في أسئلة طويلة السياق الإجابة على الاستشهادات (LQAC) ، مما يكشف عن مجال كبير للتحسين. تحقيقًا لهذه الغاية ، نقترح COF (خشنًا إلى غرامة) ، وهو خط أنابيب جديد يستخدم LLMs على الرف على الرف لإنشاء مثيلات ضمان في السياق تلقائيًا مع استشهادات دقيقة على مستوى الجملة ، واستفد من خط الأنابيب هذا لإنشاء Longcite-45 ، مجموعة بيانات SFT واسعة النطاق لـ LQAC. أخيرًا ، نقوم بتدريب Longcite-8b و Longcite-9b باستخدام مجموعة بيانات Longcite-45K ، مما يتيح بنجاح توليد الاستجابات الدقيقة والاستشهادات ذات الحبيبات الدقيقة على مستوى الجملة في مخرج واحد. تُظهر نتائج التقييم على Longbench-Cite أن نماذجنا المدربة تحقق جودة من أحدث الاقتباس ، متجاوزة نماذج الملكية المتقدمة بما في ذلك GPT-4O. |
4 سبتمبر 2024 | Longllava: تحجيم LLMs متعدد الوسائط إلى 1000 صورة بكفاءة عبر بنية هجينة | يعد توسيع إمكانات السياق الطويلة لنماذج اللغة الكبيرة متعددة الوسائط ~ (MLLMS) أمرًا بالغ الأهمية لفهم الفيديو ، وفهم الصور عالي الدقة ، والعوامل متعددة الوسائط. يتضمن ذلك سلسلة من التحسينات المنهجية ، بما في ذلك بنية النماذج ، واستراتيجية بناء البيانات وتدريبها ، وخاصة معالجة التحديات مثل textit {الأداء المتدهور مع المزيد من الصور} و textit {التكاليف الحسابية العالية}. في هذه الورقة ، نقوم بتكييف بنية النموذج مع مجموعة هجينة من كتل Mamba و Transformer ، ونتعامل مع بناء البيانات مع التبعيات الزمنية والمكانية بين الصور المتعددة واستخدام استراتيجية تدريبية تدريجية. النموذج الذي تم إصداره textbf {longllava} ~ ( textbf {long} -context textbf {l} arge textbf {l} anguage textbf {a} nd textbf {v} ision textbf {a} MLLM الهجينة الأولى ، والتي حققت توازنًا أفضل بين الكفاءة والفعالية. لا يحقق Longllava نتائج تنافسية عبر مختلف المعايير فحسب ، بل يحافظ أيضًا على إنتاجية عالية وانخفاض استهلاك الذاكرة. على وجه الخصوص ، يمكن أن يعالج ما يقرب من ألف صورة على وحدة معالجة الرسومات A100 80GB واحدة ، مما يدل على آفاق تطبيق واعدة لمجموعة واسعة من المهام. |
4 سبتمبر 2024 | نحو رؤية موحدة لتعلم التفضيل لنماذج اللغة الكبيرة: مسح | تظهر نماذج اللغة الكبيرة (LLMS) قدرات قوية بشكل ملحوظ. أحد العوامل الحاسمة لتحقيق النجاح هو محاذاة ناتج LLM مع التفضيلات البشرية. غالبًا ما لا تتطلب عملية المحاذاة سوى كمية صغيرة من البيانات لتعزيز أداء LLM بكفاءة. على الرغم من فعاليته ، فإن الأبحاث في هذا المجال يمتد إلى مجالات متعددة ، والطرق المعنية معقدة نسبيًا لفهمها. لقد كانت العلاقات بين الأساليب المختلفة غير محسوسة ، مما يحد من تطوير محاذاة التفضيل. في ضوء ذلك ، نقوم بتقسيم استراتيجيات المحاذاة الشعبية الحالية إلى مكونات مختلفة ونوفر إطارًا موحدًا لدراسة استراتيجيات المحاذاة الحالية ، وبالتالي وضع صلات فيما بينها. في هذا الاستطلاع ، نتحلل جميع الاستراتيجيات في التعلم التفضيلي إلى أربعة مكونات: النموذج والبيانات والتعليقات والخوارزمية. توفر هذه النظرة الموحدة فهمًا متعمقًا لخوارزميات المحاذاة الحالية وأيضًا يفتح إمكانيات لتآزر نقاط القوة في الاستراتيجيات المختلفة. علاوة على ذلك ، نقدم أمثلة عمل مفصلة للخوارزميات الحالية السائدة لتسهيل الفهم الشامل للقراء. أخيرًا ، بناءً على منظورنا الموحد ، نستكشف التحديات واتجاهات البحث المستقبلية لمحاذاة نماذج اللغة الكبيرة مع التفضيلات البشرية. |
4 سبتمبر 2024 | بناء وكلاء الرياضيات مع تعلم التفضيل التكراري متعدد المنعطفات | أظهرت الدراسات الحديثة أن إمكانات حل المشكلات الرياضية (LLMS) يمكن تعزيزها من خلال دمج الأدوات الخارجية ، مثل المترجمين المترجمين في التعليمات البرمجية ، وتوظيف التفكير المتعدد في سلسلة الفكرة (COT). في حين تركز الطرق الحالية على توليد البيانات الاصطناعية والضبط الخاضع للإشراف (SFT) ، فإن هذه الورقة تدرس نهج تعلم التفضيل المباشر التكميلي لتحسين أداء النموذج. ومع ذلك ، تم تصميم خوارزميات تعلم التفضيل المباشر الحالية في الأصل لمهمة الدردشة المفردة ، ولا تتناول تمامًا تعقيدات التفكير المتعدد وتكامل الأدوات الخارجي المطلوب لمهام التفكير الرياضية المتكاملة للأدوات. لملء هذه الفجوة ، نقدم إطارًا متعدد التفضيلات المباشر متعدد المنعطفات ، مصمم خصيصًا لهذا السياق ، والذي يعزز ردود الفعل من المترجمين المترجمين المترجمين ويحسنان تفضيلات مستوى المسار. يتضمن هذا الإطار DPO متعددة الدوران و KTO متعدد المنعطفات كتطبيقات محددة. يتم التحقق من صحة فعالية إطار عملنا من خلال تدريب نماذج اللغة المختلفة باستخدام مجموعة موجهة معززة من مجموعات بيانات GSM8K و MATH. توضح نتائجنا تحسينات كبيرة: ارتفع أداء طراز GEMMA-1.1-IT-7B الخاضع للإشراف من 77.5 ٪ إلى 83.9 ٪ على GSM8K ومن 46.1 ٪ إلى 51.2 ٪ على الرياضيات. وبالمثل ، تحسن نموذج GEMMA-2-IT-9B من 84.1 ٪ إلى 86.3 ٪ على GSM8K ومن 51.0 ٪ إلى 54.5 ٪ على الرياضيات. |
3 سبتمبر 2024 | Olmoe: نماذج لغة مزيج من الخبرة | نقدم Olmoe ، وهو نموذج لغوي مفتوح تمامًا ، ويستفيد من الخبرة المتفرقة (MOE). يحتوي OLMOE-1B-7B على 7 مليارات (ب) ولكنه يستخدم فقط 1B لكل رمز مدخلات. نحن قبل ذلك على 5 تريليونات الرموز وزيادة تكييفها لإنشاء Olmoe-1B-7B-instruction. تتفوق نماذجنا على جميع النماذج المتاحة مع معلمات نشطة مماثلة ، حتى تتجاوز عدد أكبر مثل Llama2-13b-Chat و Deepseekmoe-16B. نقدم العديد من التجارب حول تدريب وزارة المياه ، وتحليل التوجيه في نموذجنا الذي يوضح التخصص العالي ، ونفتح المصدر جميع جوانب عملنا: الأوزان النموذجية ، وبيانات التدريب ، والرمز ، والسجلات. |
2 سبتمبر 2024 | جناجنت: بناء أنظمة منظمة العفو الدولية التعاونية مع توليد سير العمل الآلي - دراسات حالة على comfyui | ركزت الكثير من أبحاث الذكاء الاصطناعي السابق على تطوير نماذج متجانسة لزيادة ذكائها وقدرتها ، مع الهدف الأساسي المتمثل في تعزيز الأداء في مهام محددة. في المقابل ، تستكشف هذه الورقة نهجًا بديلاً: أنظمة الذكاء الاصطناعى التعاونية التي تستخدم سير العمل لدمج النماذج ومصادر البيانات وخطوط الأنابيب لحل المهام المعقدة والمتنوعة. نقدم Genagent ، وهو إطار قائم على LLM يقوم تلقائيًا بإنشاء مهام عمل معقدة ، مما يوفر مرونة أكبر وقابلية للتوسع مقارنة بنماذج العصر الحجري المتجانس. يكمن الابتكار الأساسي لـ Genagent في تمثيل سير العمل مع التعليمات البرمجية ، إلى جانب بناء مهام سير العمل مع وكلاء تعاونية بطريقة خطوة بخطوة. نحن ننفذ Genagent على منصة Comfyui ونقترح معيارًا جديدًا ، OpenComfy. توضح النتائج أن Genagent يتفوق على أساليب خط الأساس في كل من التقييمات على مستوى المدى ومهمة ، مما يدل على قدرتها على توليد سير عمل معقدة بفعالية واستقرار فائقين. |
2 سبتمبر 2024 | Videollamb: فهم فيديو طويل السياق مع جسور الذاكرة المتكررة | أظهرت التطورات الحديثة في نماذج اللغات على نطاق واسع على نطاق واسع إمكانات كبيرة للتخطيط في الوقت الفعلي والتفاعلات التفصيلية. ومع ذلك ، فإن متطلباتهم الحسابية العالية وندرة مجموعات البيانات المشروحة تحد من التطبيق العملي للباحثين الأكاديميين. في هذا العمل ، نقدم Videollamb ، وهو إطار جديد يستخدم الرموز المميزة للذاكرة الزمنية داخل طبقات الجسر للسماح بترميز تسلسل الفيديو بأكمله إلى جانب البيانات المرئية التاريخية ، والحفاظ على الاستمرارية الدلالية بشكل فعال وتعزيز أداء النموذج عبر مختلف المهام. يتضمن هذا النهج رموز ذاكرة متكررة وخوارزمية تحريك المشهد ، والتي تقسم مقاطع الفيديو إلى وحدات دلالية مستقلة للحفاظ على النزاهة الدلالية. من الناحية التجريبية ، تفوق Videollamb بشكل كبير نماذج لغة الفيديو الحالية ، مما يدل على تحسن 5.5 نقطة على منافسيها عبر ثلاثة معايير VideoQA ، و 2.06 نقطة عن التخطيط الأناني. تظهر نتائج شاملة على MVBNCH أن Videollamb-7B يحقق نتائج أفضل بشكل ملحوظ من نماذج 7B السابقة من نفس LLM. ومن اللافت للنظر ، أنه يحافظ على أداء قوي حيث يزداد طول الفيديو حتى 8 مرات. علاوة على ذلك ، ينتج عن استرجاع الإطار على إبرةنا المتخصصة في معيار مقاطع الفيديو (NIAVH) ، مما يزيد من صحة براعة Videollamb في تحديد إطارات محددة بدقة داخل مقاطع فيديو طويلة. تتيح خوارزمية تحريك المشهد لدينا أيضًا توليد تسميات توضيحية للفيديو مباشرة ، دون الحاجة إلى تدريب إضافي. فيما يتعلق بالكفاءة ، تدعم Videollamb ، التي تم تدريبها على 16 إطارًا ، ما يصل إلى 320 إطارًا على وحدة معالجة الرسومات NVIDIA A100 واحدة مع تحجيم ذاكرة GPU الخطي ، وضمان الأداء العالي والفعالية من حيث التكلفة ، وبالتالي وضع أساس جديد لنسخة فيديو طويلة الشكل نماذج في كل من التطبيقات الأكاديمية والعملية. |
1 سبتمبر 2024 | ContextCite: إسناد توليد النماذج إلى السياق | كيف تستخدم نماذج اللغة المعلومات المقدمة كسياق عند إنشاء استجابة؟ هل يمكن أن نستنتج ما إذا كان هناك بيان تم إنشاؤه تم إنشاؤه في الواقع في السياق ، أو سوء التفسير ، أو ملفقة؟ للمساعدة في الإجابة على هذه الأسئلة ، نقدم مشكلة إسناد السياق: تحديد أجزاء السياق (إن وجدت) التي قادت نموذجًا لإنشاء بيان معين. نقدم بعد ذلك ContextCite ، وهي طريقة بسيطة وقابلة للتطوير لإسناد السياق الذي يمكن تطبيقه فوق أي نموذج لغة موجود. أخيرًا ، نعرض فائدة ContextCite من خلال ثلاثة تطبيقات: (1) المساعدة في التحقق من البيانات التي تم إنشاؤها (2) تحسين جودة الاستجابة عن طريق تقليم السياق و (3) اكتشاف هجمات التسمم. نحن نقدم رمزًا لـ ContextCite على https://github.com/madrylab/context-cite. |
31 أغسطس 2024 | Longrecipe: وصفة لتعميم السياق الطويل الفعال في نماذج اللغة الكبيرة | تواجه نماذج اللغة الكبيرة (LLMS) تحديات كبيرة في التعامل مع مهام السياق الطويلة بسبب حجم نافذة السياق الفعال المحدود أثناء التدريب ، مما يقيد قدرتها على التعميم على التسلسلات الموسعة. وفي الوقت نفسه ، فإن توسيع نافذة السياق في LLMS من خلال ما بعد الاستدراج كثيفة للغاية للموارد. لمعالجة هذا ، نقدم LongRecipe ، وهي استراتيجية تدريب فعالة لتوسيع نافذة السياق لـ LLMs ، بما في ذلك تحليل الرمز المميز المؤثر ، وتحويل مؤشر الموضع ، واستراتيجيات تحسين التدريب. إنه يحاكي مدخلات التسلسل الطويلة مع الحفاظ على كفاءة التدريب ويحسن بشكل كبير فهم النموذج لتبعيات طويلة المدى. تُظهر التجارب على ثلاثة أنواع من LLMs أن LongRecipe يمكن أن تستخدم تسلسلات طويلة مع طلب 30 ٪ فقط من حجم نافذة السياق المستهدف ، ويقلل من مورد التدريب الحسابي أكثر من 85 ٪ مقارنة بالتدريب التسلسلي الكامل. علاوة على ذلك ، يحافظ Longrecipe أيضًا على قدرات LLM الأصلية في المهام العامة. في نهاية المطاف ، يمكننا تمديد نافذة السياق الفعالة لـ LLMs المفتوحة المصدر من 8K إلى 128 ألف ، وتحقيق الأداء بالقرب من GPT-4 مع يوم واحد فقط من التدريب المخصص باستخدام وحدة معالجة الرسومات الواحدة مع ذاكرة 80 جم. يتم إصدار الكود الخاص بنا على https://github.com/zhiyuanhubj/longrecipe. |
29 أغسطس 2024 | Mini-Omni: يمكن أن تسمع نماذج اللغة والتحدث أثناء التفكير في البث | لقد حقق التطورات الحديثة في نماذج اللغة تقدمًا كبيرًا. مكّن GPT-4O ، باعتباره علامة فارقة جديدة ، محادثات في الوقت الفعلي مع البشر ، مما يدل على الطلاقة الطبيعية شبه البشرية. يستلزم هذا التفاعل بين الإنسان والحاسوب نماذج مع القدرة على أداء التفكير مباشرة مع طريقة الصوت وتوليد الإخراج في التدفق. ومع ذلك ، يبقى هذا بعيدًا عن متناول النماذج الأكاديمية الحالية ، لأنها عادة ما تعتمد على أنظمة TTS الإضافية لتوليف الكلام ، مما يؤدي إلى زمن انتقال غير مرغوب فيه. تقدم هذه الورقة Mini-Omni ، وهو نموذج محادثة قائم على الصوت ، قادر على تفاعل الكلام في الوقت الفعلي. لتحقيق هذه القدرة ، نقترح طريقة توليد الكلام المحفوظة بالنص ، إلى جانب استراتيجيات متوازية الدُفعات أثناء الاستدلال لزيادة الأداء. تساعد طريقتنا أيضًا على الاحتفاظ بقدرات لغة النموذج الأصلي مع الحد الأدنى من التدهور ، مما يتيح أعمالًا أخرى من إنشاء قدرات التفاعل في الوقت الفعلي. نحن نسمي طريقة التدريب هذه "أي نموذج يمكن t
يوسع
معلومات إضافية
تطبيقات ذات صلة
نوصي لك
أخبار ذات صلة
الكل
|