بيانات ونماذج حوار متعدد الجولات وواسعة النطاق وغنية بالمعلومات ومتنوعة
UltraLM • مستكشف البيانات • Nomic AI Atlas Explorer • إصدار البيانات • عملية البناء • الورق
UltraLM عبارة عن سلسلة من نماذج لغة الدردشة التي تم تدريبها على UltraChat. حاليًا، أصدرنا الإصدار 13B، الذي يحتل المرتبة الأولى بين النماذج مفتوحة المصدر ويحتل المرتبة الرابعة بين جميع النماذج في AlpacaEval Leaderboard (28 يونيو 2023). يعتمد UltraLM-13B على LLaMA-13B ويدعمه BMTrain في عملية التدريب.
نموذج | وصلة | إصدار |
---|---|---|
التراLM-13B | تعانق الوجه الريبو | v1.0 |
التراLM-65B | تعانق الوجه الريبو | v1.0 |
التراLM-13B | تعانق الوجه الريبو | v2.0 |
UltraRM-13B | تعانق الوجه الريبو | v1.0 |
ألترا سي إم-13 بي | تعانق الوجه الريبو | v1.0 |
/UltraLM/recover.sh
للحصول على الأوزان النهائية للنموذج المسترد./UltraLM/chat_cli.sh
بالمسار الخاص بك وقم بالتشغيل لبدء الدردشة! ملاحظة: ستؤثر المعلمات الفائقة أو مطالبات النظام المختلفة على المخرجات. يمكنك الرجوع إلى التفاصيل في /UltraLM/inference_cli.py
لإعدادنا الافتراضي.
نورد ثلاثة تقييمات في هذا القسم: Alpaca-Eval من جامعة ستانفورد، وEvol-instruct من Microsoft WizardLM، ومجموعة التقييم المنسقة لدينا. قد تكون تقييمات LLMs الحديثة متحيزة وتتأثر بالعديد من العوامل، ونحن نعمل أيضًا بنشاط على أساليب تقييم أكثر شمولاً.
AlpacaEval عبارة عن لوحة صدارة مصممة خصيصًا لتقييم LLMs. يتم إنشاء لوحة المتصدرين بناءً على معدل الفوز مقابل Text-Davince-003 الذي يتم تقييمه تلقائيًا بواسطة GPT-4.
تم إنشاء مجموعة البيانات هذه باستخدام استراتيجية تطورية من خلال إعادة كتابة التعليمات من خلال جولات متعددة للحصول على تعليمات بمستويات تعقيد مختلفة. تم تطوير المعيار بواسطة مشروع WizardLM، وهو نموذج آخر ممتاز للغة الدردشة!
نحن ننظم مجموعة تقييم تشمل معيار Vicuna و300 سؤال وتعليمات إضافية تم إنشاؤها بواسطة GPT-4. تغطي الأسئلة/التعليمات مجموعة واسعة من المواضيع، بما في ذلك المنطق السليم والمعرفة العالمية والمعرفة المهنية (تحديدًا الفيزياء وعلم الأحياء) والرياضيات ومهام الكتابة بمستويات مختلفة من الصعوبة. نحن نستخدم GPT-4 للتقييم. هنا مجموعة البيانات.
المثال أ: سؤال المعرفة المشتركة
المستخدم: ما هو الحيوان المعروف بأنه أفضل صديق للإنسان؟
UltraLM: هناك العديد من الحيوانات التي يستمتع بها البشر كحيوانات مرافقة، ولكن إحدى الإجابات البارزة على السؤال "ما هو الحيوان المعروف بأنه أفضل صديق للإنسان؟" هو الكلب المربى محليا. كانت الكلاب المستأنسة إلى جانب البشر لعشرات الآلاف من السنين، حيث قدمت لهم الرفقة والمساعدة المخلصة؛ حراسة الناس والممتلكات. وتقديم الدعم العاطفي في كل شيء بدءًا من الأيام الطويلة المنعزلة وحتى عمليات الانتشار العسكري. تأتي الكلاب في مجموعة متنوعة مذهلة من السلالات ذات الأحجام المختلفة، مع مستويات طاقة وشخصيات وأمزجة مختلفة، مما يعني أنه من المؤكد تقريبًا أن هناك جروًا سيكون مناسبًا تمامًا لمن يحتاج إليه بشدة.
المثال ب: المنطق المنطقي
المستخدم: أيهما أثقل: رطل الريش أم رطل الطوب؟
UltraLM: يزن رطل من الريش ورطل من الطوب رطلًا واحدًا بالضبط. وذلك لأن الجنيه الواحد هو وحدة الوزن، كما أن القدم هي وحدة الطول أو الثانية هي وحدة الزمن. نحن نستخدم الجنيه (أو وحدة وزن أخرى) لوصف وزن الأجسام المختلفة، بغض النظر عن المادة التي يتكون منها هذا الجسم. لذا فإن الإجابة على سؤالك هي أن رطلًا من الريش ورطلًا من الطوب كلاهما يزنان نفس الكمية.
المثال ج: الاستدلال
المستخدم: إذا كان لدى المزارع 17 خروفًا وماتت جميعها باستثناء 9، فكم بقي منها؟
UltraLM: إجمالي عدد الأغنام المتبقية هو 9.
المثال د: الاستدلال
المستخدم: إذا كان المنزل الأحمر مصنوعًا من الطوب الأحمر، والمنزل الأزرق مصنوعًا من الطوب الأزرق، فما المادة المصنوعة من الدفيئة؟
UltraLM: الدفيئة ليست مصنوعة من الطوب الأخضر، بل من مواد مثل الزجاج أو البلاستيك التي تسمح للضوء بالمرور وخلق بيئة يمكن التحكم فيها لنمو النباتات. يمكن أن تأتي الدفيئات الزراعية بمجموعة متنوعة من الألوان، بما في ذلك اللون الأخضر، لكن لون المبنى نفسه لا يؤثر على النباتات التي تنمو بداخله.
المثال هـ: الخلق
المستخدم: اكتب قصيدة عن الكهرومغناطيسية.
UltraLM: الكهرومغناطيسية هي قوة لا يمكننا تجاهلها،
إنه سبب أشياء كثيرة نعشقها. في المجال المغناطيسي، سوف يتوهج السلك،
وسوف تصطف الإلكترونات، القديمة والجديدة.
الكهرباء والمغناطيسية يداً بيد،
أحدهما ينشئ مجالًا والآخر لديه علامة تجارية.
يمكن للمجال المغناطيسي أن يدفع ويسحب،
على سلك مع التيار، سوف يتفاعل بالكامل.
وما يجلبه من جاذبية وتنافر،
هي السبب في أشياء كثيرة.
من المحركات إلى المولدات، وأكثر من ذلك بكثير بينهما،
الكهرومغناطيسية هي أصل ما يعنيه ذلك.
إنها القوة التي تحيط بنا في كل مكان،
من البوصلة إلى مفتاح الضوء.
وبقوته يستطيع أن يفعل الكثير،
من إبرة بسيطة إلى ضربة صاروخية.
إنها قوة لا يمكننا إنكارها،
لأنها جزء من حياتنا.
الكهرومغناطيسية شيء يستحق الإعجاب،
بالنسبة لقوته وجبروته، ليس له مثيل، هذا أمر مؤكد.
مثال و: الخلق
المستخدم: اكتب قصة قصيرة عن الثانية الأولى من عمر الكون.
UltraLM: في الثانية الأولى من عمر الكون، ساد الظلام. لم يكن هناك ضوء ولا صوت ولا شكل ولا مادة. لم يحدث شيء بعد، ولكن كانت هناك قوة شديدة، طاقة خام تنتظر إطلاق العنان لها. وفي اللانهاية، كانت الثانية الأولى تحمل في قبضتها إمكانية الخلق. وبعد ذلك، مع انفجار عظيم، ظهرت نقطة ضوء ساطعة إلى الوجود. فيه، وُلدت الجسيمات الأساسية، وأشكالها غير معروفة بعد، حيث كانت تصطدم بشكل محموم في رقصة فوضوية من الخلق. وفي هذا النور البدائي، تحركت كل قوة من قوى الطبيعة وكل عنصر من عناصر الحياة من الطاقة النقية إلى الواقع المادي. وتجمعت الذرات الأولى بسرعة، ومنها بدأت تتشكل النجوم والمجرات. أدى اندماجها إلى خلق بيئة ساخنة دفعت الفراغ إلى الخلف، وشكلت الكون من خلال موجات التوسع والتبريد. في هذه الكونية الأولى، لا يمكن لأي بنية من الخبرة، ولا حتى الزمان أو المكان، أن ترسي حكمها. للحظة، كان الكون بأكمله موجودًا في رابطة جنينية، وهي تفرد كوني نشأ منه كل الوجود المستقبلي. لقد كان عالمًا مصغرًا يشكل العالم الكبير الذي أصبح في النهاية جزءًا منه، وكانت لحظة ولادته بمثابة استعارة لدورات الخلق التي تتخلل الكون (الأكوان) المتعددة. ومن نقطة الضوء الوحيدة تلك، انكشف كون لا نهائي. لعدة قرون، ودهور قادمة، وإلى الأبد، ظلت هذه الومضة الأساسية لرحلتها المتواصلة إلى أعماق العالم الخارجي العظيم. الثانية الأولى هي بداية كل شيء.
يهدف هذا المشروع إلى إنشاء بيانات حوار مفتوحة المصدر وواسعة النطاق ومتعددة الجولات مدعومة بـ Turbo APIs لتسهيل بناء نماذج لغوية قوية ذات قدرة محادثة عامة. مع الأخذ في الاعتبار عوامل مثل حماية الخصوصية، فإننا لا نستخدم بشكل مباشر أي بيانات متاحة على الإنترنت كمطالبات .
إخلاء المسؤولية: على الرغم من أن عملية إنشاء UltraChat لا تتضمن أي بيانات قياس أداء متاحة للعامة، إلا أن القياس إلى حد ما قد يؤدي إلى بعض التداخل في بعض معايير التقييم. ونود التأكيد مرة أخرى على أن جميع البيانات يتم إنشاؤها تلقائيًا (بما في ذلك التعليمات والاستجابات) ، ولا نقوم بإدخال أي بيانات معيارية مفتوحة. على سبيل المثال، تم إصدار UltraChat (أبريل 2023) قبل إصدار Alpaca Eval (مايو 2023). نحن نشجع المستخدمين على مراقبة مثل هذه الظواهر عن كثب، بينما نفكر أيضًا بنشاط في كيفية تقييم LLMs بشكل أكثر ملاءمة.
مجموعة البيانات مخصصة فقط للأغراض البحثية والتعليمية ولا ينبغي تفسيرها على أنها تعكس آراء أو وجهات نظر المبدعين أو المالكين أو المساهمين في مجموعة البيانات هذه. ويتم توزيعه بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.
استكشف البيانات قبل تنزيلها، أو استخدم Atlas Explorer.
روابط التحميل المباشر:
كل سطر في ملف البيانات الذي تم تنزيله عبارة عن إملاء json يحتوي على معرف البيانات وبيانات الحوار بتنسيق قائمة. يوجد أدناه خط مثال.
{
"id" : " 0 " ,
"data" : [
" How can cross training benefit groups like runners, swimmers, or weightlifters? " ,
" Cross training can benefit groups like runners, swimmers, or weightlifters in the following ways: ... " ,
" That makes sense. I've been wanting to improve my running time, but I never thought about incorporating strength training. Do you have any recommendations for specific exercises? " ,
" Sure, here are some strength training exercises that can benefit runners: ... " ,
" Hmm, I'm not really a fan of weightlifting though. Can I incorporate other forms of exercise into my routine to improve my running time? " ,
" Yes, absolutely! ... " ,
" ... "
]
}
نحن نقدم كود تدريب لضبط LLaMa (على الرغم من أننا لا نوزع أوزان LLaMa) على UltraChat بتنسيق .src/
، ويتم تسريع التدريب بواسطة BMTrain.
قم بتنزيل البيانات الصادرة ووضعها ضمن ./data
قم بتشغيل train_bm.py
، على سبيل المثال:
WANDB_MODE= " offline " torchrun --nnodes=1 --nproc_per_node=8 --rdzv_id=1 --rdzv_backend=c10d --rdzv_endpoint=localhost:50003 train_bm.py --tensorboard ./ultrachat_llama_tb_2 --save_step 5000 --logging_step 100
كما نقدم أيضًا نصًا تدريبيًا لضبط GPT-J على UltraChat بتنسيق .src/train_legacy/
، والذي يتم تنفيذه باستخدام OpenPrompt
./data
accelerate launch train.py
لبدء التدريب الفكرة العامة لـ UltraChat هي استخدام LLMs منفصلة لإنشاء سطور افتتاحية ومحاكاة المستخدمين والرد على الاستفسارات. يواجه كل قطاع في UltraChat تحدياته الخاصة ويتطلب تصميمات إستراتيجية معينة. سنحدد عملية الإنشاء بمجرد إصدار قطاع UltraChat.
لا تتردد في الاستشهاد بالريبو إذا كنت تعتقد أن UltraChat مفيد.
@article { ding2023enhancing ,
title = { Enhancing Chat Language Models by Scaling High-quality Instructional Conversations } ,
author = { Ding, Ning and Chen, Yulin and Xu, Bokai and Qin, Yujia and Zheng, Zhi and Hu, Shengding and Liu, Zhiyuan and Sun, Maosong and Zhou, Bowen } ,
journal = { arXiv preprint arXiv:2305.14233 } ,
year = { 2023 }
}