ميسترال كبير 2 | ميسترال منظمة العفو الدولية | 123 ب | يعد Mistral-Large نموذجًا متقدمًا كثيفًا للغة كبيرة (LLM) يتكون من 123 معلمة مع أحدث إمكانيات التفكير والمعرفة والترميز. لديها نافذة سياق 128 كيلو بايت. | مدونة تعانق الوجه |
اللاما 3.1 | ميتا الذكاء الاصطناعي | 8ب، 70ب، 405ب | تعد عائلة Meta Llama 3.1 من نماذج اللغات الكبيرة متعددة اللغات (LLMs) عبارة عن مجموعة من النماذج التوليدية المدربة مسبقًا والمضبوطة للتعليمات بأحجام 8B و70B و405B. تم تحسين نماذج النص المضبوط للتعليمات Llama 3.1 فقط لحالات استخدام الحوار متعدد اللغات وتتفوق على العديد من نماذج الدردشة المفتوحة المصدر والمغلقة المتاحة وفقًا لمعايير الصناعة الشائعة. هذه النماذج عبارة عن نماذج لغة انحدارية تلقائية تستخدم بنية محولات محسنة. تستخدم الإصدارات المضبوطة الضبط الدقيق الخاضع للإشراف (SFT) والتعلم المعزز باستخدام التعليقات البشرية (RLHF) للتوافق مع التفضيلات البشرية للمساعدة والسلامة. | مدونة تعانق الوجه |
ميسترال نيمو | نفيديا ميسترال الذكاء الاصطناعي | 12 ب | نموذج لغة Mistral-Nemo الكبير هو نموذج نص توليدي تم تدريبه مسبقًا لمعلمات 12B تم تدريبها بشكل مشترك بواسطة Mistral AI وNVIDIA، وهو يتفوق بشكل كبير على النماذج الحالية الأصغر أو المشابهة في الحجم. | مدونة تعانق الوجه |
نيموترون 4 | نفيديا | 340 ب | تم تدريب النموذج الأساسي Nemotron 4 مسبقًا على مجموعة مكونة من 9 تريليون رمز يتكون من مجموعة متنوعة من النصوص المستندة إلى اللغة الإنجليزية، وأكثر من 50 لغة طبيعية، وأكثر من 40 لغة ترميز. | تعانق الوجه |
DCLM | تفاحة | 7 ب | DCLM هو نموذج لغة محول لوحدة فك الترميز فقط. يبلغ طول السياق 2048 رمزًا. تم تدريبه على رموز 2.5T. ولم تخضع لمحاذاة محددة أو ضبط للسلامة، لذا يجب استخدام المخرجات بحذر. | تعانق الوجه |
جيما 2 | جوجل | 9 ب 27 ب | Gemma 2 عبارة عن نماذج لغة كبيرة لتحويل النص إلى نص ومفككة التشفير فقط، وهي متوفرة باللغة الإنجليزية، مع أوزان مفتوحة لكل من المتغيرات المدربة مسبقًا والمتغيرات التي تم ضبطها للتعليمات. تعتبر نماذج Gemma مناسبة تمامًا لمجموعة متنوعة من مهام إنشاء النص، بما في ذلك الإجابة على الأسئلة والتلخيص والاستدلال. | تعانق الوجه |
حرباء | ميتا الذكاء الاصطناعي | 7 ب 30 ب | Chameleon هو نموذج أساس مختلط متعدد الوسائط من FAIR. متوفر بحجمين: 7B و30B. | معانقة الوجه جيثب |
ميسترال 7B v3 | ميسترال منظمة العفو الدولية | 7 ب | نموذج اللغة الكبيرة Mistral-7B-v0.3 (LLM) هو نموذج Mistral-7B-v0.2 مع مفردات موسعة. | معانقة الوجه جيثب |
القطب الشمالي (كثيف-MoE) | ندفة الثلج | 480 ب نشط 17 ب | Arctic عبارة عن بنية محولات هجينة كثيفة تابعة لوزارة الطاقة تم تدريبها مسبقًا من الصفر. يجمع Arctic بين نموذج محول كثيف 10B مع 128x3.66B MoE MLP re المتبقي، نموذج اللغة الكبيرة Mistral-7B-v0.3 (LLM) هو Mistral-7B-v0.2 مع مفردات ممتدة. مما يؤدي إلى إجمالي 480B ومعلمات نشطة 17B تم اختياره باستخدام بوابة أعلى 2. | HuggingFace مدونة جيثب |
لاما 3 | ميتا الذكاء الاصطناعي | 8 ب 70 ب | Llama 3 هي عائلة من نماذج اللغات الكبيرة، وهي عبارة عن مجموعة من نماذج النصوص التوليدية المدربة مسبقًا والمضبوطة للتعليمات بأحجام 8 و70B. إنه نموذج لغة انحداري تلقائي يستخدم بنية المحولات الأمثل. تستخدم الإصدارات المضبوطة الضبط الدقيق الخاضع للإشراف (SFT) والتعلم المعزز باستخدام التعليقات البشرية (RLHF). | HuggingFace مدونة جيثب |
فاي 3 الرؤية | مايكروسوفت | | Phi3-3-Vision هو نموذج مفتوح متعدد الوسائط خفيف الوزن ومتطور مبني على مجموعات البيانات التي تشمل - البيانات الاصطناعية والمواقع الإلكترونية المفلترة المتاحة للجمهور - مع التركيز على البيانات الكثيفة عالية الجودة والمنطقية سواء في النص أو الرؤية . يبلغ طول السياق 128 كيلو بايت. | تعانق الوجه |
فاي 3 | مايكروسوفت | 3.8 ب 7 ب 14 ب | Phi-3 عبارة عن مجموعة من النماذج. متوفر بأحجام مختلفة: Phi3-mini، Phi3-small، Phi3-medium. إنه نموذج مفتوح خفيف الوزن ومتطور تم تدريبه باستخدام مجموعات بيانات Phi-3. تتضمن مجموعة البيانات هذه كلاً من البيانات الاصطناعية وبيانات مواقع الويب المتاحة للجمهور، مع التركيز على الخصائص عالية الجودة والمكثفة للاستدلال. تعد نماذج Phi-3 من نماذج اللغات الصغيرة (SLMs) الأكثر قدرة وفعالية من حيث التكلفة، | مدونة HuggingFace |
أوبينإلم | تفاحة | 270 م 450 م 1.1 ب 3 ب | OpenELM، عائلة من نماذج اللغة الفعالة مفتوحة المصدر. يستخدم OpenELM إستراتيجية قياس الطبقة لتخصيص المعلمات بكفاءة داخل كل طبقة من نموذج المحول، مما يؤدي إلى تحسين الدقة. تم التدريب على RefinedWeb، وPILE المحذوفة، ومجموعة فرعية من RedPajama، ومجموعة فرعية من Dolma v1.6، بإجمالي 1.8 تريليون رمز مميز تقريبًا. تم إصدار كل من النماذج المدربة مسبقًا والمضبوطة للتعليمات بمعلمات 270M و450M و1.1B و3B. | HuggingFace OpenELM HuggingFace OpenELM-Instruct |
ديبسيك V2 (وزارة التربية) | com.deepseek | 236 ب نشط 21 ب | DeepSeek-V2 هو نموذج لغة قوي لمزيج من الخبراء (MoE) يتميز بالتدريب الاقتصادي والاستدلال الفعال. وهو يتألف من إجمالي 236B من المعلمات، منها 21B يتم تنشيطها لكل رمز مميز. بالمقارنة مع DeepSeek 67B، يحقق DeepSeek-V2 أداءً أقوى، وفي الوقت نفسه يوفر 42.5%. | معانقة الوجه جيثب |
ميكسترال 8x22B (وزارة البيئة) | ميسترال منظمة العفو الدولية | 176 ب نشط 40 ب | نموذج اللغة الكبير Mixtral-8x22B (LLM) عبارة عن مزيج متفرق من الخبراء تم تدريبهم مسبقًا. يبلغ طول الاتصال بها 65000 رمزًا. | مدونة HuggingFace |
الأوامر-R+ | التحم | 104 ب | يعد C4AI Command R+ إصدارًا بحثيًا مفتوح الأوزان لنموذج معلمات يبلغ 104 مليارات مليار مع إمكانات متقدمة للغاية، ويشمل ذلك الجيل المعزز للاسترجاع (RAG) واستخدام الأدوات لأتمتة المهام المعقدة. تم تحسين Command R+ لمجموعة متنوعة من حالات الاستخدام بما في ذلك الاستدلال والتلخيص والإجابة على الأسئلة. | تعانق الوجه |
جامبا (وزارة التعليم) | مختبرات AI21 | 52 ب نشط 12 ب | Jamba عبارة عن LLM هجينة SSM-Transformer LLM على أحدث طراز. فهو يوفر مكاسب إنتاجية مقارنة بالنماذج التقليدية القائمة على المحولات. إنه نموذج نصي توليدي مُدرب مسبقًا ومختلط من الخبراء (MoE)، مع 12B من المعلمات النشطة وإجمالي 52B من المعلمات عبر جميع الخبراء. وهو يدعم طول سياق يصل إلى 256 كيلو بايت، ويمكنه احتواء ما يصل إلى 140 ألف رمزًا مميزًا على وحدة معالجة الرسومات (GPU) واحدة بسعة 80 جيجابايت. | مدونة HuggingFace |
دي بي آر إكس (وزارة التعليم) | طوب البيانات | 132 ب نشط 36 ب | DBRX هو نموذج لغة كبير قائم على وحدة فك الترميز فقط (LLM) تم تدريبه باستخدام التنبؤ بالرمز المميز التالي. ويستخدم بنية خليط من الخبراء (MoE) دقيقة الحبيبات مع 132B من المعلمات الإجمالية منها 36B من المعلمات النشطة على أي مدخلات. تم تدريبه مسبقًا على 12T من الرموز النصية وبيانات التعليمات البرمجية. بالمقارنة مع نماذج وزارة التعليم المفتوحة الأخرى مثل Mixtral-8x7B وGrok-1، فإن DBRX دقيق للغاية، مما يعني أنه يستخدم عددًا أكبر من الخبراء الأصغر. لدى DBRX 16 خبيرًا وتختار 4، بينما لدى Mixtral-8x7B وGrok-1 8 خبراء وتختار 2. وهذا يوفر مجموعات محتملة أكثر من الخبراء بمقدار 65 مرة مما يحسن جودة النموذج. | HuggingFace مدونة جيثب |
جروك 1.0 (وزارة التربية) | xAI | 314 ب | يستخدم Grok 1.0 مزيجًا من 8 خبراء (MoE). لم يتم ضبط Grok 1.0 لتطبيقات معينة مثل الحوار ولكنه يعرض أداءً قويًا مقارنة بالنماذج الأخرى مثل GPT-3.5 وLlama 2. وهو أكبر من GPT-3/3.5. | جيثب يعانق الوجه |
جيما | جوجل | 2 ب 7 ب | Gemma هي عائلة من النماذج المفتوحة الخفيفة الوزن والمتطورة من Google، والتي تم إنشاؤها بناءً على نفس البحث والتكنولوجيا المستخدمة لإنشاء نماذج Gemini. وهي عبارة عن نماذج لغات كبيرة الحجم لتحويل النص إلى نص، وموحدة فك التشفير فقط، وهي متاحة باللغة الإنجليزية، مع أوزان مفتوحة، ومتغيرات مدربة مسبقًا، ومتغيرات مضبوطة للتعليمات. تعتبر نماذج Gemma مناسبة تمامًا لمجموعة متنوعة من مهام إنشاء النص، بما في ذلك الإجابة على الأسئلة والتلخيص والاستدلال. | مدونة HuggingFace Kaggle جيثب |
جيما المتكررة | جوجل | 2 ب | RecurrentGemma هي عائلة من نماذج اللغات المفتوحة المبنية على بنية متكررة جديدة. مثل Gemma، تعد نماذج RecurrentGemma مناسبة تمامًا لمجموعة متنوعة من مهام إنشاء النص، بما في ذلك الإجابة على الأسئلة والتلخيص والاستدلال. نظرًا لبنيتها الجديدة، تتطلب RecurrentGemma ذاكرة أقل من Gemma وتحقق استنتاجًا أسرع عند إنشاء تسلسلات طويلة. | عناق الوجه Kaggle |
ميكسترال 8x7B (وزارة البيئة) | ميسترال منظمة العفو الدولية | 45 ب نشط 12 ب | نموذج اللغة الكبير Mixtral-8x7B (LLM) عبارة عن مزيج متفرق من الخبراء تم تدريبهم مسبقًا. يتفوق Mixtral-8x7B على Llama 2 70B في معظم المعايير. | مدونة HuggingFace Kaggle |
Qwen1.5-MoE (MoE) | علي بابا | 14.3 ب نشط 2.7 ب | Qwen1.5-MoE هو نموذج لغة لوحدة فك ترميز MoE قائم على المحولات تم تدريبه مسبقًا على كمية كبيرة من البيانات. يستخدم بنية مزيج من الخبراء (MoE)، حيث يتم إعادة تدوير النماذج من نماذج اللغة الكثيفة. يحتوي على 14.3 مليار معلمة إجمالاً و2.7 مليار معلمة منشطة أثناء وقت التشغيل، بينما يحقق أداءً مشابهًا لـ Qwen1.5-7B، فإنه لا يتطلب سوى 25% من موارد التدريب. | HuggingFace |
ميسترال 7B v2 | ميسترال منظمة العفو الدولية | 7 ب | يحتوي Mistral 7B v2 على التغييرات التالية مقارنةً بـ Mistral 7B: - نافذة سياق 32 كيلو بايت (مقابل سياق 8 كيلو بايت في الإصدار 0.1)، Rope-theta = 1e6، لا يوجد اهتمام بالنافذة المنزلقة. | معانقة الوجه جيثب |
ميسترال 7 ب | ميسترال منظمة العفو الدولية | 7 ب | يعد نموذج اللغة الكبيرة Mistral-7B-v0.1 (LLM) نموذجًا نصيًا توليديًا تم تدريبه مسبقًا ويحتوي على 7 مليارات معلمة. يتفوق Mistral-7B-v0.1 على Llama 2 13B في معظم المعايير. | مدونة جيثب HuggingFace Kaggle |
اللاما 2 | ميتا الذكاء الاصطناعي | 7 ب 13 ب 70 ب | Llama 2 عبارة عن مجموعة من نماذج النصوص التوليدية المدربة مسبقًا والمضبوطة بدقة والتي يتراوح حجمها من 7 مليار إلى 70 مليار معلمة. إنه نموذج لغة انحداري تلقائي يستخدم بنية محولات محسنة. تستخدم الإصدارات المضبوطة الضبط الدقيق الخاضع للإشراف (SFT) والتعلم المعزز باستخدام التعليقات البشرية (RLHF) للتوافق مع التفضيلات البشرية فيما يتعلق بالمساعدة والسلامة. | مدونة HuggingFace Kaggle جيثب |
دوللي v2 | طوب البيانات | 3 ب 7 ب 12 ب | Dolly v2 هو نموذج لغة سببية تم إنشاؤه بواسطة Databricks وهو مشتق من Pythia-12b الخاص بـ EleutherAI وتم ضبطه بدقة على مجموعة تعليمات تسجيل تصل إلى 15 ألف تقريبًا. | عناقوجه دوللي3B عناقوجه دوللي7B عناقوجه دوللي12B Kaggle Github |
الأوامر-R | التحم | 35 ب | Command-R هو إصدار بحثي لنموذج توليدي عالي الأداء مكون من 35 مليار معلمة. Command-R هو نموذج لغة كبير ذو أوزان مفتوحة مُحسّنة لمجموعة متنوعة من حالات الاستخدام بما في ذلك الاستدلال والتلخيص والإجابة على الأسئلة. يتمتع Command-R بالقدرة على إنشاء متعدد اللغات تم تقييمه بـ 10 لغات وقدرات RAG عالية الأداء. | عناق الوجه Kaggle |
كوين1.5 | علي بابا | 0.5 ب 1.8 ب 4 ب 7 ب 14 ب 32 ب 72 ب | Qwen1.5 هو نموذج لغة يعتمد على وحدة فك الترميز فقط، وقد تم تدريبه مسبقًا على كمية كبيرة من البيانات. يعتمد على بنية المحولات مع تنشيط SwiGLU، وانحياز الانتباه QKV، والاهتمام بالاستعلام الجماعي، ومزيج من انتباه النافذة المنزلقة والاهتمام الكامل، وما إلى ذلك. | معانقة الوجه جيثب |
فيكونا v1.5 | ليسمز | 7 ب 13 ب | تم ضبط Vicuna v1.5 بشكل دقيق من Llama 2 من خلال الضبط الدقيق للتعليمات الخاضعة للإشراف. تبلغ بيانات التدريب حوالي 125 ألف محادثة تم جمعها من ShareGPT.com. الاستخدام الأساسي لـ Vicuna هو البحث عن نماذج اللغات الكبيرة وروبوتات الدردشة. | عناق الوجه Vicuna7B عناق الوجه Vicuna13B |
فاي 2 | مايكروسوفت | 2.7 ب | Phi-2 عبارة عن محول يحتوي على 2.7 مليار معلمة. تم تدريبه باستخدام نفس مصادر البيانات مثل Phi-1.5، مع تعزيزه بمصدر بيانات جديد يتكون من نصوص تركيبية مختلفة للبرمجة اللغوية العصبية ومواقع الويب التي تمت تصفيتها. عند تقييمه وفقًا للمعايير التي تختبر الحس السليم وفهم اللغة والتفكير المنطقي، أظهر Phi-2 أداءً متطورًا تقريبًا بين النماذج التي تحتوي على أقل من 13 مليار معلمة. | مدونة HuggingFace Kaggle |
أوركا 2 | مايكروسوفت | 7 ب 13 ب | تم تصميم Orca 2 لأغراض البحث فقط ويوفر استجابة واحدة في مهام مثل التفكير في البيانات المقدمة من المستخدم، وفهم القراءة، وحل المشكلات الرياضية، وتلخيص النص. تم تصميم النموذج للتفوق خاصة في التفكير. لم يتم تحسين النموذج للدردشة ولم يتم تدريبه باستخدام RLHF أو DPO. | مدونة HuggingFace |
سموغ | العداد AI | 34 ب 72 ب | تم إنشاء Smaug باستخدام تقنية الضبط الدقيق الجديدة، DPO-Positive (DPOP)، وإصدارات التفضيلات الزوجية الجديدة من ARC، وHellaSwag، وMetaMath (بالإضافة إلى مجموعات البيانات الأخرى الموجودة). | HuggingFace |
MPT | فسيفساءمل | 1 ب 7 ب 30 ب | MPT عبارة عن محول على طراز وحدة فك التشفير تم تدريبه مسبقًا من الصفر على رموز 1T من النص والرمز الإنجليزي. تستخدم هذه النماذج بنية محولات معدلة مُحسّنة للتدريب والاستدلال الفعال. تتضمن هذه التغييرات المعمارية تطبيقات الطبقة المحسنة للأداء وإزالة حدود طول السياق عن طريق استبدال التضمينات الموضعية بالانتباه مع التحيزات الخطية (ALiBi). | HuggingFace Kaggle جيثب |
فالكون | TLL | 7 ب 40 ب 180 ب | Falcon عبارة عن نماذج فك ترميز سببية ذات معلمات 7B/40B/180B تم إنشاؤها بواسطة TII وتم تدريبها على 1000B/1500B/3500B من الرموز المميزة لـ RefinedWeb المعززة بمجموعات منسقة. | HuggingFace |
يالم | ياندكس | 100 ب | YaLM 100B عبارة عن شبكة عصبية تشبه GPT لإنشاء النصوص ومعالجتها. تم تدريبه على مجموعة مكونة من 800 بطاقة رسومية A100 على مدار 65 يومًا. وهي مصممة لتوليد النص ومعالجته. | معانقة الوجه جيثب |
ديسيلم | ديسيأي | 6 ب 7 ب | DeciLM هو نموذج لإنشاء نص لوحدة فك التشفير فقط. مع دعم طول تسلسل 8K، يستخدم هذا النموذج عالي الكفاءة اهتمام الاستعلامات المجمعة المتغير (GQA) لتحقيق توازن فائق بين الدقة والكفاءة الحسابية. | HuggingFace |
بيرت | جوجل | 110 م إلى 350 م | BERT هو نموذج محولات تم تدريبه مسبقًا على مجموعة كبيرة من البيانات الإنجليزية بطريقة ذاتية الإشراف. وهذا يعني أنه تم تدريبه مسبقًا على النصوص الأولية فقط، دون أن يقوم البشر بوضع علامات عليها بأي شكل من الأشكال من خلال عملية تلقائية لإنشاء المدخلات والتسميات من تلك النصوص. | عناق الوجه Kaggle جيثب |
أولمو | ألينAI | 1 ب 7 ب | OLMo عبارة عن سلسلة من نماذج اللغة المفتوحة المصممة لتمكين علم نماذج اللغة. يتم تدريب نماذج OLMo على مجموعة بيانات Dolma. | معانقة الوجه جيثب |
اوبن شات3.5 | دردشة مفتوحة | 7 ب | Openchat2.5 هو أفضل 7B LLM أداءً. | معانقة الوجه جيثب |
يزدهر | بيجساينس | 176 ب | BLOOM هو نموذج انحدار ذاتي للغة كبيرة (LLM)، تم تدريبه لمواصلة النص من موجه على كميات هائلة من البيانات النصية باستخدام موارد حسابية على نطاق صناعي. | HuggingFace |
هيرميس 2 برو ميسترال | أبحاث نوس | 7 ب | Hermes 2 Pro على Mistral 7B هو الرائد الجديد 7B Hermes. Hermes 2 Pro عبارة عن نسخة مطورة ومعاد تدريبها من Nous Hermes 2، وتتألف من نسخة محدثة ومنظفة من مجموعة بيانات OpenHermes 2.5، بالإضافة إلى مجموعة بيانات استدعاء الوظائف ووضع JSON التي تم تطويرها داخليًا. يحتفظ هذا الإصدار الجديد من Hermes بقدراته الممتازة للمهام العامة والمحادثة - ولكنه يتفوق أيضًا في استدعاء الوظائف ومخرجات JSON المنظمة. | HuggingFace |
هيرميس 2 ميكسترال 7x8B (وزارة البيئة) | أبحاث نوس | نشط 12 ب | Nous Hermes 2 Mixtral 8x7B DPO هو نموذج Nous Research الرائد الجديد الذي تم تدريبه على Mixtral 8x7B MoE LLM. تم تدريب النموذج على أكثر من مليون إدخال من البيانات التي تم إنشاؤها بشكل أساسي بواسطة GPT-4، بالإضافة إلى البيانات الأخرى عالية الجودة من مجموعات البيانات المفتوحة عبر مشهد الذكاء الاصطناعي، مما حقق أداءً متطورًا في مجموعة متنوعة من المهام. هذه هي نسخة SFT + DPO من Mixtral Hermes 2. | HuggingFace |
ميرلينيت | آي بي إم | 7 ب | Merlinite-7b هو نموذج مشتق من Mistral-7b تم تدريبه باستخدام منهجية LAB، باستخدام Mixtral-8x7b-Instruct كنموذج للمعلم. | HuggingFace |
اللابرادوريت | آي بي إم | 13 ب | Labradorite-13b هو نموذج مشتق من LLaMA-2-13b تم تدريبه باستخدام منهجية LAB، باستخدام Mixtral-8x7b-Instruct كنموذج للمعلم. | HuggingFace |
اكسجين | قوة المبيعات | 7 ب | Xgen هو نموذج لغة كبير يبلغ طول سياقه 8K و4K وهو مُحسّن لمهام التسلسل الطويل. | معانقة الوجه جيثب |
الشمسية | في الطابق العلوي | 10.7 ب | SOLAR-10.7B، هو نموذج لغة كبير متقدم (LLM) يحتوي على 10.7 مليار معلمة، مما يُظهر أداءً فائقًا في مختلف مهام معالجة اللغة الطبيعية (NLP). إنه صغير الحجم، ولكنه قوي بشكل ملحوظ، ويظهر أداءً متطورًا لا مثيل له في النماذج ذات المعلمات الأقل من 30B. | HuggingFace |
جي بي تي- نيوكس | إليثر آي | 20 ب | GPT-NeoX-20B هو نموذج لغة انحدار ذاتي مكون من 20 مليار معلمة تم تدريبه على Pile باستخدام مكتبة GPT-NeoX. تشبه هندسته المعمارية بنية GPT-3 عمدًا، وتشبه تقريبًا بنية GPT-J-6B. | معانقة الوجه جيثب |
فلان-T5 | جوجل | 80 م إلى 11 ب | FLAN-T5 هو نسخة معدلة من T5 وله نفس عدد المعلمات، وقد تم ضبط هذه النماذج بدقة على أكثر من 1000 مهمة إضافية تغطي أيضًا المزيد من اللغات. مقاسات مختلفة:- فلان-t5-صغير، فلان-t5-قاعدة، فلان-t5-كبير، فلان-t5-xxl | عناق الوجه Kaggle |
الأراضي الفلسطينية المحتلة | ميتا الذكاء الاصطناعي | 125م إلى 175ب | OPT عبارة عن محولات مدربة مسبقًا لوحدة فك التشفير فقط وتتراوح من 125M إلى 175B من المعلمات. لقد تم تدريبه مسبقًا في الغالب باستخدام نص باللغة الإنجليزية ولكن لا يزال هناك قدر صغير من البيانات غير الإنجليزية موجودة في مجموعة التدريب عبر CommonCrawl. | HuggingFace |
مستقرة LM 2 | الاستقرار منظمة العفو الدولية | 1.6 ب 12 ب | Stable LM 2 عبارة عن نماذج لغة لوحدة فك التشفير فقط تم تدريبها مسبقًا على 2 تريليون رمز من مجموعات البيانات المتنوعة متعددة اللغات والأكواد لعصرين. | HuggingFace |
مستقرة LM زفير | الاستقرار منظمة العفو الدولية | 3 ب | نموذج StableLM Zephyr 3B هو نموذج لغة انحداري تلقائي يعتمد على بنية وحدة فك ترميز المحولات. StableLM Zephyr 3B عبارة عن معلمة تبلغ 3 مليارات تم تدريبها على مزيج من مجموعات البيانات المتاحة للجمهور ومجموعات البيانات الاصطناعية باستخدام تحسين التفضيل المباشر (DPO). | HuggingFace |
آية | التحم | 13 ب | نموذج Aya هو نموذج لغة توليدية متعدد اللغات يعتمد على أسلوب المحولات ويتبع التعليمات بـ 101 لغة. لديها نفس البنية مثل mt5-xxl. | مدونة HuggingFace Kaggle |
نيموترون 3 | نفيديا | 8 ب | Nemotron-3 عبارة عن نماذج أساسية لغوية كبيرة للمؤسسات لبناء دورات LLM مخصصة. يحتوي هذا النموذج الأساسي على 8 مليار معلمة، ويدعم طول سياق يبلغ 4096 رمزًا مميزًا. Nemotron-3 هي عائلة من نماذج النصوص التوليدية الجاهزة للمؤسسات والمتوافقة مع NVIDIA NeMo Framework. | HuggingFace |
الدردشة العصبية v3 | إنتل | 7 ب | Neural Chat عبارة عن LLM معلمة 7B مضبوطة بدقة على معالج Intel Gaudi 2 من mistralai/Mistral-7B-v0.1 على مجموعة البيانات مفتوحة المصدر Open-Orca/SlimOrca. تمت محاذاة النموذج باستخدام طريقة تحسين الأداء المباشر (DPO). | HuggingFace |
يي | 01 آي | 6 ب 9 ب 34 ب | نماذج سلسلة Yi هي الجيل التالي من نماذج اللغات الكبيرة مفتوحة المصدر. يتم استهدافهم كنموذج لغة ثنائي اللغة ويتم تدريبهم على مجموعة 3T متعددة اللغات، مما يظهر وعدًا في فهم اللغة، والتفكير المنطقي، وفهم القراءة، والمزيد. | معانقة الوجه جيثب |
ستارلينج إل إم | نيكسوسفلو | 7 ب | Starling LM، هو نموذج لغة مفتوح كبير (LLM) تم تدريبه بواسطة التعلم المعزز من تعليقات الذكاء الاصطناعي (RLAIF). تم تدريب Starling LM من Openchat-3.5-0106 باستخدام نموذج المكافأة الجديد Starling-RM-34B وطريقة تحسين السياسة لنماذج اللغة الضبط الدقيق من التفضيلات البشرية (PPO). | HuggingFace |
نيكزس رافين v2 | نيكسوسفلو | 13 ب | NexusRaven هي وظيفة مفتوحة المصدر ومجدية تجاريًا تستدعي LLM وتتفوق على أحدث إمكانات استدعاء الوظائف. NexusRaven-V2 قادر على إنشاء استدعاءات دالة متداخلة بعمق، واستدعاءات دالة متوازية، واستدعاءات فردية بسيطة. يمكنه أيضًا تبرير استدعاءات الوظيفة التي تم إنشاؤها. | HuggingFace |
ديب سيك إل إل إم | ديبسيك الذكاء الاصطناعي | 7 ب 67 ب | DeepSeek LLM هو نموذج لغة متقدم. وقد تم تدريبه من الصفر على مجموعة بيانات ضخمة مكونة من 2 تريليون رمز باللغتين الإنجليزية والصينية. | معانقة الوجه جيثب |
Deepseek VL (متعدد الوسائط) | ديبسيك الذكاء الاصطناعي | 1.3 ب 7 ب | DeepSeek-VL، هو نموذج مفتوح المصدر للرؤية واللغة (VL) مصمم لتطبيقات الرؤية الواقعية وفهم اللغة. يمتلك DeepSeek-VL قدرات فهم عامة متعددة الوسائط، وقادرة على معالجة المخططات المنطقية وصفحات الويب والتعرف على الصيغ والأدبيات العلمية والصور الطبيعية والذكاء المتجسد في سيناريوهات معقدة. إنه برنامج تشفير رؤية هجين يدعم إدخال الصور بدقة 1024 × 1024 وتم إنشاؤه استنادًا إلى قاعدة DeepSeek-7b التي تم تدريبها على مجموعة تقريبية من الرموز النصية 2T. | معانقة الوجه جيثب |
لافا 1.6 (متعدد الوسائط) | اللافا HF | 7 ب 13 ب 34 ب | يجمع LLaVa بين نموذج لغة كبير مُدرب مسبقًا وجهاز تشفير رؤية مُدرب مسبقًا لحالات استخدام روبوتات الدردشة متعددة الوسائط. الموديلات المتوفرة:- Lava-v1.6-34b-hf، Lava-v1.6-Mistral-7b-hf، Lava-v1.6-Vicuna-7b-hf، Lava-v1.6-vicuna-13b-hf | معانقة الوجه معانقة الوجه |
يي VL (متعدد الوسائط) | 01 آي | 6 ب 34 ب | نموذج Yi-VL هو إصدار مفتوح المصدر ومتعدد الوسائط من سلسلة Yi Large Language Model (LLM)، مما يتيح فهم المحتوى والتعرف عليه وإجراء محادثات متعددة حول الصور. | المعانقة الوجه YiVL6B المعانقة الوجه YiVL34B |