مستودع لتقييم LLMs في مهام التوليد
آخر الأخبار
[2024/06] قمنا بإصدار BiGGen-Bench و Prometheus 2 BGB (8x7B) !
يتميز BiGGen-Bench بـ 9 إمكانات أساسية، و77 مهمة، و765 مثيلًا مصممًا بدقة، ولكل منها معايير تقييم محددة.
قمنا بتقييم 103 نماذج لغة حدودية من خلال 5 نماذج لغة مقيمة حديثة وقمنا بتحليل النتائج في ورقتنا.
قمنا باستمرار بتدريب Prometheus 2 8x7B على تتبع تقييم BiGGen-Bench وقمنا ببناء المقيم الأكثر قدرة لدينا LM Prometheus 2 BGB، حتى أننا تجاوزنا Claude-3-Opus في مهام التصنيف المطلقة.
تحقق من مجموعة البيانات الخاصة بنا، ونتائج التقييم، ولوحة المتصدرين، والتقرير التفاعلي، والكود!
[2024/05] نصدر نماذج Prometheus 2 (7B و8x7B)!
يحقق ما لا يقل عن 80% من إحصائيات التقييم أو الأداء لـ Prometheus 2 (8x7B)
فهو يتطلب 16 جيجابايت فقط من VRAM، مما يجعله مناسبًا للتشغيل على وحدات معالجة الرسومات الاستهلاكية.
بالمقارنة مع Prometheus 1 (13B)، يُظهر Prometheus 2 (8x7B) أداء تقييم محسّنًا ويدعم التقييم في تنسيقات التصنيف الزوجي (الدرجات النسبية) أيضًا!
ويحقق ارتباط بيرسون من 0.6 إلى 0.7 مع GPT-4-1106 على مقياس ليكرت المكون من 5 نقاط عبر معايير التقييم المباشرة المتعددة، بما في ذلك VicunaBench وMT-Bench وFLASK.
كما أنها تسجل اتفاقًا بنسبة 72% إلى 85% مع الأحكام البشرية عبر معايير التصنيف الزوجية المتعددة، بما في ذلك HHH Alignment، وMT Bench Human Judgment، وAuto-J Eval.
Prometheus 2 (8x7B) هو نموذج لغة مقيم مفتوح المصدر ومتطور!
Prometheus 2 (7B) هو نسخة أخف من طراز Prometheus 2 (8x7B) مع أداء معقول (يتفوق في الأداء على Llama-2-70B وعلى قدم المساواة مع Mixtral-8x7B).
التثبيت مع النقطة:
نقطة تثبيت بروميثيوس-Eval
يدعم Prometheus-Eval الاستدلال المحلي من خلال vllm
والاستدلال من خلال LLM APIs بمساعدة litellm
.
قم بتثبيت vllm
إذا كنت تريد تشغيل Prometheus في بيئتك المحلية.
تثبيت النقطة vllm
إذا كنت مهتمًا بـ:
استخدام واجهة Prometheus من خلال نقطة نهاية VLLM أو Huggingface TGI أو الأنظمة الأساسية الأخرى
الاستفادة من شهادات LLM المقيِّمة الأكثر قوة مثل GPT-4
يمكنك أيضًا الاستفادة من Prometheus-Eval! للحصول على تفاصيل التثبيت لمختلف مقدمي الخدمة، يرجى الرجوع إلى مستندات موفر LiteLLM.
from prometheus_eval.litellm import LiteLLM, AsyncLiteLLMmodel = LiteLLM('openai/prometheus-eval/prometheus-7b-v2.0') # VLLM endpointmodel = LiteLLM('huggingface/prometheus-eval/prometheus-7b-v2.0') # المعانقة TGImodel = AsyncLiteLLM('gpt-4-turbo', request_per_دقيقة=100) # GPT-4 API (إنشاء غير متزامن مع الأخذ في الاعتبار حد المعدل)# وأكثر من ذلك بكثير!judge = PrometheusEval(model=model)
ملاحظة : مكتبة prometheus-eval
موجودة حاليًا في المرحلة التجريبية. إذا واجهت أية مشكلات، فيرجى إخبارنا بذلك عن طريق إنشاء مشكلة في المستودع.
باستخدام
prometheus-eval
، يكون تقييم أي زوج من التعليمات والاستجابة أمرًا بسيطًا مثل:
# التقدير المطلق: درجة المخرجات من 1 إلى 5من prometheus_eval.vllm import VLLMfrom prometheus_eval import PrometheusEvalfrom prometheus_eval.prompts import ABSOLUTE_PROMPT, SCORE_RUBRIC_TEMPLATEmodel = VLLM(model="prometheus-eval/prometheus-7b-v2.0")judge = PrometheusEval(model=model,Absolute_grade_template=ABSOLUTE_PROMPT)instruction = "يواجه الشخص حالة من الانفصال مؤخرًا، وينفتح على المشاعر الشديدة للوحدة والحزن. ويطلب النصيحة حول كيفية التعامل مع حزن القلب والمضي قدمًا في الحياة .",response = "يؤسفني حقًا أن أسمع عن انفصالكما، فقد يكون هذا وقتًا صعبًا للغاية مليئًا بمشاعر الوحدة والحزن الشديدة تذكر أنه من الطبيعي أن تواجه هذه المشاعر؛ فهي شهادة على الارتباط العميق الذي كان لديك في السابق. أولاً، لا تتردد في احتضان مشاعرك، فتجاهلها غالبًا ما يؤدي إلى تعقيد عملية الشفاء ، لذرف الدموع، أو الشعور بالغضب. وهذا كله جزء من الرحلة نحو الشفاء. يمكن أن تكون الرعاية الذاتية بلسمًا شافيًا في هذه الأوقات الصعبة. قد يعني هذا الانغماس في كتابك المفضل، أو تدوين أفكارك، أو حتى مجرد تناول كوب هادئ من الشاي. يمكن لأفعال اللطف الصغيرة تجاه نفسك أن تحسن صحتك العاطفية بشكل كبير. وأيضاً لا تعزل نفسك. أحط نفسك بأفراد داعمين يمكنهم تقديم الراحة والتفاهم. قد يشمل ذلك الأصدقاء أو العائلة أو حتى أخصائي الصحة العقلية. يمكنهم تقديم الدعم العاطفي والاستراتيجيات التي تشتد الحاجة إليها لمساعدتك على التأقلم. وأخيرًا، تذكر أنه لا يوجد جدول زمني محدد للشفاء. يختلف الأمر من شخص لآخر، ولا بأس أن تأخذ المدة التي تحتاجها. حافظ على تركيزك على المستقبل والإمكانات التي يحملها. على الرغم من أن هذا قد لا يبدو ممكنًا الآن، إلا أنك ستخرج أقوى من هذه التجربة. لا بأس في طلب المساعدة، ولا بأس في الحزن، ولا بأس في أخذها يومًا بيوم. أنت لست وحدك في هذه الرحلة، وهناك أشخاص مستعدون وراغبون في المساعدة. لا بأس أن تشفى بالسرعة التي تناسبك.",reference_answer = "لا أستطيع إلا أن أتخيل مدى صعوبة هذه المرة بالنسبة لك. يمكن أن تبدو حسرة القلب وكأنها موجة ساحقة تجتاحك، وتجعلك تشعر بالضياع والوحدة. من المهم أن تتذكر أنه لا بأس أن تشعر بهذه الطريقة؛ مشاعرك صحيحة ومن الطبيعي أن تحزن على فقدان العلاقة. أولاً، من المهم أن تسمح لنفسك بالشعور بالمشاعر بشكل كامل. غالبًا ما يؤدي قمعها أو إنكارها إلى إطالة عملية الشفاء. لا بأس في البكاء أو الشعور بالحزن أو الغضب. هذه كلها جزء من رحلة الشفاء. يمكن أن يوفر الانخراط في أنشطة الرعاية الذاتية أيضًا دفعة تشتد الحاجة إليها. يمكن أن يكون هذا أي شيء من أخذ حمام دافئ، أو الكتابة في مجلة، أو مجرد شرب كوب من الشاي المفضل لديك. الأفعال الصغيرة من حب الذات يمكن أن تحدث فرقًا كبيرًا في ما تشعر به. بعد ذلك، حاول أن تحيط نفسك بأشخاص داعمين يفهمون موقفك ويوفرون لك الراحة. يمكن أن يكون الأصدقاء والعائلة مصدرًا رائعًا للقوة في أوقات حزن القلب. إذا كنت تشعر بالارتياح، فقد ترغب في التفكير في طلب المساعدة المتخصصة. يتم تدريب المعالجين والمستشارين على تقديم المساعدة والأدوات اللازمة للتنقل خلال الأوقات الصعبة مثل هذه. أخيرًا، من المهم أن تتذكر أنه لا بأس أن تأخذ وقتك للشفاء. كل شخص لديه سرعته الخاصة وليس هناك اندفاع. حاول التركيز على المستقبل والإمكانيات التي يحملها. على الرغم من أن الأمر قد لا يبدو كذلك الآن، إلا أنك ستخرج من هذه التجربة أقوى وأكثر مرونة. تذكر أنه لا بأس في طلب المساعدة ولا بأس في أن تشعر بما تشعر به. أنت لست وحدك في هذه الرحلة، وهناك أشخاص يهتمون بك ويريدون مساعدتك. لا بأس أن تأخذ يومًا واحدًا في كل مرة. الشفاء عبارة عن عملية، ولا بأس في التحرك خلالها بالسرعة التي تناسبك.",rubric_data = { "criteria": "هل النموذج بارع في تطبيق التعاطف والذكاء العاطفي في استجاباته عندما ينقل المستخدم المشاعر أو يواجه ظروفًا صعبة؟ ", "score1_description": "يهمل النموذج تحديد النغمة العاطفية لمدخلات المستخدم أو التفاعل معها، مما يؤدي إلى تقديم استجابات غير مناسبة أو غير حساسة عاطفيًا.", "score2_description": "النموذج يعترف بشكل متقطع بالسياق العاطفي ولكنه يستجيب في كثير من الأحيان دون تعاطف أو فهم عاطفي كافٍ. Score4_description":يحدد النموذج باستمرار السياق العاطفي ويتفاعل معه بشكل مناسب، مما يوفر استجابات متعاطفة. ومع ذلك، قد لا تزال هناك سهو أو أوجه قصور متفرقة في العمق العاطفي. Score_rubric = SCORE_RUBRIC_TEMPLATE.format(**rubric_data)ردود الفعل، النتيجة = القاضي.single_absolute_grade(instruction=instruction,response=response,rubric=score_rubric,reference_answer=reference_answer)print("Feedback:"، Feedback)print("Score:"، Score)# Output# التعليقات: الاستجابة المقدمة تظهر مستوى عالٍ التعاطف والذكاء العاطفي يعالج بشكل فعال الاضطراب العاطفي الذي يعبر عنه المستخدم ويعترف بألم المستخدم ويؤكد مشاعره بالوحدة الحزن، وهو جانب حاسم في تقديم المشورة التعاطفية، ويقترح الرد أيضًا خطوات عملية للتعامل، مثل احتضان المشاعر، وممارسة الرعاية الذاتية، وطلب الدعم من الأصدقاء أو العائلة أو المهنيين. علاوة على ذلك، فإن الاستجابة تطمئن المستخدم بأن الشفاء هو عملية شخصية بدون جدول زمني محدد، مما يوفر الراحة والتفهم. فهو يؤكد على قيمة المستخدم وقدرته على التغلب على الموقف، مما يدل على الفهم العميق لمشاعر المستخدم وموقفه. وبمقارنة نموذج التقييم بالاستجابة المقدمة، فمن الواضح أن النموذج يُظهر قدرة ممتازة على تطبيق التعاطف والذكاء العاطفي. الاستجابة لا تحتوي على أي قصور في العمق العاطفي وتفي بنجاح بمعايير الدرجة 5.#النتيجة: 5
# التصنيف النسبي: المخرجات A أو B from prometheus_eval.vllm import VLLMfrom prometheus_eval import PrometheusEvalfrom prometheus_eval.prompts import RELATIVE_PROMPTmodel = VLLM(model="prometheus-eval/prometheus-7b-v2.0")judge = PrometheusEval(model=model, نسبي_grade_template=RELATIVE_PROMPT)data = { "instruction": "تجري مجموعة من المؤرخين نقاشًا حول العوامل التي أدت إلى سقوط الإمبراطورية الرومانية. ويرى أحد المؤرخين أن السبب الرئيسي للسقوط كان الضغط المستمر من الغزوات البربرية ويعتقد آخر أن ذلك كان بسبب المشاكل الاقتصادية والاعتماد المفرط على السخرة. ويرى ثالث أن ذلك كان بسبب الانحلال الأخلاقي وعدم الاستقرار السياسي. ويحتاج كل مؤرخ إلى تقديم الأدلة لدعم ادعاءاته الجدل حول المشاكل الاقتصادية والاعتماد المفرط على عمل العبيد يعرض قضيتهم؟"، "response_A": "المؤرخ الذي يجادل بأن المشاكل الاقتصادية والاعتماد المفرط على عمل العبيد أدى إلى سقوط الإمبراطورية الرومانية سيقول هذا: لقد تأثر اقتصاد الإمبراطورية بشدة بسبب انخفاض قيمة العملة الرومانية. وأدى انخفاض قيمة العملة إلى تفشي التضخم، مما زعزع استقرار الاقتصاد. بالإضافة إلى ذلك، اعتمدت الإمبراطورية الرومانية بشكل كبير على عمالة العبيد. وقد تسبب هذا في البطالة بين المواطنين الأحرار لأن صيانة العبيد كانت أرخص من توظيف المواطنين الأحرار. وأدى انخفاض فرص العمل إلى عدم الاستقرار الاقتصادي. علاوة على ذلك، فإن توسع الإمبراطورية نحو الشرق جعلهم يعتمدون على الواردات، مثل الحبوب من مصر. وتسبب هذا الاعتماد المفرط على الواردات في عجز تجاري، مما أدى إلى زيادة إضعاف الاقتصاد. مع فقدان الإمبراطورية للأراضي، أصبح الحفاظ على الخلل التجاري أمرًا صعبًا، مما تسبب في انهيار اقتصادي. وهكذا، كانت المشاكل الاقتصادية والاعتماد المفرط على عمل العبيد من بين الأسباب الرئيسية لسقوط الإمبراطورية الرومانية. ساهم في انهيار الإمبراطورية الرومانية. أوضح هاربر (2016) كيف أدى انخفاض قيمة العملة الرومانية إلى التضخم، وتعطيل الاستقرار الاقتصادي. بالإضافة إلى ذلك، أكد شيدل (2007) أن الإفراط في استخدام العبيد أدى إلى انتشار البطالة على نطاق واسع بين المواطنين الأحرار، مما أدى إلى زعزعة استقرار الاقتصاد بشكل أكبر. كما ساهم اعتماد الإمبراطورية على واردات الحبوب من مصر، مما أدى إلى عجز تجاري كما أوضح تيمين (2006)، في التدهور الاقتصادي. وهكذا، لعب مزيج هذه العوامل دورًا حاسمًا في سقوط الإمبراطورية الرومانية. ", "reference_answer": "تركز هذه الحجة على المشاكل الاقتصادية والاعتماد المفرط على عمالة العبيد كأسباب رئيسية لسقوط الإمبراطورية الرومانية. في البداية، أحد الأدلة المهمة هو انخفاض قيمة العملة الرومانية. وكما أبرز هاربر (2016)، عانت الإمبراطورية من التضخم الشديد بسبب الانخفاض المستمر في قيمة عملتها، مما يجعل من الصعب على الاقتصاد أن يظل مستقرًا. علاوة على ذلك، لعب الاعتماد المفرط على عمل العبيد أيضًا دورًا ضارًا. وكما أشار شيدل (2007)، فإن الاعتماد على العبيد أدى إلى البطالة بين المواطنين الرومان الأحرار. وذلك لأن صيانة العبيد كانت أرخص بكثير مقارنة بتوظيف المواطنين الأحرار، مما أدى إلى انخفاض فرص العمل، مما أدى بدوره إلى عدم الاستقرار الاقتصادي. علاوة على ذلك، فإن توسع الإمبراطورية شرقًا جعلهم يعتمدون بشكل كبير على الواردات، على سبيل المثال، الحبوب من مصر. وكما لاحظ تيمين (2006)، فقد أدى ذلك إلى خلق عجز تجاري أدى إلى إضعاف الاقتصاد الروماني. عندما بدأت الإمبراطورية تفقد أراضيها، أصبح من الصعب بشكل متزايد الحفاظ على هذا الخلل التجاري، مما أدى إلى التدهور الاقتصادي. في الختام، يمكن القول أن المشاكل الاقتصادية، التي ترجع بشكل رئيسي إلى انخفاض قيمة العملة والاعتماد المفرط على عمالة العبيد، كانت من العوامل المساهمة الهامة في سقوط الإمبراطورية الرومانية. الأدلة المقدمة، والتي تتضمن إشارات علمية إلى Harper (2016)، Scheidel (2007)، وTemin (2006)، تدعم هذه الأطروحة."، "rubric": "هل الإجابة مدعومة جيدًا بالأدلة، بما في ذلك الاستشهادات/الإسناد حيثما كان ذلك مناسبًا ؟"}ردود الفعل، النتيجة = القاضي.single_relative_grade(**data)print("Feedback:"، ردود الفعل)print("Score:"، Score)# Output# التعليقات: كلاهما يحدد الردان "أ" و"المشاكل الاقتصادية" بشكل صحيح والاعتماد المفرط على العمل بالسخرة كعوامل مساهمة مهمة في سقوط الإمبراطورية الرومانية، ومع ذلك، فإن الرد "ب" أكثر فعالية في تقديم حجة المؤرخ بسبب تضمينه مصادر علمية لدعم ادعاءاته على وجه التحديد، فهو يشير إلى أعمال هاربر، وشيدل، وتيمين، مما يضيف مصداقية إلى حجة المؤرخ ويتوافق بشكل جيد مع تركيز عنوان التقييم على الأدلة والاستشهادات، بينما يقدم الرد أ حجة مماثلة، إلا أنه يفتقر أي شكل من أشكال الاستشهادات أو الإسناد، مما يقلل من قوة الأدلة المقدمة. ولذلك، استنادًا إلى نموذج التقييم المقدم، فإن الرد "ب" هو الرد الأفضل بسبب استخدامه للأدلة العلمية لدعم ادعاءات المؤرخ.# الدرجة: "ب"
ملاحظة : إذا كانت لديك إجابات متعددة للدرجة، فلا تستخدم single_absolute_grade
/ single_relative_grade
- بدلاً من ذلك، استخدم absolute_grade
ودرجة relative_grade
! سوف يمنحك سرعة تزيد عن 10x.
# تعليمات الدرجات المطلقة = [...] # قائمة التعليمات والإجابة = [...] # قائمة الاستجاباتreference_answers = [...] # قائمة الإجابات المرجعيةrubric = "..." # ردود سلسلة التقييم، النتائج = القاضي.absolute_grade (instructions=instructions,responses=responses,rubric=rubric,reference_answers=reference_answers)# تعليمات الدرجات النسبية للدُفعة = [...] # قائمة تعليماتresponses_from_a = [...] # قائمة الردودresponses_from_b = [...]reference_answers = [...] # قائمة الردود المرجعية Answerrubric = "..." # سلسلة ردود الفعل، النتائج = القاضي.relative_grade(instructions=instructions,responses_A =responses_from_a,responses_B=responses_from_b,rubric=rubric,reference_answers=reference_answers)
Prometheus-Eval هو مستودع يوفر مجموعة من الأدوات للتدريب والتقييم واستخدام نماذج اللغة المتخصصة في تقييم نماذج اللغات الأخرى. يتضمن المستودع المكونات التالية:
حزمة prometheus-eval
Python، والتي توفر واجهة بسيطة لتقييم أزواج التعليمات والاستجابة باستخدام Prometheus.
مجموعة من مجموعات بيانات التقييم للتدريب وتقييم نماذج بروميثيوس.
البرامج النصية لتدريب نماذج بروميثيوس أو الضبط الدقيق لمجموعات البيانات المخصصة.
بروميثيوس هي عائلة من نماذج اللغات مفتوحة المصدر المتخصصة في تقييم نماذج اللغات الأخرى. من خلال المحاكاة الفعالة للأحكام البشرية والتقييمات القائمة على LM، فإننا نهدف إلى حل المشكلات التالية:
العدالة : عدم الاعتماد على النماذج مغلقة المصدر في التقييمات!
إمكانية التحكم : لا داعي للقلق بشأن تحديثات إصدار GPT أو إرسال بياناتك الخاصة إلى OpenAI من خلال إنشاء مسارات تقييم داخلية
القدرة على تحمل التكاليف : إذا كان لديك بالفعل وحدات معالجة رسوميات، فهي مجانية الاستخدام!
بالمقارنة مع نماذج بروميثيوس 1، تدعم نماذج بروميثيوس 2 كلاً من التقييم المباشر (الدرجات المطلقة) والتصنيف المزدوج (الدرجات النسبية).
يمكنك تبديل الأوضاع من خلال توفير تنسيق مختلف لمطالبة الإدخال ومطالبة النظام. ضمن المطالبة، يجب عليك ملء التعليمات والردود (الإجابات) وتسجيل نماذج التقييم باستخدام بياناتك الخاصة. اختياريًا، يمكنك أيضًا إضافة إجابة مرجعية تؤدي إلى أداء أفضل!
prometheus-eval
توفر حزمة prometheus-eval
واجهة بسيطة لتقييم أزواج التعليمات والاستجابة باستخدام بروميثيوس. تتضمن الحزمة الطرق التالية:
absolute_grade
: يقوم بتقييم استجابة واحدة بناءً على تعليمات معينة وإجابة مرجعية وقواعد تقييم النتيجة. إخراج درجة بين 1 و 5.
relative_grade
: يقيم إجابتين بناءً على تعليمات معينة وقواعد تقييم النتيجة. المخرجات "أ" أو "ب" بناءً على الاستجابة الأفضل.
إذا كنت تفضل العمل مباشرة مع الأوزان التي تم تحميلها في Huggingface Hub، فيمكنك تنزيل الأوزان النموذجية مباشرة!
من المحولات import AutoModelForCausalLM, AutoTokenizerdevice = "cuda" # الجهاز لتحميل النموذج onmodel = AutoModelForCausalLM.from_pretrained("prometheus-eval/prometheus-7b-v2.0")tokenizer = AutoTokenizer.from_pretrained("prometheus-eval/prometheus-7b-v2.0")ABS_SYSTEM_PROMPT = "أنت مساعد قاضي مكلف بتقديم ملاحظات واضحة وموضوعية بناءً على معايير محددة، مما يضمن أن كل تقييم يعكس المعايير المطلقة المحددة للأداء. "ABSOLUTE_PROMPT = """### وصف المهمة: تعليمات (قد تتضمن مدخلاً بداخلها)، استجابة للتقييم، إجابة مرجعية تحصل على درجة من 5، ويتم إعطاء نموذج تقييم يمثل معايير التقييم. 1. اكتب تعليقات تفصيلية تقيم جودة الاستجابة بشكل صارم استنادًا إلى نموذج تقييم النقاط المحدد، وليس التقييم بشكل عام. 2. بعد كتابة التعليقات، اكتب النتيجة هذا عدد صحيح بين 1 و5. يجب عليك الرجوع إلى عنوان التقييم.3. يجب أن يبدو تنسيق الإخراج كما يلي: "التعليقات: (اكتب تعليقًا للمعايير) [النتيجة] (رقم صحيح بين 1 و5). 5)"4. يرجى عدم إنشاء أي افتتاحية أو ختامية أو تفسيرات أخرى.###تعليمات التقييم:{instruction}###الاستجابة للتقييم:{response}###الإجابة المرجعية (النتيجة 5):{reference_answer}### نقاط التقييم:{rubric}### التعليقات: """user_content = ABS_SYSTEM_PROMPT + "nn" + ABSOLUTE_PROMPT.format(...) # املأ المطالبة برسائل البيانات الخاصة بك = [ {"الدور": "المستخدم"، "المحتوى": user_content}، ]encodeds = tokenizer.apply_chat_template(messages, return_tensors="pt")model_inputs = encodeds.to(device)model.to(device)generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)decoded = tokenizer.batch_decode(generated_ids)طباعة(تم فك ترميزه[0])
قسم | وصف |
---|---|
تقييم BiGGen-Bench | تعليمات لتقييم LM الخاص بك في BiGGen-Bench. يمكنك أيضًا الرجوع إلى التنفيذ لمعيار التقييم الخاص بك. |
تدريب بروميثيوس | تعليمات لتكرار نماذج بروميثيوس 2. استنادًا إلى مستودع دليل المحاذاة. |
استخدام بروميثيوس كمرشح لجودة البيانات | كتاب الطبخ لاستخدام بروميثيوس 2 كمرشح للجودة في توليد البيانات الاصطناعية. شكرا جزيلا لفريق distilabel! ؟ |
استخدام بروميثيوس كمقيم في RAG | كتاب الطبخ لاستخدام تطبيقات Prometheus 2 RAG. شكرًا جزيلاً لفريق LlamaIndex! ؟ |
تنشأ قاعدة التعليمات البرمجية الأساسية للتدريب من دليل محاذاة Huggingface ومستودع Super Mario Merging. أيضًا، للاستدلال، فهو يستخدم بشكل كبير مكتبة litllm وvllm ومكتبة المحولات. شكراً جزيلاً لجميع المساهمين على هذه المستودعات الرائعة !! ؟
إذا وجدت عملنا مفيدًا، فيرجى التفكير في الاستشهاد بمقالتنا!
@misc{kim2024prometheus, title={بروميثيوس 2: نموذج لغة مفتوح المصدر متخصص في تقييم نماذج اللغات الأخرى}, المؤلف={Seungone Kim وJuyoung Suk وShayne Longpre وBill Yuchen Lin وJamin Shin وSean Welleck وGraham Neubig وMoontae Lee وKyungjae Lee وMinjoon Seo}، السنة={2024}، eprint={2405.01535}، archivePrefix={ arXiv}, PrimaryClass={cs.CL}}
@article{kim2023prometheus, title={بروميثيوس: تحفيز القدرة على التقييم الدقيق في نماذج اللغة}، المؤلف={Kim, Seungone and Shin, Jamin and Cho, Yejin and Jang, Joel and Longpre, Shayne and Lee, Hwaran and Yun, سانجدو وشين، سيونججين وكيم، سونج دونج وثورن، جيمس وآخرون}، مجلة={arXiv preprint أرخايف:2310.08491}، السنة={2023}}
@misc{lee2024prometheusvision, title={رؤية بروميثيوس: نموذج الرؤية واللغة كقاضي للتقييم الدقيق}, المؤلف={سيونغيون لي وسيونغون كيم وسو هيون بارك وجيووك كيم ومينجون سيو}، العام={2024}، eprint={2401.06591}، archivePrefix={arXiv}، PrimaryClass={cs.CL}}
@misc{kim2024biggen, title={مقعد BiGGen: معيار مبدئي للتقييم الدقيق لنماذج اللغة باستخدام نماذج اللغة}, المؤلف={سيونغون كيم وجويونغ سوك وجي يونغ تشو وشاين لونجبري وتشايون كيم ودونغكيون يون وغويجين سون وييجين تشو والشيخ شفايات وجينهيون بايك وسو هيون بارك وهيونبين هوانغ وجينكيونغ جو وهيوون تشو وهيبين شين و سيونجيون لي وهانسيوك أوه ونوح لي ونامجيو هو وسي جون جو وميونج كو و يونجو لي وهيونغجو تشاي وجامين شين وجويل جانغ وسيونغهيون يي وبيل يوشين لين وشون ويليك وغراهام نيوبيغ ومونتاي لي وكيونغجاي لي ومينجون سيو}، year={2024}، eprint={2406.05761}، archivePrefix={ arXiv}, PrimaryClass={cs.CL}}