تنزيل benchmarks pipeline - تنزيل رمز مصدر benchmarks pipeline

benchmarks pipeline

شفرة المصدر الأخرى

1.0.0

تنزيل

معايير S&P AI خط أنابيب التجريبي

يوضح هذا الريبو كيفية تشغيل النماذج عبر معايير S&P AI. يمكن رؤية جميع النماذج التي تم تكوينها في config.py . من السهل إما إضافة النماذج الخاصة بك إلى التكوين ، أو تشغيل نماذج LuggingFace باستخدام خيارات سطر الأوامر.

يثبت

يرجى تنزيل الأسئلة من صفحة تقديم موقع S & P AI لمعاييرنا وحفظها مباشرة داخل هذا المجلد ، benchmarks-pipeline/benchmark_questions.json .

 # We recommend using python 3.10.6 with pyenv
pyenv install 3.10.6
pyenv local 3.10.6
virtualenv -p python3.10.6 .benchmarks
source .benchmarks/bin/activate

# Install the requirements in your local environment
pip install -r requirements.txt

متطلبات الأجهزة: معظم النماذج التي يمكن تشغيلها بسرعة على وحدة المعالجة المركزية لن تعمل بشكل جيد على هذا المعيار ؛ نوصي باستخدام نظام مع وحدات معالجة الرسومات. لتعيين الجهاز ، استخدم المعلمة --device_map .

قرارات التصميم

نحن نقدم المطالبات التي نستخدمها للتقييم ؛ تستخدم جميع النماذج حاليًا نفس المطالبات لنوع سؤال معين. نسمح للنماذج بمحاولات متعددة لإنشاء إجابة بالتنسيق المتوقع. بدون خطوة إعادة المحاولة هذه ، نجد أن بعض النماذج تتضرر بشكل غير مبرر من خلال تحليل إجابتنا: فهي تنتج الإجابة الصحيحة بالتنسيق الخاطئ. وبالتالي ، فإننا نسمح للنماذج حتى 10 محاولات لإنشاء إجابة بالتنسيق المتوقع. يقوم رمز المصدر في هذا الريبو بذلك افتراضيًا ، ولكن يمكن التحكم فيه بواسطة المعلمة -t, --answer_parsing_tries_alloted .

الاستخدام

نحن نقدم عددًا من التكوينات لكل من النماذج المفتوحة المصدر والبروسيات في config.py . إذا كنت ترغب في استخدام أحد هذه النماذج ، فاستخدم الرموز المدرجة في config.py . يمكنك أيضًا تكوين نموذج عناق من قبل ARGS سطر الأوامر.

python main.py -m Mistral-7B-v0.1-cot
# or:
python main.py -n mistralai/Mistral-7B-v0.1 --prompt_style cot --max_new_tokens 12 --answer_parsing_tries_alloted 1

يتضمن CSV الإخراج أعمدة لمعرف السؤال والإجابة بدون رأس. راجع results/Mistral-7B-v0.1-cot.csv للحصول على مثال على الإخراج.

 # A snapshot from the example output.
35c06bfe-60a7-47b4-ab82-39e138abd629,13428.0
33c7bd71-e5a3-40dd-8eb0-5000c9353977,-4.5
7b60e737-4f0a-467b-9f73-fa5714d8cdbb,41846.0
0a3f6ada-b8d3-48cc-adb4-270af0e08289,2.0
03999e5f-05ee-4b71-95ad-c5a61aae4858,2.0

تكوين نموذج جديد

إذا كنت ترغب في إضافة نموذج جديد إضافة إلى متغير _CONFIG في config.py. على سبيل المثال ، يضيف المقتطف التالي نموذج Zephyr مع max_new_tokens . يجب عليك أيضًا تحديد المبدع الموجه الذي تريد استخدامه. هذا يتحكم في المطالبات التي تم إنشاؤها لكل سؤال. نحن نقدم اثنين ، code_prompt_creater و cot_prompt_creator .

 _CONFIG = {
    ...,
    "example-zepyhr-code" : lambda : (
        HFChatModel (
            "HuggingFaceH4/zephyr-7b-beta" ,
            device_map = "auto" ,
            generation_kwargs = { "max_new_tokens" : 2048 },
        ),
        code_prompt_creator ,
    ),
}

لهذا النموذج المحدد ، يمكن أن تستخدم سطر الأوامر مباشرة:

python main.py -n HuggingFaceH4/zephyr-7b-beta --prompt_style code --max_new_tokens 2048 --device_map auto

رفع

قم بتحميل نتائجك إلى معايير S&P AI! انظر الصفحة هنا على https://benchmarks.kensho.com.

اتصال

يهدف هذا الريبو إلى أن يكون بمثابة قالب لمزيد من التجارب!

يرجى الوصول إلى [email protected] مع أي أسئلة.

حقوق الطبع والنشر 2024-Present Kensho Technologies ، LLC.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-02-22
الحجم 44.94KB
من Github

تطبيقات ذات صلة

ComfyUI_Pipeline_Tool

2024-11-09
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
trigger circleci pipeline action

2024-11-01
خط أنابيب الإمبراطور يو

2022-08-18

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
chat.petals.dev

شفرة المصدر الأخرى

1.0.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل