أدوات سطر الأوامر للاستعلام عن نماذج اللغة الكبيرة
تم بناء هذا الريبو حول مما يجعل من السهل تشغيل مجموعة من الاستعلامات عبر CLI على نموذج لغة كبير (LM) واستعادة مجموعة من الإكمال المنسقة بشكل جيد في وثيقة واحدة . كما أن لديها واجهة برمجة تطبيقات Python الأساسية.
سير العمل النموذجي:
CSV
/ .xlsx
/ etc. ملف مع استفسارات النموذج كصفوفlm-api
مع -i /path/to/my/queries.csv
، واستخدم -kc
لتحديد اسم العمود مع الاستعلاماتمن المتوقع أن تكون الاستعلامات بتنسيق متوافق مع Pandas ، وتتم كتابة النتائج إلى ملف نصي مع تنسيق Markdown لسهولة المشاركة/المشاركة.
يتم توفير مثال على ملف الإخراج في data/lm-api-output
.
تثبيت مباشرة عبر pip
+ git
:
# create a virtual environment (optional): pyenv virtualenv 3.8.5 lm-api
pip install git+https://github.com/pszemraj/lm-api.git
بدلاً من ذلك ، بعد الاستنساخ ، cd
في دليل lm-api
وتشغيله:
git clone https://github.com/pszemraj/lm-api.git
cd lm-api
# create a virtual environment (optional): pyenv virtualenv 3.8.5 lm-api
pip install -e .
يمكن إجراء اختبار سريع باستخدام البرنامج النصي src/lm_api/test_goose_api.py
.
ستحتاج إلى مفتاح API لكل مزود تريد الاستعلام عنه. حاليا ، يتم دعم مقدمي الخدمات التالية:
يمكن تعيين مفاتيح API في البيئة متغيرات GOOSE
و OPENAI
:
export OPENAI=api_key11111114234234etc
# or
export GOOSE=api_key11111114234234etc
بدلاً من ذلك ، مرر كوسيطة عند استدعاء lm-api
مع مفتاح -k
.
توجد البرامج النصية لسطر الأوامر في src/lm_api/
وتصبح مثبتة كأوامر CLI التي يمكن تشغيلها من أي مكان. حاليًا ، تقتصر الأوامر على lm-api
( المزيد في المستقبل ).
lm-api
مع علامة -k
لتشغيل أي استفسارات
lm-api -i data/test_queries.xlsx -o ./my-test-folder
سيؤدي ذلك إلى تشغيل الاستعلامات في data/test_queries.xlsx
واكتب النتائج إلى ملف .md
في my-test-folder/
في دليل العمل الحالي.
هناك العديد من الخيارات للنص ، والتي يمكن عرضها باستخدام العلم -h
(على سبيل المثال ، lm-api -h
).
usage: lm-api [-h] [-i INPUT_FILE] [-o OUTPUT_DIR] [-provider PROVIDER_ID] [-k KEY] [-p PREFIX] [-s SUFFIX] [-simple]
[-kc KEY_COLUMN] [-m MODEL_ID] [-n N_TOKENS] [-t TEMPERATURE] [-f2 FREQUENCY_PENALTY]
[-p2 PRESENCE_PENALTY] [-v]
يجب أن يكون ملف الإدخال بتنسيق متوافق مع Pandas (على سبيل المثال ، .csv
، .xlsx
، إلخ). اسم العمود الافتراضي للاستعلامات هو query
، والذي يمكن تغييره باستخدام علامة -kc
.
يتم توفير ملف إدخال مثال في data/test_queries.xlsx
.
ملاحظة: هذا عمل مستمر ، وما يلي هو قائمة تشغيل من الأشياء التي يجب القيام بها. هذا مايو ومن المحتمل أن يتم تحديثه.
--prefix
و- --suffix
إلى مفتاح "محرك موجه" يمكنه زيادة/تحديث المطالبة مع مجموعة متنوعة من الخيارات (على سبيل المثال ، --prompt-engine=prefix
أو- --prompt-engine=prefix+suffix
) lm_api
ولديها وظائف كاملة WRT CLI) نقوم بتجميع/مناقشة قائمة بالميزات المحتملة في قسم المناقشات ، لذا لا تتردد في إضافة أفكارك هناك!