gpt 2 simple - gpt 2 simple

gpt 2 simple

شفرة المصدر الأخرى

v0.8.1: Tensor

تنزيل

GPT-2 بوسع

gen_demo

حزمة Python بسيطة تلتف النصوص النموذجية النموذجية والجيل النصية لنموذج توليد النص GPT-2 من Openai (وتحديداً إصدارات "صغيرة" 124m و "متوسطة" 355 مترًا). بالإضافة إلى ذلك ، تتيح هذه الحزمة توليد نص أسهل ، وتوليد ملف لسهولة التنسيق ، مما يسمح ببادئه لإجبار النص على البدء بعبارة معينة.

تتضمن هذه الحزمة ويجعل التغييرات المنخفضة المستوى المنخفضة في:

إدارة النماذج من GPT-2 الرسمية من Openai (ترخيص MIT)
النموذج من شوكة نيل شيبرد من GPT-2 (ترخيص معهد ماساتشوستس للتكنولوجيا)
إدارة إخراج توليد النص من TextGenrnn (ترخيص معهد ماساتشوستس للتكنولوجيا / تم إنشاؤه أيضًا من قبلي)

من أجل التغذية المحددة ، يوصى بشدة باستخدام وحدة معالجة الرسومات ، على الرغم من أنه يمكنك إنشاء وحدة المعالجة المركزية (وإن كانت ببطء أكبر). إذا كنت تتدرب في السحابة ، فإن استخدام دفتر الملاحظات colaboratory أو محرك Google Compute VM w/ يوصى بشدة صورة التعلم العميق TensorFlow. (حيث يتم استضافة نموذج GPT-2 على GCP)

يمكنك استخدام GPT-2 Simple لإعادة تدريب نموذج باستخدام وحدة معالجة الرسومات مجانًا في دفتر الملاحظات المتوحش ، والذي يعرض أيضًا ميزات إضافية للحزمة.

ملاحظة: تم التنمية على GPT-2 Simple في الغالب بواسطة AitextGen ، والتي لديها إمكانيات مماثلة لتوليد النص من الذكاء الاصطناعي مع وقت تدريب أكثر كفاءة واستخدام الموارد. إذا كنت لا تحتاج إلى استخدام TensorFlow ، فإنني أوصي باستخدام AitextGen بدلاً من ذلك. يمكن تحميل نقاط التفتيش التي تم تدريبها باستخدام GPT-2 Simple باستخدام AitextGen أيضًا.

ثَبَّتَ

يمكن تثبيت GPT-2 البسيطة عبر PYPI:

pip3 install gpt-2-simple

ستحتاج أيضًا إلى تثبيت إصدار TensorFlow 2.x المقابل (Min 2.5.1) لنظامك (مثل tensorflow أو tensorflow-gpu ).

الاستخدام

مثال لتنزيل النموذج على النظام المحلي ، وقم بتصنيعه على مجموعة بيانات. وتوليد بعض النص.

تحذير: نموذج 124 مترًا ، وبالتالي أي نموذج محيط ، هو 500 ميغابايت! (طراز 355 متر مسبق هو 1.5 جيجابايت)

 import gpt_2_simple as gpt2
import os
import requests

model_name = "124M"
if not os . path . isdir ( os . path . join ( "models" , model_name )):
	print ( f"Downloading { model_name } model..." )
	gpt2 . download_gpt2 ( model_name = model_name )   # model is saved into current directory under /models/124M/


file_name = "shakespeare.txt"
if not os . path . isfile ( file_name ):
	url = "https://raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt"
	data = requests . get ( url )

	with open ( file_name , 'w' ) as f :
		f . write ( data . text )


sess = gpt2 . start_tf_sess ()
gpt2 . finetune ( sess ,
              file_name ,
              model_name = model_name ,
              steps = 1000 )   # steps is max number of training steps

gpt2 . generate ( sess )

نقاط التفتيش النموذجية التي تم إنشاؤها هي افتراضيًا في /checkpoint/run1 . إذا كنت ترغب في تحميل نموذج من هذا المجلد وإنشاء نص منه:

 import gpt_2_simple as gpt2

sess = gpt2 . start_tf_sess ()
gpt2 . load_gpt2 ( sess )

gpt2 . generate ( sess )

كما هو الحال مع TextGenrnn ، يمكنك إنشاء النص وحفظه للاستخدام لاحقًا (مثل API أو BOT) باستخدام معلمة return_as_list .

 single_text = gpt2 . generate ( sess , return_as_list = True )[ 0 ]
print ( single_text )

يمكنك تمرير معلمة run_name إلى finetune و load_gpt2 إذا كنت ترغب في تخزين/تحميل نماذج متعددة في مجلد checkpoint .

هناك أيضًا واجهة سطر الأوامر لكل من Finetuning و Generation مع افتراضات قوية لمجرد التشغيل على سحابة VM W/ GPU. من أجل finetuning (الذي سيقوم أيضًا بتنزيل النموذج إن لم يكن موجودًا):

gpt_2_simple finetune shakespeare.txt

وبالنسبة للجيل ، الذي يولد النصوص إلى الملفات في مجلد gen :

gpt_2_simple generate

تتوفر معظم المعلمات نفسها المتوفرة في الوظائف كوسائط CLI ، على سبيل المثال:

gpt_2_simple generate --temperature 1.0 --nsamples 20 --batch_size 20 --length 50 --prefix " <|startoftext|> " --truncate " <|endoftext|> " --include_prefix False --nfiles 5

انظر أدناه لمعرفة ما تفعله بعض حجج CLI.

NB: أعد تشغيل جلسة Python أولاً إذا كنت ترغب في FineTune على مجموعة بيانات أخرى أو تحميل نموذج آخر.

الاختلافات بين مرافق GPT-2 Simple وغيرها من الأدوات المساعدة

تختلف الطريقة التي يستخدمها GPT-2 لإنشاء نص قليلاً عن تلك مثل الحزم الأخرى مثل TextGenrnn (على وجه التحديد ، توليد تسلسل النص الكامل بحت في وحدة معالجة الرسومات وفك تشفيره لاحقًا) ، والتي لا يمكن إصلاحها بسهولة دون اختراق رمز النموذج الأساسي. نتيجة ل:

بشكل عام ، يكون GPT-2 أفضل في الحفاظ على السياق على طول جيله بالكامل ، مما يجعله جيدًا لتوليد نص محادثة. النص صحيح بشكل عام بشكل عام ، مع الرسملة المناسبة وعدد قليل من الأخطاء.
تم تدريب طراز GPT-2 الأصلي على مجموعة كبيرة ومتنوعة من المصادر ، مما يسمح للنموذج بدمج التعبيرات التي لم يتم رؤيتها في نص الإدخال.
يمكن لـ GPT-2 أن يولد فقط 1024 رمزًا لكل طلب (حوالي 3-4 فقرات من النص الإنجليزي).
لا يمكن أن يتوقف GPT-2 في وقت مبكر عند الوصول إلى رمز نهاية محدد. (الحل البديل: تمرير المعلمة truncate generate وظيفة لجمع النص فقط حتى رمز نهائي محدد. قد ترغب في تقليل length بشكل مناسب.)
تعمل درجات الحرارة الأعلى بشكل أفضل (على سبيل المثال 0.7 - 1.0) لإنشاء نص أكثر إثارة للاهتمام ، بينما تعمل الأطر الأخرى بشكل أفضل بين 0.2 - 0.5.
عند Finetuning GPT-2 ، ليس له أي شعور ببداية أو نهاية المستند ضمن نص أكبر. ستحتاج إلى استخدام تسلسل حرف مخصص للإشارة إلى بداية ونهاية المستند. ثم أثناء توليدها ، يمكنك تحديد prefix تستهدف تسلسل الرمز المميز للبدء ، truncate تسلسل الرمز المميز النهائي. يمكنك أيضًا تعيين include_prefix=False لتجاهل رمز البادئة أثناء توليده (على سبيل المثال إذا كان شيئًا غير مرغوب فيه مثل <|startoftext|> ).
إذا قمت بتمرير ملف .csv أحادي العمود إلى finetune() ، فسيقوم تلقائيًا بتحليل CSV إلى تنسيق مثالي للتدريب مع GPT-2 (بما في ذلك التحديث <|startoftext|> واللاحقة <|endoftext|> إلى كل مستند نصي ، وبالتالي فإن الحيل truncate أعلاه مفيدة عند توليد الإخراج). هذا ضروري للتعامل مع كل من الاقتباسات والخطوط الجديدة في كل مستند نصي بشكل صحيح.
يسمح لك GPT-2 بإنشاء نصوص بالتوازي من خلال تحديد batch_size قابلة للقسمة إلى nsamples ، مما يؤدي إلى توليد أسرع بكثير. يعمل بشكل جيد للغاية مع GPU (يمكن تعيين batch_size ما يصل إلى 20 على كولابورتوليز K80)!
نظرًا لعمارة GPT-2 ، فإنه يتردد بشكل جيد مع وحدات معالجة الرسومات الأكثر قوة. بالنسبة لطراز 124 مترًا ، إذا كنت ترغب في التدريب لفترات أطول من الوقت ، فإن GPU P100 من GCP يبلغ حوالي 3x أسرع من K80/T4 مقابل 3x فقط السعر ، مما يجعله قابلاً للأسعار (يبلغ سعر V100 حوالي 1.5x أسرع من P100 ولكن حوالي 2x السعر). يستخدم P100 100 ٪ من GPU حتى مع batch_size=1 ، وحوالي 88 ٪ من وحدة معالجة الرسومات V100.
إذا كان لديك طراز GPT-2 المدربين جزئيًا وترغب في متابعة التمسك به ، فيمكنك تعيين overwrite=True to Finetune ، والتي ستستمر في التدريب وإزالة التكرار السابق للنموذج دون إنشاء نسخة مكررة. يمكن أن يكون هذا مفيدًا بشكل خاص لتعلم النقل (على سبيل المثال Finetune GPT-2 على مجموعة بيانات واحدة ، ثم Finetune على مجموعة بيانات أخرى للحصول على "دمج" من كلتا البيانات).
إذا كانت مجموعة بيانات نص الإدخال الخاصة بك ضخمة (> 100 ميجابايت) ، فقد ترغب في preencode وضغط مجموعة البيانات باستخدام gpt2.encode_dataset(file_path) . الإخراج هو ملف .npz مضغوط والذي سيتم تحميله بشكل أسرع بكثير في وحدة معالجة الرسومات للاتفاقية.
قد يدعم النموذج "الكبير" الذي يبلغ طوله 774 مترًا لأنه سيؤدي إلى خروج وحدات معالجة الرسومات الحديثة (قد تكون محظوظًا إذا كنت تستخدم وحدة معالجة الرسومات P100 على colaboratory). ومع ذلك ، لا يزال بإمكانك إنشاء النموذج الافتراضي pretrained باستخدام gpt2.load_gpt2(sess, model_name='774M') و gpt2.generate(sess, model_name='774M') .
قد لا يعمل الطراز الحقيقي 1558m "Extra كبير" ، مع وحدة معالجة الرسومات المعتادة مع دفتر الملاحظات colaboratory. هناك حاجة إلى مزيد من الاختبارات لتحديد التكوينات الأمثل لذلك.

التطبيقات التفاعلية باستخدام GPT-2 Simple

GPT2-Small-تطبيق باستخدام نموذج PretRained GPT-2 124M الافتراضي
GPT2-Reddit-تطبيق لإنشاء عناوين Reddit استنادًا إلى Subreddit و/أو الكلمات الرئيسية المحددة
GPT2-MTG-تطبيق لإنشاء السحر: بطاقات التجمع