أداة تشفير/فك ترميز Swift BPE لنماذج OpenAI GPT. واجهة برمجية لترميز النص لـ OpenAI GPT API.
تقوم عائلة نماذج GPT بمعالجة النص باستخدام الرموز المميزة، وهي عبارة عن تسلسلات شائعة للأحرف الموجودة في النص. تفهم النماذج العلاقات الإحصائية بين هذه الرموز المميزة، وتتفوق في إنتاج الرمز المميز التالي في سلسلة من الرموز المميزة.
يمكنك استخدام الأداة أدناه لفهم كيفية ترميز جزء من النص بواسطة واجهة برمجة التطبيقات، وإجمالي عدد الرموز المميزة في هذا الجزء من النص.
تعتمد هذه المكتبة على برنامج تشفير/تشفيرNodeJS gpt-3 وOpenAI Official Python GPT Encoder/Decoder
لقد قمت أيضًا بإنشاء GPTTokenizerUI، وهو lib SPM يمكنك دمجه في تطبيقك لتوفير واجهة المستخدم الرسومية لإدخال النص وإظهار نتائج الترميز التي تستخدمها GPT API.
platform :ios , '15.0'
use_frameworks!
target 'MyApp' do
pod 'GPTEncoder' , '~> 1.0.3'
end
let encoder = SwiftGPTEncoder ( )
let str = " The GPT family of models process text using tokens, which are common sequences of characters found in text. "
let encoded = encoder . encode ( text : str )
print ( " String: ( str ) " )
print ( " Encoded this string looks like: ( encoded ) " )
print ( " Total number of token(s): ( encoded . count ) and character(s): ( str . count ) " )
print ( " We can look at each token and what it represents " )
encoded . forEach { print ( " Token: ( encoder . decode ( tokens : [ $0 ] ) ) " ) }
print ( encoded )
let decoded = encoder . decode ( tokens : encoded )
print ( " We can decode it back into: n ( decoded ) " )
لتشفير String
إلى مجموعة من رموز Int
، يمكنك ببساطة استدعاء encode
تمرير السلسلة.
let encoded = encoder . encode ( text : " The GPT family of models process text using tokens, which are common sequences of characters found in text. " )
// Output: [464, 402, 11571, 1641, 286, 4981, 1429, 2420, 1262, 16326, 11, 543, 389, 2219, 16311, 286, 3435, 1043, 287, 2420, 13]
لفك تشفير مجموعة من الرموز المميزة Int
مرة أخرى إلى String
يمكنك استدعاء decode
تمرير مجموعة الرموز المميزة.
let decoded = encoder . decode ( tokens : [ 464 , 402 , 11571 , 1641 , 286 , 4981 , 1429 , 2420 , 1262 , 16326 , 11 , 543 , 389 , 2219 , 16311 , 286 , 3435 , 1043 , 287 , 2420 , 13 ] )
// Output: "The GPT family of models process text using tokens, which are common sequences of characters found in text."
داخليًا، يتم استخدام ذاكرة التخزين المؤقت لتحسين الأداء عند تشفير الرموز المميزة، ويمكنك أيضًا إعادة تعيين ذاكرة التخزين المؤقت.
encoder . clearCache ( )