ตัวเข้ารหัส / ตัวถอดรหัส Swift BPE สำหรับรุ่น OpenAI GPT อินเทอร์เฟซแบบเป็นโปรแกรมสำหรับการแปลงข้อความเป็นโทเค็นสำหรับ OpenAI GPT API
กลุ่มโมเดล GPT ประมวลผลข้อความโดยใช้โทเค็น ซึ่งเป็นลำดับอักขระทั่วไปที่พบในข้อความ แบบจำลองเหล่านี้เข้าใจความสัมพันธ์ทางสถิติระหว่างโทเค็นเหล่านี้ และเก่งในการสร้างโทเค็นถัดไปตามลำดับของโทเค็น
คุณสามารถใช้เครื่องมือด้านล่างเพื่อทำความเข้าใจว่า API จะสร้างโทเค็นข้อความชิ้นหนึ่งได้อย่างไร และจำนวนโทเค็นทั้งหมดในข้อความชิ้นนั้น
ไลบรารีนี้ใช้ nodeJS gpt-3-encoder และ OpenAI Official Python GPT Encoder/Decoder
ฉันยังสร้าง GPTTokenizerUI ซึ่งเป็น SPM lib ที่คุณสามารถรวมเข้ากับแอปของคุณเพื่อจัดเตรียม GUI เพื่อป้อนข้อความและแสดงผลลัพธ์โทเค็นที่ใช้โดย GPT API
platform :ios , '15.0'
use_frameworks!
target 'MyApp' do
pod 'GPTEncoder' , '~> 1.0.3'
end
let encoder = SwiftGPTEncoder ( )
let str = " The GPT family of models process text using tokens, which are common sequences of characters found in text. "
let encoded = encoder . encode ( text : str )
print ( " String: ( str ) " )
print ( " Encoded this string looks like: ( encoded ) " )
print ( " Total number of token(s): ( encoded . count ) and character(s): ( str . count ) " )
print ( " We can look at each token and what it represents " )
encoded . forEach { print ( " Token: ( encoder . decode ( tokens : [ $0 ] ) ) " ) }
print ( encoded )
let decoded = encoder . decode ( tokens : encoded )
print ( " We can decode it back into: n ( decoded ) " )
หากต้องการเข้ารหัส String
เป็นอาร์เรย์ของโทเค็น Int
คุณสามารถเรียกใช้ encode
ผ่านสตริงได้
let encoded = encoder . encode ( text : " The GPT family of models process text using tokens, which are common sequences of characters found in text. " )
// Output: [464, 402, 11571, 1641, 286, 4981, 1429, 2420, 1262, 16326, 11, 543, 389, 2219, 16311, 286, 3435, 1043, 287, 2420, 13]
หากต้องการถอดรหัสอาร์เรย์ของโทเค็น Int
กลับไปที่ String
คุณสามารถเรียกใช้ decode
ผ่านอาร์เรย์โทเค็น
let decoded = encoder . decode ( tokens : [ 464 , 402 , 11571 , 1641 , 286 , 4981 , 1429 , 2420 , 1262 , 16326 , 11 , 543 , 389 , 2219 , 16311 , 286 , 3435 , 1043 , 287 , 2420 , 13 ] )
// Output: "The GPT family of models process text using tokens, which are common sequences of characters found in text."
ภายใน แคชจะใช้เพื่อปรับปรุงประสิทธิภาพเมื่อเข้ารหัสโทเค็น คุณสามารถรีเซ็ตแคชได้เช่นกัน
encoder . clearCache ( )