Téléchargement ai21 tokenizer - Téléchargement du code source ai21 tokenizer

ai21 tokenizer

Autre code source

v0.12.0

Télécharger

Tokeniseur AI21 Labs

Un tokeniseur basé sur SentencePièce pour les utilisations en production avec les modèles AI21

Conditions préalables

Si vous souhaitez utiliser les tokenizers pour Jamba 1.5 Mini ou Jamba 1.5 Large , vous devrez demander l'accès au dépôt HuggingFace du modèle concerné :
- Jamba 1.5 Mini
- Jamba 1.5 Grand

Installation

pépin

pip install ai21-tokenizer

poésie

poetry add ai21-tokenizer

Usage

Création de tokeniseur

Jamba 1.5 Mini Tokeniseur

 from ai21_tokenizer import Tokenizer , PreTrainedTokenizers

tokenizer = Tokenizer . get_tokenizer ( PreTrainedTokenizers . JAMBA_1_5_MINI_TOKENIZER )
# Your code here

Une autre façon serait d'utiliser directement notre tokenizer Jamba 1.5 Mini :

 from ai21_tokenizer import Jamba1_5Tokenizer

model_path = "<Path to your vocabs file>"
tokenizer = Jamba1_5Tokenizer ( model_path = model_path )
# Your code here

Utilisation asynchrone

 from ai21_tokenizer import Tokenizer , PreTrainedTokenizers

tokenizer = await Tokenizer . get_async_tokenizer ( PreTrainedTokenizers . JAMBA_1_5_MINI_TOKENIZER )
# Your code here

Jamba 1.5 Grand tokeniseur

 from ai21_tokenizer import Tokenizer , PreTrainedTokenizers

tokenizer = Tokenizer . get_tokenizer ( PreTrainedTokenizers . JAMBA_1_5_LARGE_TOKENIZER )
# Your code here

Une autre façon serait d'utiliser directement notre tokenizer Jamba 1.5 Large :

 from ai21_tokenizer import Jamba1_5Tokenizer

model_path = "<Path to your vocabs file>"
tokenizer = Jamba1_5Tokenizer ( model_path = model_path )
# Your code here

Utilisation asynchrone

 from ai21_tokenizer import Tokenizer , PreTrainedTokenizers

tokenizer = await Tokenizer . get_async_tokenizer ( PreTrainedTokenizers . JAMBA_1_5_LARGE_TOKENIZER )
# Your code here

Tokeniseur d'instructions Jamba

 from ai21_tokenizer import Tokenizer , PreTrainedTokenizers

tokenizer = Tokenizer . get_tokenizer ( PreTrainedTokenizers . JAMBA_INSTRUCT_TOKENIZER )
# Your code here

Une autre façon serait d'utiliser directement notre tokenizer Jamba :

 from ai21_tokenizer import JambaInstructTokenizer

model_path = "<Path to your vocabs file>"
tokenizer = JambaInstructTokenizer ( model_path = model_path )
# Your code here

Utilisation asynchrone

 from ai21_tokenizer import Tokenizer , PreTrainedTokenizers

tokenizer = await Tokenizer . get_async_tokenizer ( PreTrainedTokenizers . JAMBA_INSTRUCT_TOKENIZER )
# Your code here

Une autre façon serait d'utiliser notre méthode de classe asynchrone Jamba tokenizer create :

 from ai21_tokenizer import AsyncJambaInstructTokenizer

model_path = "<Path to your vocabs file>"
tokenizer = AsyncJambaInstructTokenizer . create ( model_path = model_path )
# Your code here

Tokeniseur J2

 from ai21_tokenizer import Tokenizer

tokenizer = Tokenizer . get_tokenizer ()
# Your code here

Une autre façon serait d'utiliser directement notre modèle Jurassic :

 from ai21_tokenizer import JurassicTokenizer

model_path = "<Path to your vocabs file. This is usually a binary file that end with .model>"
config = {} # "dictionary object of your config.json file"
tokenizer = JurassicTokenizer ( model_path = model_path , config = config )

Utilisation asynchrone

 from ai21_tokenizer import Tokenizer

tokenizer = await Tokenizer . get_async_tokenizer ()
# Your code here

Une autre façon serait d'utiliser notre méthode de classe asynchrone Jamba tokenizer create :

 from ai21_tokenizer import AsyncJurassicTokenizer

model_path = "<Path to your vocabs file. This is usually a binary file that end with .model>"
config = {} # "dictionary object of your config.json file"
tokenizer = AsyncJurassicTokenizer . create ( model_path = model_path , config = config )
# Your code here

Fonctions

Encoder et décoder

Ces fonctions vous permettent d'encoder votre texte dans une liste d'identifiants de jetons et de revenir au texte brut

 text_to_encode = "apple orange banana"
encoded_text = tokenizer . encode ( text_to_encode )
print ( f"Encoded text: { encoded_text } " )

decoded_text = tokenizer . decode ( encoded_text )
print ( f"Decoded text: { decoded_text } " )

Asynchrone

 # Assuming you have created an async tokenizer
text_to_encode = "apple orange banana"
encoded_text = await tokenizer . encode ( text_to_encode )
print ( f"Encoded text: { encoded_text } " )

decoded_text = await tokenizer . decode ( encoded_text )
print ( f"Decoded text: { decoded_text } " )

Et si vous aviez voulu convertir vos tokens en identifiants ou vice versa ?

 tokens = tokenizer . convert_ids_to_tokens ( encoded_text )
print ( f"IDs corresponds to Tokens: { tokens } " )

ids = tokenizer . convert_tokens_to_ids ( tokens )

Asynchrone

 # Assuming you have created an async tokenizer
tokens = await tokenizer . convert_ids_to_tokens ( encoded_text )
print ( f"IDs corresponds to Tokens: { tokens } " )

ids = tokenizer . convert_tokens_to_ids ( tokens )

Pour plus d’exemples, veuillez consulter notre dossier d’exemples.

Développer

Informations supplémentaires

Version v0.12.0
Type Autre code source
Date de mise à jour 2024-12-05
taille 3.11MB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout