kan gpt Télécharger - kan gpt Téléchargement du code source

Français

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

Page d'accueil>Lié à la programmation>Autre code source

kan gpt

Autre code source

1.2.0

Télécharger

KAN-GPT

L'implémentation PyTorch de transformateurs génératifs pré-entraînés (GPT) utilisant les réseaux Kolmogorov-Arnold (KAN) pour la modélisation du langage

Installez-le depuis PyPI

pip install kan_gpt

Citation

Si vous trouvez notre travail utile, citez-nous !

 @misc{GANESH2024KANGPT,
  author       = {Aditya Nalgunda Ganesh},
  title        = {KAN-GPT: The PyTorch implementation of Generative Pre-trained Transformers (GPTs) using Kolmogorov-Arnold Networks (KANs) for language modeling},
  year         = {2024},
  month        = {May},
  note         = {Release 1.0.0, 9th May 2024},
  url          = {https://github.com/AdityaNG/kan-gpt/}
}

Usage

Reportez-vous à KAN_GPT.ipynb et kan_gpt/prompt.py pour des exemples d'utilisation. Voici un aperçu de la façon d'utiliser le modèle :

 from kan_gpt . model import GPT
from transformers import GPT2Tokenizer

model_config = GPT . get_default_config ()
model_config . model_type = "gpt2"
model_config . vocab_size = 50257
model_config . block_size = 1024
model = GPT ( model_config )

tokenizer = GPT2Tokenizer . from_pretrained ( 'gpt2' )

prompt = "Bangalore is often described as the "

prompt_encoded = tokenizer . encode (
  text = prompt , add_special_tokens = False
)

x = torch . tensor ( prompt_encoded ). unsqueeze ( 0 )

model . eval ()
y = model . generate ( x , 50 )  # sample 50 tokens

result = tokenizer . decode ( y [ 0 ])

print ( result )

# Bangalore is often described as the Silicon Valley of India.
# The city has witnessed rapid growth in the past two decades.....

Configuration pour le développement

 # Download Repo
git clone https://github.com/AdityaNG/kan-gpt
cd kan-gpt
git pull

# Download Dataset
python3 -m kan_gpt.download_dataset --dataset tinyshakespeare
python3 -m kan_gpt.download_dataset --dataset mnist
python3 -m kan_gpt.download_dataset --dataset webtext

# Install dependencies for development
pip install -r requirements.txt
pip install -e .

Former

Utilisez le script factice suivant pour vous assurer que tout fonctionne comme prévu

WANDB_MODE=offline CUDA_VISIBLE_DEVICE= " " python3 -m kan_gpt.train --architecture MLP --batch_size 1 --dummy_dataset --device cpu --max_iters 200
WANDB_MODE=offline CUDA_VISIBLE_DEVICE= " " python3 -m kan_gpt.train --architecture KAN --batch_size 1 --dummy_dataset --device cpu --max_iters 200

Utilisez ensuite le script de formation

python -m kan_gpt.train

Rapide

Vous pouvez inviter le modèle à produire du texte comme suit

python -m kan_gpt.prompt --prompt " Bangalore is often described as the " --model_path (checkpoint)

Résultats

Nous entraînons et comparons KAN-GPT avec un modèle MLP-GPT équivalent sur l'ensemble de données Tiny Shakespeare. Nous observons que le KAN-GPT est légèrement meilleur que le MLP-GPT. Nous étudions d’autres expériences pour approfondir. Les résultats sont présentés ci-dessous :