Obtenez votre copie aujourd'hui et laissez une note/un avis pour me dire ce que vous en avez pensé !
Bienvenue dans le référentiel GitHub pour le « Guide de démarrage rapide des grands modèles linguistiques - Deuxième édition » . Ce référentiel contient les extraits de code et les cahiers utilisés dans le livre, démontrant diverses applications et techniques avancées d'utilisation des modèles Transformer et des grands modèles de langage (LLM). Consultez le code de la première édition ici
notebooks
: contient des notebooks Jupyter pour chaque chapitre du livre.data
: Contient les ensembles de données utilisés dans les notebooks.images
: Contient des images et des graphiques utilisés dans les cahiers. Vous trouverez ci-dessous une liste des cahiers inclus dans le répertoire notebooks
, organisés par chapitres du livre.
Chapitre 2 : Recherche sémantique avec les LLM
02_semantic_search.ipynb
: Une introduction à la recherche sémantique utilisant OpenAI et des modèles open-source.Chapitre 3 : Premiers pas avec Prompt Engineering
03_prompt_engineering.ipynb
: Un guide pour une ingénierie rapide efficace pour les LLM alignés sur les instructions.Chapitre 4 : L'écosystème de l'IA : rassembler les éléments
04_rag_retrieval.ipynb
: Création d'un pipeline de génération augmentée de récupération (RAG).04_agent.ipynb
: Construire un agent IA à l'aide de LLM et d'autres outils. Chapitre 5 : Optimiser les LLM avec un réglage fin personnalisé
05_bert_app_review.ipynb
: Affiner un modèle BERT pour la classification des évaluations d'applications.05_openai_app_review_fine_tuning.ipynb
: Affiner les modèles OpenAI pour la classification des évaluations d'applications.Chapitre 6 : Ingénierie avancée des invites
06_adv_prompt_engineering.ipynb
: Techniques avancées d'ingénierie rapide, y compris la validation des sorties et l'apprentissage sémantique en quelques étapes.Chapitre 7 : Personnalisation des intégrations et des architectures de modèles
07_recommendation_engine.ipynb
: Création d'un moteur de recommandation à l'aide de LLM et d'intégrations personnalisés et affinés. Chapitre 9 : Aller au-delà des modèles de fondation
09_constructing_a_vqa_system.ipynb
: guide étape par étape pour construire un système de réponse visuelle aux questions (VQA) à l'aide de GPT-2 et Vision Transformer.09_using_our_vqa.ipynb
: Utilisation du système VQA intégré dans le notebook précédent.09_flan_t5_rl.ipynb
: Utilisation de l'apprentissage par renforcement (RL) pour améliorer les sorties du modèle FLAN-T5.Chapitre 10 : Ajustement avancé du LLM Open Source
10_SAWYER_LLAMA_SFT.ipynb
: Affinement du modèle Llama-3 pour créer le bot SAWYER.10_SAWYER_Reward_Model.ipynb
: Formation d'un modèle de récompense à partir des préférences humaines pour le bot SAWYER.10_SAWYER_RLF.ipynb
: Application de l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) pour aligner le bot SAWYER.10_SAWYER_USE_SAWYER.ipynb
: Utilisation du bot SAWYER.10_anime_category_classification_model_freezing.ipynb
: Affinement d'un modèle BERT pour la classification des catégories d'anime, en comparant les techniques de gel des couches.10_latex_gpt2.ipynb
: Affiner GPT-2 pour générer des formules LaTeX.10_optimizing_fine_tuning.ipynb
: Meilleures pratiques pour optimiser le réglage fin des modèles de transformateurs.Chapitre 11 : Passer les LLM en production
11_distillation_example_1.ipynb
: Explorer les techniques de distillation des connaissances pour les modèles de transformateurs.11_distillation_example_2.ipynb
: Méthodes et applications avancées de distillation.11_llama_quantization.ipynb
: Quantification des modèles Llama pour un déploiement efficace.Chapitre 12 : Évaluation des LLM
12_llm_calibration.ipynb
: Techniques de calibrage des sorties LLM.12_llm_gen_eval.ipynb
: Méthodes d'évaluation des capacités génératives des LLM.12_cluster.ipynb
: Techniques de clustering pour analyser les sorties LLM.Pour utiliser ce référentiel :
git clone https://github.com/yourusername/quick-start-llms.git
cd quick-start-llms
pip install -r requirements.txt
Remarque : Certains blocs-notes peuvent nécessiter des ensembles de données spécifiques, disponibles dans le répertoire de données.
Les contributions sont les bienvenues ! Si vous avez des ajouts, des corrections ou des améliorations, n'hésitez pas à soumettre une pull request.
Ce référentiel est destiné à des fins éducatives et est destiné à accompagner le livre « Guide de démarrage rapide des grands modèles linguistiques - Deuxième édition ». Veuillez vous référer au livre pour des explications et des discussions approfondies sur les sujets abordés dans les cahiers.