Bienvenue sur le référentiel GitHub pour l'atelier ODSC sur LLMOps. Cet atelier est conçu pour vous aider à libérer tout le potentiel des LLM grâce à la quantification, la distillation, le réglage fin, Kubernetes et bien plus encore !
La plupart de ces études de cas sont tirées de mon livre : Guide de démarrage rapide des LLM.
Pour plus de détails et pour rejoindre l’atelier, cliquez ici.
Plongez dans l’application pratique avec nos cahiers complets. Ces cahiers vous guideront étape par étape à travers les deux études de cas abordées lors de l'atelier, permettant une expérience d'apprentissage interactive et pratique.
Voici les slides de l'atelier.
Quantification dynamique de Llama-3 - Utilisation de bits et d'octets pour quantifier un modèle en temps réel lors du chargement. Nous étudierons les différences avant et après quantification
Découvrez comment charger une version pré-quantifiée de Llama pour comparer la vitesse et l'utilisation de la mémoire :
Travailler avec GGUF (pas de GPU)
Travailler avec GGUF (avec un GPU)
Évaluation des LLM avec des rubriques - Explorer une invite de rubrique pour évaluer le résultat génératif
Évaluation de l'alignement (si le temps le permet) - Voir comment un LLM peut juger les réponses de l'agent
Voici quelques cahiers que je référence lors de l'atelier mais que je n'aurai pas le temps d'aborder :
Si vous avez apprécié les études de cas, pensez à attribuer à mon livre une note de 5 étoiles sur Amazon, car cela m'aide vraiment en tant qu'auteur ! Pour plus de détails et pour rejoindre l’atelier, cliquez ici.