databricks llm prompt engineering Download - databricks llm prompt engineering Source Code Télécharger

databricks llm prompt engineering

Code Source AI

1.0.0

Télécharger

Modèles de grande langue (LLMS) et ingénierie rapide avec un visage étreint, des données de données et MLFlow

Contenu

Le repo couvre différents cas d'utilisation liés à l'ingénierie rapide et aux modèles de gros langage (LLMS) .
Exploration et exploitation : le repo contient des cahiers pour l'expérimentation LLM avec différentes techniques d'ingénierie rapide. Il présente également le déploiement de LLM à l'aide du modèle Databricks servant avec le support GPU.
Ce repo est également expédié avec une application de frontend de démonstration développée à l'aide de Gradio

Au 29/08/2023, vous trouverez les exemples suivants dans le dossier notebooks :

?? ‍️ customer_service

Artefact	Description
`hf_mlflow_crash_course`	? Fournit un exemple de base en utilisant le visage de câlins pour former un modèle de classification d'intention utilisant `distilbert-qa` . Présente également les concepts fondamentaux de MLFlow, tels que le suivi des expériences, la journalisation des artefacts et l'enregistrement du modèle.
`primer`	? Mélange principalement conceptuel. Contient des explications autour de l'ingénierie rapide et des concepts fondamentaux tels que l'échantillonnage supérieur K , l'échantillonnage supérieur P et la température .
`basic_prompt_evaluation`	? Démontre une ingénierie rapide de base avec des modèles LLM légers. En plus de cela, présente les nouvelles fonctionnalités LLM de MLFlow, telles que `mlflow.evaluate()` .
`few_shot_learning`	? Ici, nous explorons peu d'apprentissage avec un LLM basé sur l'instruction (MPT-7B-Istruct).
`active_prompting`	?? ‍️ Dans ce cahier, nous explorons des techniques d'incitation actives. De plus, nous montrons comment tirer parti de VLLM afin d'obtenir des améliorations de latence d'inférence 7x - 10x.
`llama2_mlflow_logging_inference`	Ici, nous montrons comment enregistrer, enregistrer et déployer un modèle LLAMA V2 dans MLFlow
`mpt_mlflow_logging_inference`	Ici, nous montrons comment enregistrer, enregistrer et déployer un modèle MPT-Istruct dans MLFlow. Différemment de l'exemple LLAMA V2, nous chargeons ici les poids des modèles directement dans le modèle de service de service lorsque le point de terminaison est initialisé, sans télécharger les artefacts dans le registre du modèle MLFlow.
`frontend`	? Exemple de bout en bout d'une application de démonstration de frontend qui se connecte à l'un des points de terminaison des modèles déployés dans le portable précédent en utilisant Gradio

Commencer

Pour commencer à utiliser ce dépôt sur Databricks, il y a quelques pré-exigences:

Créez un cluster GPU, au minimum avec Databricks Machine Learntime Runtime 13.2 GPU et un GPU NVIDIA T4 (A10 ou A100 est requis pour les étapes impliquant VLLM).
(Seulement si vous utilisez Databricks MLR <13.2) Installez les dépendances supplémentaires CUDA
- Tout d'abord, clonez ce dépôt à votre espace de travail
- Configurez un script init dans votre cluster en pointant le chemin suivant dans la configuration du script init: /Repos/[email protected]/databricks-llm-prompt-engineering/init/init.sh
(uniquement si vous utilisez des modèles MPT) Installez les packages Python suivants dans votre cluster:

accelerate==0.21.0
einops==0.6.1
flash-attn==v1.0.5
ninja
tokenizers==0.13.3
transformers==4.30.2
xformers==0.0.20

Une fois que toutes les dépendances ont terminé l'installation et que votre cluster a commencé avec succès, vous devriez être prêt à partir.

Feuille de route

~~? Application Web Frontend Utilisation de Gradio~~
~~Déploiement du modèle et inférence en temps réel~~
? Génération augmentée (RAG) de récupération (RAG)
? ️ Mlflow AI passerelle