AutoTrain Advanced : formation et déploiements plus rapides et plus faciles de modèles d'apprentissage automatique de pointe. AutoTrain Advanced est une solution sans code qui vous permet de former des modèles de machine learning en quelques clics seulement. Veuillez noter que vous devez télécharger les données dans le format correct pour que le projet soit créé. Pour obtenir de l'aide concernant le format de données et la tarification appropriés, consultez la documentation.
REMARQUE : AutoTrain est gratuit ! Vous ne payez que pour les ressources que vous utilisez au cas où vous décideriez d'exécuter AutoTrain sur Hugging Face Spaces. Lorsque vous exécutez localement, vous ne payez que pour les ressources que vous utilisez sur votre propre infrastructure.
Tâche | Statut | Carnet Python | Exemples de configurations |
---|---|---|---|
Mise au point LLM SFT | ✅ | llm_sft_finetune.yaml | |
LLM ORPO Mise au point | ✅ | llm_orpo_finetune.yaml | |
Mise au point LLM DPO | ✅ | llm_dpo_finetune.yaml | |
Mise au point des récompenses LLM | ✅ | llm_reward_finetune.yaml | |
LLM Générique/Réglage par défaut | ✅ | llm_generic_finetune.yaml | |
Classement du texte | ✅ | text_classification.yaml | |
Régression de texte | ✅ | text_regression.yaml | |
Classification des jetons | ✅ | À venir | token_classification.yaml |
Séq2Séq | ✅ | À venir | seq2seq.yaml |
Réponse extractive aux questions | ✅ | À venir | extractive_qa.yaml |
Classement des images | ✅ | À venir | image_classification.yaml |
Notation/régression d'images | ✅ | À venir | image_regression.yaml |
VLM | ? | À venir | vlm.yaml |
Déployez AutoTrain sur les espaces de visage câlins :
Exécutez l'interface utilisateur AutoTrain sur Colab via ngrok :
Vous pouvez installer le package python AutoTrain-Advanced via PIP. Veuillez noter que vous aurez besoin de python >= 3.10 pour qu'AutoTrain Advanced fonctionne correctement.
pip install autotrain-advanced
Veuillez vous assurer que git lfs est installé. Consultez les instructions ici : https://github.com/git-lfs/git-lfs/wiki/Installation
Vous devez également installer torch, torchaudio et torchvision.
La meilleure façon d’exécuter l’autotrain est dans un environnement conda. Vous pouvez créer un nouvel environnement conda avec la commande suivante :
conda create -n autotrain python=3.10
conda activate autotrain
pip install autotrain-advanced
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install -c "nvidia/label/cuda-12.1.0" cuda-nvcc
Une fois cela fait, vous pouvez démarrer l'application en utilisant :
autotrain app --port 8080 --host 127.0.0.1
Si vous n'aimez pas l'interface utilisateur, vous pouvez utiliser AutoTrain Configs pour vous entraîner à l'aide de la ligne de commande ou simplement de l'AutoTrain CLI.
Pour utiliser le fichier de configuration pour la formation, vous pouvez utiliser la commande suivante :
autotrain --config <path_to_config_file>
Vous pouvez trouver des exemples de fichiers de configuration dans le répertoire configs
de ce référentiel.
Exemple de fichier de configuration pour affiner SmolLM2 :
task : llm-sft
base_model : HuggingFaceTB/SmolLM2-1.7B-Instruct
project_name : autotrain-smollm2-finetune
log : tensorboard
backend : local
data :
path : HuggingFaceH4/no_robots
train_split : train
valid_split : null
chat_template : tokenizer
column_mapping :
text_column : messages
params :
block_size : 2048
model_max_length : 4096
epochs : 2
batch_size : 1
lr : 1e-5
peft : true
quantization : int4
target_modules : all-linear
padding : right
optimizer : paged_adamw_8bit
scheduler : linear
gradient_accumulation : 8
mixed_precision : bf16
merge_adapter : true
hub :
username : ${HF_USERNAME}
token : ${HF_TOKEN}
push_to_hub : true
Pour affiner un modèle à l'aide du fichier de configuration ci-dessus, vous pouvez utiliser la commande suivante :
$ export HF_USERNAME= < your_hugging_face_username >
$ export HF_TOKEN= < your_hugging_face_write_token >
$ autotrain --config < path_to_config_file >
La documentation est disponible sur https://hf.co/docs/autotrain/
@inproceedings{thakur-2024-autotrain,
title = "{A}uto{T}rain: No-code training for state-of-the-art models",
author = "Thakur, Abhishek",
booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
month = nov,
year = "2024",
address = "Miami, Florida, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.emnlp-demo.44",
pages = "419--423",
abstract = "With the advancements in open-source models, training(or finetuning) models on custom datasets has become a crucial part of developing solutions which are tailored to specific industrial or open-source applications. Yet, there is no single tool which simplifies the process of training across different types of modalities or tasks.We introduce AutoTrain(aka AutoTrain Advanced){---}an open-source, no code tool/library which can be used to train (or finetune) models for different kinds of tasks such as: large language model (LLM) finetuning, text classification/regression, token classification, sequence-to-sequence task, finetuning of sentence transformers, visual language model (VLM) finetuning, image classification/regression and even classification and regression tasks on tabular data. AutoTrain Advanced is an open-source library providing best practices for training models on custom datasets. The library is available at https://github.com/huggingface/autotrain-advanced. AutoTrain can be used in fully local mode or on cloud machines and works with tens of thousands of models shared on Hugging Face Hub and their variations.",
}