AutoTrain Advanced: capacitación e implementación más rápida y sencilla de modelos de aprendizaje automático de última generación. AutoTrain Advanced es una solución sin código que le permite entrenar modelos de aprendizaje automático con solo unos pocos clics. Tenga en cuenta que debe cargar los datos en el formato correcto para que se cree el proyecto. Para obtener ayuda sobre el formato de datos y los precios adecuados, consulte la documentación.
NOTA: ¡AutoTrain es gratis! Solo paga por los recursos que utiliza en caso de que decida ejecutar AutoTrain en Hugging Face Spaces. Cuando se ejecuta localmente, solo paga por los recursos que utiliza en su propia infraestructura.
Tarea | Estado | Cuaderno de pitón | Configuraciones de ejemplo |
---|---|---|---|
Ajuste fino de LLM SFT | ✅ | llm_sft_finetune.yaml | |
LLM ORPO Ajuste | ✅ | llm_orpo_finetune.yaml | |
LLM DPO Ajuste | ✅ | llm_dpo_finetune.yaml | |
Ajuste de recompensas de LLM | ✅ | llm_reward_finetune.yaml | |
LLM Genérico/Ajuste Predeterminado | ✅ | llm_generic_finetune.yaml | |
Clasificación de texto | ✅ | clasificación_texto.yaml | |
Regresión de texto | ✅ | texto_regresión.yaml | |
Clasificación de tokens | ✅ | Muy pronto | token_clasificación.yaml |
Sec2Seq | ✅ | Muy pronto | seq2seq.yaml |
Respuesta a preguntas extractivas | ✅ | Muy pronto | extractive_qa.yaml |
Clasificación de imágenes | ✅ | Muy pronto | clasificación_imagen.yaml |
Puntuación/regresión de imágenes | ✅ | Muy pronto | imagen_regresión.yaml |
VLM | ? | Muy pronto | vlm.yaml |
Implemente AutoTrain en espacios faciales abrazados:
Ejecute la interfaz de usuario de AutoTrain en Colab a través de ngrok:
Puede instalar el paquete Python AutoTrain-Advanced a través de PIP. Tenga en cuenta que necesitará Python >= 3.10 para que AutoTrain Advanced funcione correctamente.
pip install autotrain-advanced
Asegúrese de tener instalado git lfs. Consulte las instrucciones aquí: https://github.com/git-lfs/git-lfs/wiki/Installation
También necesita instalar torch, torchaudio y torchvision.
La mejor manera de ejecutar autotrain es en un entorno conda. Puede crear un nuevo entorno conda con el siguiente comando:
conda create -n autotrain python=3.10
conda activate autotrain
pip install autotrain-advanced
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install -c "nvidia/label/cuda-12.1.0" cuda-nvcc
Una vez hecho esto, puede iniciar la aplicación usando:
autotrain app --port 8080 --host 127.0.0.1
Si no le gusta la interfaz de usuario, puede usar AutoTrain Configs para entrenar usando la línea de comandos o simplemente AutoTrain CLI.
Para usar el archivo de configuración para la capacitación, puede usar el siguiente comando:
autotrain --config <path_to_config_file>
Puede encontrar archivos de configuración de muestra en el directorio configs
de este repositorio.
Archivo de configuración de ejemplo para ajustar SmolLM2:
task : llm-sft
base_model : HuggingFaceTB/SmolLM2-1.7B-Instruct
project_name : autotrain-smollm2-finetune
log : tensorboard
backend : local
data :
path : HuggingFaceH4/no_robots
train_split : train
valid_split : null
chat_template : tokenizer
column_mapping :
text_column : messages
params :
block_size : 2048
model_max_length : 4096
epochs : 2
batch_size : 1
lr : 1e-5
peft : true
quantization : int4
target_modules : all-linear
padding : right
optimizer : paged_adamw_8bit
scheduler : linear
gradient_accumulation : 8
mixed_precision : bf16
merge_adapter : true
hub :
username : ${HF_USERNAME}
token : ${HF_TOKEN}
push_to_hub : true
Para ajustar un modelo usando el archivo de configuración anterior, puede usar el siguiente comando:
$ export HF_USERNAME= < your_hugging_face_username >
$ export HF_TOKEN= < your_hugging_face_write_token >
$ autotrain --config < path_to_config_file >
La documentación está disponible en https://hf.co/docs/autotrain/
@inproceedings{thakur-2024-autotrain,
title = "{A}uto{T}rain: No-code training for state-of-the-art models",
author = "Thakur, Abhishek",
booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
month = nov,
year = "2024",
address = "Miami, Florida, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.emnlp-demo.44",
pages = "419--423",
abstract = "With the advancements in open-source models, training(or finetuning) models on custom datasets has become a crucial part of developing solutions which are tailored to specific industrial or open-source applications. Yet, there is no single tool which simplifies the process of training across different types of modalities or tasks.We introduce AutoTrain(aka AutoTrain Advanced){---}an open-source, no code tool/library which can be used to train (or finetune) models for different kinds of tasks such as: large language model (LLM) finetuning, text classification/regression, token classification, sequence-to-sequence task, finetuning of sentence transformers, visual language model (VLM) finetuning, image classification/regression and even classification and regression tasks on tabular data. AutoTrain Advanced is an open-source library providing best practices for training models on custom datasets. The library is available at https://github.com/huggingface/autotrain-advanced. AutoTrain can be used in fully local mode or on cloud machines and works with tens of thousands of models shared on Hugging Face Hub and their variations.",
}