AutoTrain Advanced: pelatihan dan penerapan model pembelajaran mesin canggih yang lebih cepat dan mudah. AutoTrain Advanced adalah solusi tanpa kode yang memungkinkan Anda melatih model pembelajaran mesin hanya dalam beberapa klik. Harap dicatat bahwa Anda harus mengunggah data dalam format yang benar agar proyek dapat dibuat. Untuk bantuan mengenai format data dan harga yang tepat, lihat dokumentasi.
CATATAN: AutoTrain gratis! Anda hanya membayar sumber daya yang Anda gunakan jika Anda memutuskan untuk menjalankan AutoTrain di Hugging Face Spaces. Saat dijalankan secara lokal, Anda hanya membayar sumber daya yang Anda gunakan pada infrastruktur Anda sendiri.
Tugas | Status | Buku Catatan Python | Contoh Konfigurasi |
---|---|---|---|
Penyempurnaan SFT LLM | ✅ | llm_sft_finetune.yaml | |
Penyempurnaan LLM ORPO | ✅ | llm_orpo_finetune.yaml | |
Penyempurnaan DPO LLM | ✅ | llm_dpo_finetune.yaml | |
Penyempurnaan Hadiah LLM | ✅ | llm_reward_finetune.yaml | |
LLM Generik/Penyempurnaan Default | ✅ | llm_generic_finetune.yaml | |
Klasifikasi Teks | ✅ | text_classification.yaml | |
Regresi Teks | ✅ | text_regression.yaml | |
Klasifikasi Token | ✅ | Segera hadir | token_classification.yaml |
Seq2Seq | ✅ | Segera hadir | seq2seq.yaml |
Menjawab Pertanyaan Ekstraktif | ✅ | Segera hadir | ekstraktif_qa.yaml |
Klasifikasi Gambar | ✅ | Segera hadir | image_classification.yaml |
Penilaian/Regresi Gambar | ✅ | Segera hadir | image_regression.yaml |
VLM | ? | Segera hadir | vlm.yaml |
Terapkan AutoTrain pada Ruang Memeluk Wajah:
Jalankan AutoTrain UI di Colab melalui ngrok:
Anda dapat Menginstal paket python AutoTrain-Advanced melalui PIP. Harap diperhatikan bahwa Anda memerlukan python >= 3.10 agar AutoTrain Advanced dapat berfungsi dengan baik.
pip install autotrain-advanced
Harap pastikan Anda telah menginstal git lfs. Lihat instruksinya di sini: https://github.com/git-lfs/git-lfs/wiki/Installation
Anda juga perlu menginstal torch, torchaudio, dan torchvision.
Cara terbaik untuk menjalankan autotrain adalah di lingkungan conda. Anda dapat membuat lingkungan conda baru dengan perintah berikut:
conda create -n autotrain python=3.10
conda activate autotrain
pip install autotrain-advanced
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install -c "nvidia/label/cuda-12.1.0" cuda-nvcc
Setelah selesai, Anda dapat memulai aplikasi menggunakan:
autotrain app --port 8080 --host 127.0.0.1
Jika Anda tidak menyukai UI, Anda dapat menggunakan AutoTrain Configs untuk berlatih menggunakan baris perintah atau cukup AutoTrain CLI.
Untuk menggunakan file konfigurasi untuk pelatihan, Anda dapat menggunakan perintah berikut:
autotrain --config <path_to_config_file>
Anda dapat menemukan contoh file konfigurasi di direktori configs
repositori ini.
Contoh file konfigurasi untuk menyempurnakan SmolLM2:
task : llm-sft
base_model : HuggingFaceTB/SmolLM2-1.7B-Instruct
project_name : autotrain-smollm2-finetune
log : tensorboard
backend : local
data :
path : HuggingFaceH4/no_robots
train_split : train
valid_split : null
chat_template : tokenizer
column_mapping :
text_column : messages
params :
block_size : 2048
model_max_length : 4096
epochs : 2
batch_size : 1
lr : 1e-5
peft : true
quantization : int4
target_modules : all-linear
padding : right
optimizer : paged_adamw_8bit
scheduler : linear
gradient_accumulation : 8
mixed_precision : bf16
merge_adapter : true
hub :
username : ${HF_USERNAME}
token : ${HF_TOKEN}
push_to_hub : true
Untuk menyempurnakan model menggunakan file konfigurasi di atas, Anda dapat menggunakan perintah berikut:
$ export HF_USERNAME= < your_hugging_face_username >
$ export HF_TOKEN= < your_hugging_face_write_token >
$ autotrain --config < path_to_config_file >
Dokumentasi tersedia di https://hf.co/docs/autotrain/
@inproceedings{thakur-2024-autotrain,
title = "{A}uto{T}rain: No-code training for state-of-the-art models",
author = "Thakur, Abhishek",
booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
month = nov,
year = "2024",
address = "Miami, Florida, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.emnlp-demo.44",
pages = "419--423",
abstract = "With the advancements in open-source models, training(or finetuning) models on custom datasets has become a crucial part of developing solutions which are tailored to specific industrial or open-source applications. Yet, there is no single tool which simplifies the process of training across different types of modalities or tasks.We introduce AutoTrain(aka AutoTrain Advanced){---}an open-source, no code tool/library which can be used to train (or finetune) models for different kinds of tasks such as: large language model (LLM) finetuning, text classification/regression, token classification, sequence-to-sequence task, finetuning of sentence transformers, visual language model (VLM) finetuning, image classification/regression and even classification and regression tasks on tabular data. AutoTrain Advanced is an open-source library providing best practices for training models on custom datasets. The library is available at https://github.com/huggingface/autotrain-advanced. AutoTrain can be used in fully local mode or on cloud machines and works with tens of thousands of models shared on Hugging Face Hub and their variations.",
}