Загрузка autotrain advanced - Загрузка исходного кода autotrain advanced

autotrain advanced

Питон

1.0.0

Скачать

? АвтоТрейн Продвинутый

AutoTrain Advanced: более быстрое и простое обучение и внедрение современных моделей машинного обучения. AutoTrain Advanced — это решение без написания кода, которое позволяет обучать модели машинного обучения всего за несколько кликов. Обратите внимание, что для создания проекта вы должны загрузить данные в правильном формате. Для получения помощи относительно правильного формата данных и цен ознакомьтесь с документацией.

ПРИМЕЧАНИЕ. AutoTrain бесплатен! Вы платите только за те ресурсы, которые используете, если решите запустить AutoTrain на Hugging Face Spaces. При локальной работе вы платите только за те ресурсы, которые используете в собственной инфраструктуре.

Поддерживаемые задачи

Задача	Статус	Блокнот Python	Примеры конфигураций
LLM Тонкая настройка SFT	✅		llm_sft_finetune.yaml
LLM ОРПО Тонкая настройка	✅		llm_orpo_finetune.yaml
Точная настройка LLM DPO	✅		llm_dpo_finetune.yaml
Тонкая настройка вознаграждения LLM	✅		llm_reward_finetune.yaml
Общая настройка LLM/тонкая настройка по умолчанию	✅		llm_generic_finetune.yaml
Классификация текста	✅		text_classification.yaml
Текстовая регрессия	✅		text_reгрессия.yaml
Классификация токенов	✅	Вскоре	token_classification.yaml
Seq2Seq	✅	Вскоре	seq2seq.yaml
Экстрактивный ответ на вопрос	✅	Вскоре	Extractive_qa.yaml
Классификация изображений	✅	Вскоре	image_classification.yaml
Оценка/регрессия изображений	✅	Вскоре	изображение_регрессия.yaml
ВЛМ	?	Вскоре	vlm.yaml

Запуск пользовательского интерфейса в Colab или использование пространства для лица

Разверните AutoTrain для охватывающих лицевых пространств:
Запустите пользовательский интерфейс AutoTrain в Colab через ngrok:

Локальная установка

Вы можете установить пакет Python AutoTrain-Advanced через PIP. Обратите внимание, что для правильной работы AutoTrain Advanced вам потребуется Python >= 3.10.

 pip install autotrain-advanced

Пожалуйста, убедитесь, что у вас установлен git lfs. Ознакомьтесь с инструкциями здесь: https://github.com/git-lfs/git-lfs/wiki/Installation.

Вам также необходимо установить факел, torchaudio и torchvision.

Лучший способ запустить autotrain — в среде conda. Вы можете создать новую среду conda с помощью следующей команды:

 conda create -n autotrain python=3.10
conda activate autotrain
pip install autotrain-advanced
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install -c "nvidia/label/cuda-12.1.0" cuda-nvcc

После этого вы можете запустить приложение, используя:

 autotrain app --port 8080 --host 127.0.0.1

Если вам не нравится пользовательский интерфейс, вы можете использовать конфигурации AutoTrain для обучения с помощью командной строки или просто AutoTrain CLI.

Чтобы использовать файл конфигурации для обучения, вы можете использовать следующую команду:

 autotrain --config <path_to_config_file>

Вы можете найти примеры файлов конфигурации в каталоге configs этого репозитория.

Пример файла конфигурации для точной настройки SmolLM2:

 task : llm-sft
base_model : HuggingFaceTB/SmolLM2-1.7B-Instruct
project_name : autotrain-smollm2-finetune
log : tensorboard
backend : local

data :
  path : HuggingFaceH4/no_robots
  train_split : train
  valid_split : null
  chat_template : tokenizer
  column_mapping :
    text_column : messages

params :
  block_size : 2048
  model_max_length : 4096
  epochs : 2
  batch_size : 1
  lr : 1e-5
  peft : true
  quantization : int4
  target_modules : all-linear
  padding : right
  optimizer : paged_adamw_8bit
  scheduler : linear
  gradient_accumulation : 8
  mixed_precision : bf16
  merge_adapter : true

hub :
  username : ${HF_USERNAME}
  token : ${HF_TOKEN}
  push_to_hub : true

Чтобы точно настроить модель с помощью приведенного выше файла конфигурации, вы можете использовать следующую команду:

$ export HF_USERNAME= < your_hugging_face_username >
$ export HF_TOKEN= < your_hugging_face_write_token >
$ autotrain --config < path_to_config_file >

Документация

Документация доступна по адресу https://hf.co/docs/autotrain/.

Цитирование

 @inproceedings{thakur-2024-autotrain,
    title = "{A}uto{T}rain: No-code training for state-of-the-art models",
    author = "Thakur, Abhishek",
    booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
    month = nov,
    year = "2024",
    address = "Miami, Florida, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.emnlp-demo.44",
    pages = "419--423",
    abstract = "With the advancements in open-source models, training(or finetuning) models on custom datasets has become a crucial part of developing solutions which are tailored to specific industrial or open-source applications. Yet, there is no single tool which simplifies the process of training across different types of modalities or tasks.We introduce AutoTrain(aka AutoTrain Advanced){---}an open-source, no code tool/library which can be used to train (or finetune) models for different kinds of tasks such as: large language model (LLM) finetuning, text classification/regression, token classification, sequence-to-sequence task, finetuning of sentence transformers, visual language model (VLM) finetuning, image classification/regression and even classification and regression tasks on tabular data. AutoTrain Advanced is an open-source library providing best practices for training models on custom datasets. The library is available at https://github.com/huggingface/autotrain-advanced. AutoTrain can be used in fully local mode or on cloud machines and works with tens of thousands of models shared on Hugging Face Hub and their variations.",
}

Расширять

Дополнительная информация