Скачать DALLE mtf - DALLE mtf Скачать исходный код

DALLE mtf

AI Исходный код

1.0.0

Скачать

DALL-E в Mesh-Tensorflow [WIP]

DALL-E Open-AI в Mesh-Tensorflow.

Если это так же эффективно, как и GPT-Neo, этот репозиторий должен иметь возможность обучать модели до размера DALL-E Open-AI (12B параметров) и больше его.

Никаких предварительно обученных моделей... Пока.

Спасибо Бену Вангу за реализацию tf vae, а также за работу версии mtf, а также Арану Комацузаки за помощь в создании mtf VAE и входного конвейера.

Настраивать

git clone https://github.com/EleutherAI/GPTNeo
cd GPTNeo
pip3 install -r requirements.txt

Настройка обучения

Работает на TPU, на графических процессорах не тестировалось, но теоретически должно работать. Примеры конфигураций предназначены для работы на модуле TPU v3-32.

Чтобы настроить TPU, зарегистрируйтесь в Google Cloud Platform и создайте сегмент хранилища.

Создайте свою виртуальную машину через оболочку Google ( https://ssh.cloud.google.com/ ) с помощью ctpu up --vm-only , чтобы она могла подключаться к вашему корзине Google и TPU и настраивать репозиторий, как указано выше.

Предварительная подготовка VAE

DALLE нужен предварительно обученный VAE для сжатия изображений в токены. Чтобы запустить предварительное обучение VAE, настройте параметры в configs/vae_example.json на общий путь, указывающий на набор данных в формате JPG, и настройте размер изображения до соответствующего размера.

  "dataset": {
    "train_path": "gs://neo-datasets/CIFAR-10-images/train/**/*.jpg",
    "eval_path": "gs://neo-datasets/CIFAR-10-images/test/**/*.jpg",
    "image_size": 32
  }

Как только все это будет настроено, создайте свой TPU и запустите:

python train_vae_tf.py --tpu your_tpu_name --model vae_example

В процессе обучения регистрируются тензоры изображений и значения потерь. Чтобы проверить прогресс, вы можете запустить:

tensorboard --logdir your_model_dir

Создание набора данных [DALL-E]

После предварительной подготовки VAE вы можете перейти к DALL-E.

В настоящее время мы тренируемся на фиктивном наборе данных. Публичный крупномасштабный набор данных для DALL-E находится в разработке. Тем временем, чтобы сгенерировать фиктивные данные, запустите:

python src/data/create_tfrecords.py

Это должно загрузить CIFAR-10 и сгенерировать несколько случайных подписей, которые будут использоваться в качестве текстовых вводов.

Пользовательские наборы данных должны быть отформатированы в папке с файлом jsonl в корневой папке, содержащим данные подписей и пути к соответствующим изображениям, следующим образом:

 Folder structure:

        data_folder
            jsonl_file
            folder_1
                img1
                img2
                ...
            folder_2
                img1
                img2
                ...
            ...

jsonl structure:
    {"image_path": folder_1/img1, "caption": "some words"}
    {"image_path": folder_2/img2, "caption": "more words"}
    ...

затем вы можете использовать функцию create_paired_dataset в src/data/create_tfrecords.py чтобы закодировать набор данных в tfrecords для использования в обучении.

После создания набора данных скопируйте его в корзину с помощью gsutil:

gsutil cp -r DALLE-tfrecords gs://neo-datasets/

И, наконец, запустите обучение с помощью

python train_dalle.py --tpu your_tpu_name --model dalle_example

Руководство по настройке

ВАЭ:

 {
  "model_type": "vae",
  "dataset": {
    "train_path": "gs://neo-datasets/CIFAR-10-images/train/**/*.jpg", # glob path to training images
    "eval_path": "gs://neo-datasets/CIFAR-10-images/test/**/*.jpg", # glob path to eval images
    "image_size": 32 # size of images (all images will be cropped / padded to this size)
  },
  "train_batch_size": 32, 
  "eval_batch_size": 32,
  "predict_batch_size": 32,
  "steps_per_checkpoint": 1000, # how often to save a checkpoint
  "iterations": 500, # number of batches to infeed to the tpu at a time. Must be < steps_per_checkpoint
  "train_steps": 100000, # total training steps
  "eval_steps": 0, # run evaluation for this many steps every steps_per_checkpoint
  "model_path": "gs://neo-models/vae_test2/", # directory in which to save the model
  "mesh_shape": "data:16,model:2", # mapping of processors to named dimensions - see mesh-tensorflow repo for more info
  "layout": "batch_dim:data", # which named dimensions of the model to split across the mesh - see mesh-tensorflow repo for more info
  "num_tokens": 512, # vocab size
  "dim": 512, 
  "hidden_dim": 64, # size of hidden dim
  "n_channels": 3, # number of input channels
  "bf_16": false, # if true, the model is trained with bfloat16 precision
  "lr": 0.001, # learning rate [by default learning rate starts at this value, then decays to 10% of this value over the course of the training]
  "num_layers": 3, # number of blocks in the encoder / decoder
  "train_gumbel_hard": true, # whether to use hard or soft gumbel_softmax
  "eval_gumbel_hard": true
}

ДАЛЛ-И:

 {
  "model_type": "dalle",
  "dataset": {
    "train_path": "gs://neo-datasets/DALLE-tfrecords/*.tfrecords", # glob path to tfrecords data
    "eval_path": "gs://neo-datasets/DALLE-tfrecords/*.tfrecords",
    "image_size": 32 # size of images (all images will be cropped / padded to this size)
  },
  "train_batch_size": 32, # see above
  "eval_batch_size": 32,
  "predict_batch_size": 32,
  "steps_per_checkpoint": 1000,
  "iterations": 500,
  "train_steps": 100000,
  "predict_steps": 0,
  "eval_steps": 0,
  "n_channels": 3,
  "bf_16": false,
  "lr": 0.001,
  "model_path": "gs://neo-models/dalle_test/",
  "mesh_shape": "data:16,model:2",
  "layout": "batch_dim:data",
  "n_embd": 512, # size of embedding dim
  "text_vocab_size": 50258, # vocabulary size of the text tokenizer
  "image_vocab_size": 512, # vocabulary size of the vae - should equal num_tokens above
  "text_seq_len": 256, # length of text inputs (all inputs longer / shorter will be truncated / padded)
  "n_layers": 6, 
  "n_heads": 4, # number of attention heads. For best performance, n_embd / n_heads should equal 128
  "vae_model": "vae_example" # path to or name of vae model config
}

Расширять

Дополнительная информация