Скачать dalle flow - скачать исходный код dalle flow

Dall · E Flow: рабочий процесс человека в петле для создания HD-изображений из текста
Человек в петле ^? Рабочий процесс для создания HD -изображений из текста

Dall · E Flow-это интерактивный рабочий процесс для генерации изображений высокой четкости из текстовой подсказки. Во-первых, он использует Dall · E-Mega, Glid-3 XL и стабильную диффузию для генерации кандидатов на изображение, а затем вызывает клип-сервис, чтобы оценить кандидатов в подсказке. Предпочтительный кандидат питается Glid-3 XL для диффузии, которая часто обогащает текстуру и фон. Наконец, кандидат увеличивается до 1024x1024 через Swinir.

Dall · E Flow построен с Jina в архитектуре клиентского сервера, которая дает ему высокую масштабируемость, не блокирующую потоковую передачу и современный питонический интерфейс. Клиент может взаимодействовать с сервером через GRPC/WebSocket/HTTP с TLS.

Почему человек в петле? Генеративное искусство - это творческий процесс. В то время как недавние достижения Dall · e выпустят творчество людей, наличие единого проплемента-выпуска UX/UI блокирует воображение до одной возможности, что плохо, независимо от того, насколько хорош этот единственный результат. Dall · E Flow является альтернативой одностроительству, путем формализации генеративного искусства в качестве итерационной процедуры.

Использование

Dall · E Flow находится в архитектуре клиентского сервера.

Использование клиента
Использование сервера, т.е. развернуть свой собственный сервер

Обновления

? 2022/10/27 Realesrgan oppalers были добавлены.
️ 2022/10/26 для использования клип-сервиса, доступного по адресу grpcs://api.clip.jina.ai:2096 (требует jina >= v3.11.0 ), вам нужно сначала получить токен доступа отсюда. См. Используйте клип как сервис для получения более подробной информации.
? 2022/9/25 Автоматизированная сегментация на основе клипсов была добавлена.
? 2022/8/17 Текст на изображение для стабильной диффузии было добавлено. Чтобы использовать его, вам нужно будет согласиться с их TOS, загрузить веса, а затем включить флаг в Docker или flow_parser.py .
️ 2022/8/8 начал использовать клип-сервис в качестве внешнего исполнителя. Теперь вы можете легко развернуть своего собственного исполнителя клипа, если хотите. В результате этого улучшения существует небольшое нарушение изменений, поэтому, пожалуйста, откройте ноутбук в Google Colab.
️ 2022/7/6 Демо-серверная миграция в AWS EKS Для лучшей доступности и надежности URL теперь меняется на grpcs://dalle-flow.dev.jina.ai . Все подключения сейчас с шифрованием TLS, пожалуйста, откройте ноутбук в Google Colab.
️ 2022/6/25 Неожиданное простоя между 6/25 0:00 - 12:00 CET из -за квот GPU. Новый сервер теперь имеет 2 графические процессоры, добавьте HealthCheck в клиентскую ноутбук.
2022/6/3 Уменьшите количество изображений по умолчанию до 2 за путь, 4 для диффузии.
? 2022/6/21 Предварительное изображение теперь доступно в Docker Hub! Это изображение можно запустить из коробки на CUDA 11.6. Исправьте вверх по течению ошибку в клипе как услуга.
️ 2022/5/23 Исправьте вверх по течению ошибку в клипе-сервисе. Эта ошибка делает 2 -й этап диффузии неактуальным для данных текстов. Новый DockerFile оказался воспроизводимым в экземпляре AWS EC2 p2.x8large .
2022/5/13B Удаление TLS, так как CloudFlare дает тайм -аут 100 -х годов, делая Dalle Flow в полезной обработке, пожалуйста, откройте ноутбук в Google Colab!.
? 2022/5/13 Новая мега -контрольная точка! Все соединения сейчас с TLS, пожалуйста, откройте ноутбук в Google Colab!.
? 2022/5/10 Дополняется Dockerfile! Теперь вы можете легко развернуть свой собственный поток Dall · E. Новая мега -точка! Меньший отпечаток памяти, весь поток теперь может вписаться в один графический процессор с памятью 21 ГБ .
? 2022/5/7 Новая мега-контрольная точка и множественная оптимизация на Glid3: меньше, Footprint, используйте ViT-L/14@336px от клипа-сервиса, steps 100->200 .
? 2022/5/6 Dall · E Flow только что обновлен! Пожалуйста, откройте ноутбук в Google Colab!
- Пересмотрено первый шаг: генерируются 16 кандидатов, 8 из Dall · E Mega, 8 от Glid3-xl; затем оценивается по клипе как сервис.
- Повышение эффективности потока: общая скорость, включая диффузию и масштабирование, сейчас намного быстрее!

Галерея

a realistic photo of a muddy dog A scientist comparing apples and oranges, by Norman Rockwell an oil painting portrait of the regal Burger King posing with a Whopper Eternal clock powered by a human cranium, artstation another planet amazing landscape The Decline and Fall of the Roman Empire board game kickstarter A raccoon astronaut with the cosmos reflecting on the glass of his helmet dreaming of the stars, digital art A photograph of an apple that is a disco ball, 85 mm lens, studio lighting a cubism painting Donald trump happy cyberpunk oil painting of a hamster drinking tea outside Colossus of Rhodes by Max Ernst landscape with great castle in middle of forest an medieval oil painting of Kanye west feels satisfied while playing chess in the style of Expressionism An oil pastel painting of an annoyed cat in a spaceship dinosaurs at the brink of a nuclear disaster fantasy landscape with medieval city GPU chip in the form of an avocado, digital art a giant rubber duck in the ocean Paddington bear as austrian emperor in antique black & white photography a rainy night with a superhero perched above a city, in the style of a comic book A synthwave style sunset above the reflecting water of the sea, digital art an oil painting of ocean beach front in the style of Titian an oil painting of Klingon general in the style of Rubens city, top view, cyberpunk, digital realistic art an oil painting of a medieval cyborg automaton made of magic parts and old steampunk mechanics a watercolour painting of a top view of a pirate ship sailing on the clouds a knight made of beautiful flowers and fruits by Rachel ruysch in the style of Syd brak a 3D render of a rainbow colored hot air balloon flying above a reflective lake a teddy bear on a skateboard in Times Square cozy bedroom at night an oil painting of monkey using computer the diagram of a search machine invented by Leonardo da Vinci A stained glass window of toucans in outer space a campfire in the woods at night with the milky-way galaxy in the sky Bionic killer robot made of AI scarab beetles The Hanging Gardens of Babylon in the middle of a city, in the style of Dalí painting oil of Izhevsk a hyper realistic photo of a marshmallow office chair fantasy landscape with city ocean beach front view in Van Gogh style An oil painting of a family reunited inside of an airport, digital art antique photo of a knight riding a T-Rex a top view of a pirate ship sailing on the clouds an oil painting of a humanoid robot playing chess in the style of Matisse a cubism painting of a cat dressed as French emperor Napoleon a husky dog wearing a hat with sunglasses A mystical castle appears between the clouds in the style of Vincent di Fate golden gucci airpods realistic photo

Клиент

Использование клиента очень просто. Следующие шаги лучше всего выполнять в ноутбуке Юпитера или в Google Colab.

Вам нужно сначала установить Docarray и Jina:

pip install " docarray[common]>=0.13.5 " jina

Мы предоставили демо -сервер для вас, чтобы играть:

️ Из -за массовых запросов наш сервер может быть задержкой в ответ. Тем не менее, мы очень уверены в том, чтобы поддерживать высокое время. Вы также можете развернуть свой собственный сервер, следуя инструкции здесь.

 server_url = 'grpcs://dalle-flow.dev.jina.ai'

Шаг 1: генерируйте через Dall · E Mega

Теперь давайте определим подсказку:

 prompt = 'an oil painting of a humanoid robot playing chess in the style of Matisse'

Давайте отправим его на сервер и визуализируем результаты:

 from docarray import Document

doc = Document ( text = prompt ). post ( server_url , parameters = { 'num_images' : 8 })
da = doc . matches

da . plot_image_sprites ( fig_size = ( 10 , 10 ), show_index = True )

Здесь мы генерируем 24 кандидата, 8 из Dalle-Mega, 8 от Glid3 XL и 8 из стабильной диффузии, это определено в num_images , что занимает около 2 минут. Вы можете использовать меньшее значение, если оно слишком длинное для вас.

Шаг 2: Выберите и уточняйте через Glid3 XL

24 кандидата отсортированы по клипсу как услугу, с индексом 0 в качестве лучшего кандидата, оцениваемого по клипу. Конечно, вы можете думать по -другому. Обратите внимание на номер в верхнем левом углу? Выберите тот, который вам нравится больше всего и получите лучший вид:

 fav_id = 3
fav = da [ fav_id ]
fav . embedding = doc . embedding
fav . display ()

Теперь давайте отправим выбранных кандидатов на сервер для распространения.

 diffused = fav . post ( f' { server_url } ' , parameters = { 'skip_rate' : 0.5 , 'num_images' : 36 }, target_executor = 'diffusion' ). matches

diffused . plot_image_sprites ( fig_size = ( 10 , 10 ), show_index = True )

Это даст 36 изображений на основе выбранного изображения. Вы можете позволить модели больше импровизировать, давая skip_rate почти нулевое значение или почти одно значение, чтобы привести к своему близости к данному изображению. Вся процедура занимает около 2 минут.

Шаг 3: Выберите и высококлассен через Swinir

Выберите изображение, которое вам нравится больше всего, и приведите его поближе:

 dfav_id = 34
fav = diffused [ dfav_id ]
fav . display ()

Наконец, отправьте на сервер для последнего шага: увеличение до 1024 x 1024px.

 fav = fav . post ( f' { server_url } /upscale' )
fav . display ()

Вот и все! Это один . Если не удовлетворен, повторите процедуру.

Кстати, Docarray-это мощная и простая в использовании структуру данных для неструктурированных данных. Это супер продуктивно для ученых данных, которые работают в кросс-/мультимодальной области. Чтобы узнать больше о Docarray, пожалуйста, ознакомьтесь с документами.

Сервер

Вы можете разместить свой собственный сервер, следуя инструкции ниже.

Аппаратные требования

Поток Dall · E нуждается в одном GPU с 21 ГБ VRAM на пике. Все услуги втиснуты в этот графический процессор, это включает (примерно)

Далле ~ 9 ГБ
Диффузия скольжения ~ 6 ГБ
Стабильная диффузия ~ 8 ГБ (batch_size = 4 в config.yml , 512x512)
Swinir ~ 3GB
Clip Vit-L/14-336px ~ 3GB

Следующие разумные трюки могут быть использованы для дальнейшего сокращения VRAM:

Swinir можно перенести в процессор (-3 ГБ)
Клип может быть делегирован на бесплатный сервер Clip-как услуги (-3GB)

Это требует не менее 50 ГБ свободного места на жестком диске, в основном для загрузки предварительных моделей.

Требуется высокоскоростный интернет. Медленный/нестабильный интернет может выбросить время -аут при загрузке моделей.

Среда только для процессора не тестируется и, вероятно, не будет работать. Google Colab, вероятно, бросает OOM, следовательно, также не будет работать.

Серверная архитектура

Если вы установили JINA, вышеупомянутая блок -схема может быть сгенерирована через:

 # pip install jina
jina export flowchart flow.yml flow.svg

Стабильные диффузионные веса

Если вы хотите использовать стабильную диффузию, вам сначала нужно будет зарегистрировать учетную запись на веб -сайте HuggingFace и согласиться с условиями для модели. После входа в систему вы можете найти версию модели, необходимой здесь:

Compvis / sd-v1-5-inpainting.ckpt

В разделе «Загрузить вес» нажмите на ссылку для sd-v1-x.ckpt . Последние веса на момент письма являются sd-v1-5.ckpt .

Пользователи Docker : поместите этот файл в папку с именем ldm/stable-diffusion-v1 и переименовать его model.ckpt . Следуйте приведенным ниже инструкциям, потому что SD не включен по умолчанию.

Нативные пользователи : поместите этот файл в dalle/stable-diffusion/models/ldm/stable-diffusion-v1/model.ckpt после завершения остальных шагов в разделе «Запуск национально». Следуйте приведенным ниже инструкциям, потому что SD не включен по умолчанию.

Беги в докере

Предварительно построенное изображение

Мы предоставили предварительно построенное изображение Docker, которое можно напрямую.

docker pull jinaai/dalle-flow:latest

Создайте это самостоятельно

Мы предоставили DockerFile, который позволяет запускать сервер из коробки.

Наш DockerFile использует CUDA 11.6 в качестве базового изображения, вы можете настроить его в соответствии с вашей системой.

git clone https://github.com/jina-ai/dalle-flow.git
cd dalle-flow

docker build --build-arg GROUP_ID= $( id -g ${USER} ) --build-arg USER_ID= $( id -u ${USER} ) -t jinaai/dalle-flow .

Здание займет 10 минут со средней скоростью в Интернете, что приведет к изображению докера 18 ГБ.

Запустить контейнер

Чтобы запустить его, просто сделайте:

docker run -p 51005:51005 
  -it 
  -v $HOME /.cache:/home/dalle/.cache 
  --gpus all 
  jinaai/dalle-flow

В качестве альтернативы, вы также можете запустить с некоторыми рабочими процессами, включенными или отключенными для предотвращения сбоев вне памяти. Для этого пройдите одну из этих переменных среды:

 DISABLE_DALLE_MEGA
DISABLE_GLID3XL
DISABLE_SWINIR
ENABLE_STABLE_DIFFUSION
ENABLE_CLIPSEG
ENABLE_REALESRGAN

Например, если вы хотите отключить рабочие процессы Glid3xl, запустите:

docker run -e DISABLE_GLID3XL= ' 1 ' 
  -p 51005:51005 
  -it 
  -v $HOME /.cache:/home/dalle/.cache 
  --gpus all 
  jinaai/dalle-flow

Первый пробег займет ~ 10 минут со средней скоростью в Интернете.
-v $HOME/.cache:/root/.cache избегает повторяющейся загрузки модели при каждом запуска Docker.
Первая часть -p 51005:51005 -ваш общедоступный порт. Убедитесь, что люди могут получить доступ к этому порту, если вы служите публично. Второй партии - это порт, определенный в Flow.yml.
Если вы хотите использовать стабильную диффузию, она должна быть включена вручную с помощью ENABLE_STABLE_DIFFUSION .
Если вы хотите использовать Clipseg, он должен быть включен вручную с помощью ENABLE_CLIPSEG .
Если вы хотите использовать Realesrgan, он должен быть включен вручную с помощью ENABLE_REALESRGAN .

Специальные инструкции для стабильной диффузии и докера

Стабильная диффузия может быть включена только в том случае, если вы загрузили веса и сделаете их доступными в виде виртуального громкости при включении экологического флага ( ENABLE_STABLE_DIFFUSION ) для SD .

Вы должны были ранее поместить веса в папку с именем ldm/stable-diffusion-v1 и маркировали их model.ckpt . Замените YOUR_MODEL_PATH/ldm ниже на пути в вашей собственной системе, чтобы поднять веса в изображение Docker.

docker run -e ENABLE_STABLE_DIFFUSION= " 1 " 
  -e DISABLE_DALLE_MEGA= " 1 " 
  -e DISABLE_GLID3XL= " 1 " 
  -p 51005:51005 
  -it 
  -v YOUR_MODEL_PATH/ldm:/dalle/stable-diffusion/models/ldm/ 
  -v $HOME /.cache:/home/dalle/.cache 
  --gpus all 
  jinaai/dalle-flow

Вы должны увидеть экран, как после запуска:

Обратите внимание, что, в отличие от бега, бег внутри Docker может дать менее яркий ProgressBar, цветные журналы и отпечатки. Это связано с ограничениями терминала в контейнере Docker. Это не влияет на фактическое использование.

Забежать изначально

Запуск изначально требует некоторых ручных шагов, но часто его легче отладить.

Клон репо

mkdir dalle && cd dalle
git clone https://github.com/jina-ai/dalle-flow.git
git clone https://github.com/jina-ai/SwinIR.git
git clone --branch v0.0.15 https://github.com/AmericanPresidentJimmyCarter/stable-diffusion.git
git clone https://github.com/CompVis/latent-diffusion.git
git clone https://github.com/jina-ai/glid-3-xl.git
git clone https://github.com/timojl/clipseg.git

У вас должна быть следующая структура папок:

 dalle/
 |
 |-- Real-ESRGAN/
 |-- SwinIR/
 |-- clipseg/
 |-- dalle-flow/
 |-- glid-3-xl/
 |-- latent-diffusion/
 |-- stable-diffusion/

Установите вспомогательные репо

 cd dalle-flow
python3 -m virtualenv env
source env/bin/activate && cd -
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116
pip install numpy tqdm pytorch_lightning einops numpy omegaconf
pip install https://github.com/crowsonkb/k-diffusion/archive/master.zip
pip install git+https://github.com/AmericanPresidentJimmyCarter/[email protected]
pip install basicsr facexlib gfpgan
pip install realesrgan
pip install https://github.com/AmericanPresidentJimmyCarter/xformers-builds/raw/master/cu116/xformers-0.0.14.dev0-cp310-cp310-linux_x86_64.whl && 
cd latent-diffusion && pip install -e . && cd -
cd stable-diffusion && pip install -e . && cd -
cd SwinIR && pip install -e . && cd -
cd glid-3-xl && pip install -e . && cd -
cd clipseg && pip install -e . && cd -

Есть пара моделей, которые нам нужно загрузить для Glid-3-XL, если вы используете это:

 cd glid-3-xl
wget https://dall-3.com/models/glid-3-xl/bert.pt
wget https://dall-3.com/models/glid-3-xl/kl-f8.pt
wget https://dall-3.com/models/glid-3-xl/finetune.pt
cd -

И clipseg , и RealESRGAN требуют, чтобы вы установили правильный путь папки кеша, обычно что -то вроде $ home/.

Установить поток

 cd dalle-flow
pip install -r requirements.txt
pip install jax~=0.3.24

Запустить сервер

Теперь вы находитесь под dalle-flow/ , запустите следующую команду:

 # Optionally disable some generative models with the following flags when
# using flow_parser.py:
# --disable-dalle-mega
# --disable-glid3xl
# --disable-swinir
# --enable-stable-diffusion
python flow_parser.py
jina flow --uses flow.tmp.yml

Вы должны немедленно увидеть этот экран:

При первом старте потребуется ~ 8 минут для загрузки Dall · E Mega Model и других необходимых моделей. Работа запуска должно занять всего ~ 1 минуту, чтобы достичь сообщения успеха.

Когда все будет готово, вы увидите:

Поздравляю! Теперь вы должны иметь возможность запустить клиента.

Вы можете изменить и расширить поток сервера, как вам нравится, например, изменяя модель, добавляя постоянство или даже авто-публикацию в Instagram/Opensea. С Jina и Docarray вы можете легко сделать Dall · E Flow Cloud Contination и готовым к производству.

Используйте клип как сервис

Чтобы уменьшить использование VRAM, вы можете использовать CLIP-as-service в качестве внешнего исполнителя, свободно доступного по grpcs://api.clip.jina.ai:2096 .
Во -первых, убедитесь, что вы создали токен доступа с веб -сайта Console или CLI в следующем

jina auth token create < name of PAT > -e < expiration days >

Затем вам необходимо изменить конфигурации, связанные с исполнителем ( host , port , external , tls и grpc_metadata ) с flow.yml .

...
  - name : clip_encoder
    uses : jinahub+docker://CLIPTorchEncoder/latest-gpu
    host : ' api.clip.jina.ai '
    port : 2096
    tls : true
    external : true
    grpc_metadata :
      authorization : " <your access token> "
    needs : [gateway]
...
  - name : rerank
    uses : jinahub+docker://CLIPTorchEncoder/latest-gpu
    host : ' api.clip.jina.ai '
    port : 2096
    uses_requests :
      ' / ' : rank
    tls : true
    external : true
    grpc_metadata :
      authorization : " <your access token> "
    needs : [dalle, diffusion]

Вы также можете использовать flow_parser.py для автоматического генерации и запуска потока с использованием CLIP-as-service в качестве внешнего исполнителя:

python flow_parser.py --cas-token " <your access token>'
jina flow --uses flow.tmp.yml

️ grpc_metadata доступна только после Jina v3.11.0 . Если вы используете более старую версию, пожалуйста, обновите до последней версии.

Теперь вы можете использовать бесплатный CLIP-as-service в своем потоке.

Поддерживать

Чтобы расширить Dall · E Flow, вам нужно будет познакомиться с Джиной и Докарреем.
Присоединяйтесь к нашему сообществу Discord и поговорите с другими членами сообщества об идеях.
Присоединяйтесь к нашей Megniue All Hands Meet-Up, чтобы обсудить ваш вариант использования и изучить новые функции Джины.
- Когда? Второй вторник каждого месяца
- Где? Zoom (см. Наш общественный календарь/.ical) и живой поток на YouTube
Подпишитесь на последние видеоуроки на нашем канале YouTube

Присоединяйтесь к нам

Dall · E Flow поддерживается Jina AI и лицензируется в соответствии с Apache-2.0. Мы активно нанимаем инженеров ИИ, инженеров из решений для создания следующей нейронной поисковой экосистемы в открытом исходном коде.

Расширять