dalle flow Download - dalle flow Source Code Download

Dall · E Fluxo: Um fluxo de trabalho humano no loop para criar imagens em HD a partir de texto
Um humano no loop ^? fluxo de trabalho para criar imagens em HD a partir de texto

Dall · e o fluxo é um fluxo de trabalho interativo para gerar imagens de alta definição a partir do prompt de texto. Primeiro, ele aproveita Dall · E-MEGA, GLID-3 XL e difusão estável para gerar candidatos a imagem e, em seguida, chama o clipe como serviço para classificar os candidatos e o prompt. O candidato preferido é alimentado ao Glid-3 XL para difusão, que geralmente enriquece a textura e o fundo. Finalmente, o candidato é subsídio para 1024x1024 via Swinir.

O fluxo Dall · E é construído com Jina em uma arquitetura cliente-servidor, que oferece alta escalabilidade, streaming sem bloqueio e uma interface pitônica moderna. O cliente pode interagir com o servidor via GRPC/WebSocket/HTTP com TLS.

Por que humano no loop? A arte generativa é um processo criativo. Enquanto os recentes avanços de Dall · E liberam a criatividade das pessoas, ter um UX/UI de saída único de saída bloqueia a imaginação em uma única possibilidade, o que é ruim, por melhor que seja esse resultado único. Dall · e o fluxo é uma alternativa à linha, formalizando a arte generativa como um procedimento iterativo.

Uso

Dall · e o fluxo está na arquitetura cliente-servidor.

Uso do cliente
Uso do servidor, ou seja, implante seu próprio servidor

Atualizações

? 2022/10/27 Upscalers Realesrgan foram adicionados.
️ 2022/10/26 Para usar o clip-as-service disponível em grpcs://api.clip.jina.ai:2096 (requer jina >= v3.11.0 ), você precisa primeiro obter um token de acesso daqui. Consulte Use o clipe como serviço para obter mais detalhes.
? 2022/9/25 A segmentação automatizada baseada em clipe de um prompt foi adicionada.
? 2022/8/17 O texto para a imagem para difusão estável foi adicionado. Para usá -lo, você precisará concordar com os TOs, baixar os pesos e ativar o sinalizador em Docker ou flow_parser.py .
️ 2022/8/8 começou a usar o clipe-as-service como executor externo. Agora você pode implantar facilmente seu próprio executor de clipes, se quiser. Há uma pequena mudança de ruptura como resultado dessa melhoria; portanto, reabrir o notebook no Google Colab.
️ 2022/7/6 Migração do servidor de demonstração para a AWS EKS Para uma melhor disponibilidade e robustez, o URL do servidor agora está mudando para grpcs://dalle-flow.dev.jina.ai . Todas as conexões estão agora com a criptografia TLS, reabrir o notebook no Google Colab.
️ 2022/6/25 Tempo de inatividade inesperado entre 6/25 0:00 - 12:00 CET devido às cotas de GPU. O novo servidor agora possui 2 GPUs, adicione o HealthCheck no Notebook Client.
2022/6/3 Reduza o número padrão de imagens para 2 por via, 4 para difusão.
? 2022/6/21 Uma imagem pré -edificada está agora disponível no Docker Hub! Esta imagem pode ser executada para fora da caixa no CUDA 11.6. Corrija um bug a montante no clipe como serviço.
️ 2022/5/23 Corrija um bug a montante no clipe-AS Service. Este bug torna a 2ª etapa de difusão irrelevante para os textos fornecidos. O novo DockerFile provou ser reproduzível em uma instância do AWS EC2 p2.x8large .
2022/5/13b A remoção do TLS como CloudFlare oferece tempo de tempo de 100 anos, tornando o fluxo de Dalle em utilizável, reabrir o notebook no Google Colab!.
? 2022/5/13 Novo mega ponto de verificação! Todas as conexões estão agora com o TLS, reabrir o notebook no Google Colab!.
? 2022/5/10 Um Dockerfile é adicionado! Agora você pode implantar facilmente seu próprio fluxo. Novo mega ponto de verificação! F-Footprint menor, todo o fluxo agora pode se encaixar em uma GPU com memória de 21 GB .
? 2022/5/7 Novo mega ponto de verificação e otimização múltipla no GLID3: Menos FOOTPRINT, use ViT-L/14@336px do Clip-As-Service, steps 100->200 .
? 2022/5/6 Dall · E o fluxo acabou de ser atualizado! Reabrir o notebook no Google Colab!
- Revisou o primeiro passo: 16 candidatos são gerados, 8 de Dall · E Mega, 8 de Glid3-XL; então classificado por clipe como serviço.
- Melhorou a eficiência do fluxo: a velocidade geral, incluindo difusão e upscaling, é muito mais rápida agora!

Galeria

a realistic photo of a muddy dog A scientist comparing apples and oranges, by Norman Rockwell an oil painting portrait of the regal Burger King posing with a Whopper Eternal clock powered by a human cranium, artstation another planet amazing landscape The Decline and Fall of the Roman Empire board game kickstarter A raccoon astronaut with the cosmos reflecting on the glass of his helmet dreaming of the stars, digital art A photograph of an apple that is a disco ball, 85 mm lens, studio lighting a cubism painting Donald trump happy cyberpunk oil painting of a hamster drinking tea outside Colossus of Rhodes by Max Ernst landscape with great castle in middle of forest an medieval oil painting of Kanye west feels satisfied while playing chess in the style of Expressionism An oil pastel painting of an annoyed cat in a spaceship dinosaurs at the brink of a nuclear disaster fantasy landscape with medieval city GPU chip in the form of an avocado, digital art a giant rubber duck in the ocean Paddington bear as austrian emperor in antique black & white photography a rainy night with a superhero perched above a city, in the style of a comic book A synthwave style sunset above the reflecting water of the sea, digital art an oil painting of ocean beach front in the style of Titian an oil painting of Klingon general in the style of Rubens city, top view, cyberpunk, digital realistic art an oil painting of a medieval cyborg automaton made of magic parts and old steampunk mechanics a watercolour painting of a top view of a pirate ship sailing on the clouds a knight made of beautiful flowers and fruits by Rachel ruysch in the style of Syd brak a 3D render of a rainbow colored hot air balloon flying above a reflective lake a teddy bear on a skateboard in Times Square cozy bedroom at night an oil painting of monkey using computer the diagram of a search machine invented by Leonardo da Vinci A stained glass window of toucans in outer space a campfire in the woods at night with the milky-way galaxy in the sky Bionic killer robot made of AI scarab beetles The Hanging Gardens of Babylon in the middle of a city, in the style of Dalí painting oil of Izhevsk a hyper realistic photo of a marshmallow office chair fantasy landscape with city ocean beach front view in Van Gogh style An oil painting of a family reunited inside of an airport, digital art antique photo of a knight riding a T-Rex a top view of a pirate ship sailing on the clouds an oil painting of a humanoid robot playing chess in the style of Matisse a cubism painting of a cat dressed as French emperor Napoleon a husky dog wearing a hat with sunglasses A mystical castle appears between the clouds in the style of Vincent di Fate golden gucci airpods realistic photo

Cliente

Usar o cliente é super fácil. As etapas a seguir são melhor executadas no Jupyter Notebook ou Google Colab.

Você precisará instalar DocArray e Jina primeiro:

pip install " docarray[common]>=0.13.5 " jina

Fornecemos um servidor de demonstração para você jogar:

️ Devido às solicitações massivas, nosso servidor pode ser atrasado em resposta. No entanto, estamos muito confiantes em manter o tempo de atividade alto. Você também pode implantar seu próprio servidor seguindo a instrução aqui.

 server_url = 'grpcs://dalle-flow.dev.jina.ai'

Etapa 1: gerar via dall · e mega

Agora vamos definir o prompt:

 prompt = 'an oil painting of a humanoid robot playing chess in the style of Matisse'

Vamos enviá -lo ao servidor e visualizar os resultados:

 from docarray import Document

doc = Document ( text = prompt ). post ( server_url , parameters = { 'num_images' : 8 })
da = doc . matches

da . plot_image_sprites ( fig_size = ( 10 , 10 ), show_index = True )

Aqui, geramos 24 candidatos, 8 de Dalle-Mega, 8 de Glid3 XL e 8 da difusão estável, isso é definido em num_images , que leva cerca de ~ 2 minutos. Você pode usar um valor menor se for muito longo para você.

Etapa 2: Selecione e refinamento via Glid3 XL

Os 24 candidatos são classificados por clipe como serviço, com o índice 0 como o melhor candidato julgado pelo clipe. Claro, você pode pensar de maneira diferente. Observe o número no canto superior esquerdo? Selecione o que você mais gosta e obtenha uma visão melhor:

 fav_id = 3
fav = da [ fav_id ]
fav . embedding = doc . embedding
fav . display ()

Agora vamos enviar os candidatos selecionados ao servidor para difusão.

 diffused = fav . post ( f' { server_url } ' , parameters = { 'skip_rate' : 0.5 , 'num_images' : 36 }, target_executor = 'diffusion' ). matches

diffused . plot_image_sprites ( fig_size = ( 10 , 10 ), show_index = True )

Isso fornecerá 36 imagens com base na imagem selecionada. Você pode permitir que o modelo improvise mais, dando skip_rate um valor próximo de zero ou um valor quase um para forçar sua proximidade com a imagem fornecida. Todo o procedimento leva cerca de ~ 2 minutos.

Etapa 3: Selecione e sofisticar via Swinir

Selecione a imagem que você mais gosta e dê uma olhada mais de perto:

 dfav_id = 34
fav = diffused [ dfav_id ]
fav . display ()

Finalmente, envie ao servidor para a última etapa: Upscaling para 1024 x 1024px.

 fav = fav . post ( f' { server_url } /upscale' )
fav . display ()

É isso! É o único . Se não estiver satisfeito, repita o procedimento.

BTW, o DocArray é uma estrutura de dados poderosa e fácil de usar para dados não estruturados. É super produtivo para os cientistas de dados que trabalham em domínio cruzado/multimodal. Para saber mais sobre o DocArray, consulte os documentos.

Servidor

Você pode hospedar seu próprio servidor seguindo as instruções abaixo.

Requisitos de hardware

Dall · e o fluxo precisa de uma GPU com VRAM de 21 GB em seu pico. Todos os serviços são espremidos nesta GPU, isso inclui (aproximadamente)

Dalle ~ 9GB
Difusão plana ~ 6 GB
Difusão estável ~ 8 GB (batch_size = 4 em config.yml , 512x512)
Swinir ~ 3GB
CLIP VIT-L/14-336PX ~ 3GB

Os seguintes truques razoáveis podem ser usados para reduzir ainda mais o VRAM:

Swinir pode ser movido para a CPU (-3 GB)
O clipe pode ser delegado ao servidor gratuito de clipe como serviço (-3 GB)

Requer pelo menos 50 GB de espaço livre no disco rígido, principalmente para baixar modelos pré -tenhados.

A Internet de alta velocidade é necessária. A Internet lenta/instável pode lançar um tempo limite frustrante ao baixar modelos.

O ambiente somente CPU não é testado e provavelmente não funcionará. O Google Colab provavelmente está jogando oom, portanto, também não funcionará.

Arquitetura do servidor

Se você instalou Jina, o fluxograma acima pode ser gerado via:

 # pip install jina
jina export flowchart flow.yml flow.svg

Pesos de difusão estável

Se você deseja usar difusão estável, primeiro precisará registrar uma conta no site Huggingface e concordar com os termos e condições do modelo. Depois de fazer login, você pode encontrar a versão do modelo exigido por aqui:

Compvis / SD-V1-5-Inpainting.ckpt

Sob a seção Download na seção de pesos , clique no link para sd-v1-x.ckpt . Os pesos mais recentes no momento da redação são sd-v1-5.ckpt .

Usuários do Docker : Coloque esse arquivo em uma pasta chamada ldm/stable-diffusion-v1 e renomeie It model.ckpt . Siga as instruções abaixo com cuidado porque o SD não está ativado por padrão.

Usuários nativos : Coloque esse arquivo em dalle/stable-diffusion/models/ldm/stable-diffusion-v1/model.ckpt depois de terminar o restante das etapas em "Run Native". Siga as instruções abaixo com cuidado porque o SD não está ativado por padrão.

Corra em Docker

Imagem pré -edificada

Fornecemos uma imagem do Docker pré -construída que pode ser puxada diretamente.

docker pull jinaai/dalle-flow:latest

Construa você mesmo

Fornecemos um Dockerfile que permite executar um servidor pronta para uso.

Nosso DockerFile está usando o CUDA 11.6 Como imagem base, você pode ajustá -lo de acordo com o seu sistema.

git clone https://github.com/jina-ai/dalle-flow.git
cd dalle-flow

docker build --build-arg GROUP_ID= $( id -g ${USER} ) --build-arg USER_ID= $( id -u ${USER} ) -t jinaai/dalle-flow .

O edifício levará 10 minutos com a velocidade média da Internet, o que resulta em uma imagem do Docker de 18 GB.

Execute o contêiner

Para executá -lo, simplesmente faça:

docker run -p 51005:51005 
  -it 
  -v $HOME /.cache:/home/dalle/.cache 
  --gpus all 
  jinaai/dalle-flow

Como alternativa, você também pode ser executado com alguns fluxos de trabalho ativados ou desativados para evitar falhas fora da memória. Para fazer isso, passe uma dessas variáveis ambientais:

 DISABLE_DALLE_MEGA
DISABLE_GLID3XL
DISABLE_SWINIR
ENABLE_STABLE_DIFFUSION
ENABLE_CLIPSEG
ENABLE_REALESRGAN

Por exemplo, se você deseja desativar os fluxos de trabalho GLID3XL, execute:

docker run -e DISABLE_GLID3XL= ' 1 ' 
  -p 51005:51005 
  -it 
  -v $HOME /.cache:/home/dalle/.cache 
  --gpus all 
  jinaai/dalle-flow

A primeira corrida levará ~ 10 minutos com velocidade média da Internet.
-v $HOME/.cache:/root/.cache evita o download de modelo repetido em todas as execuções do Docker.
A primeira parte do -p 51005:51005 é o seu porto público host. Certifique -se de que as pessoas possam acessar esta porta se você estiver servindo publicamente. O segundo par é a porta definida no fluxo.yml.
Se você deseja usar difusão estável, ela deve ser ativada manualmente com o ENABLE_STABLE_DIFFUSION .
Se você deseja usar o clipseg, ele deve ser ativado manualmente com o ENABLE_CLIPSEG .
Se você deseja usar o Realesrgan, ele deve ser ativado manualmente com o ENABLE_REALESRGAN .

Instruções especiais para difusão estável e docker

A difusão estável só pode ser ativada se você baixar os pesos e disponibilizá -los como um volume virtual enquanto habilita o sinalizador ambiental ( ENABLE_STABLE_DIFFUSION ) para SD .

Você deveria ter colocado os pesos anteriormente em uma pasta chamada ldm/stable-diffusion-v1 e rotulada para model.ckpt . Substitua YOUR_MODEL_PATH/ldm abaixo pelo caminho em seu próprio sistema para colocar os pesos na imagem do Docker.

docker run -e ENABLE_STABLE_DIFFUSION= " 1 " 
  -e DISABLE_DALLE_MEGA= " 1 " 
  -e DISABLE_GLID3XL= " 1 " 
  -p 51005:51005 
  -it 
  -v YOUR_MODEL_PATH/ldm:/dalle/stable-diffusion/models/ldm/ 
  -v $HOME /.cache:/home/dalle/.cache 
  --gpus all 
  jinaai/dalle-flow

Você deve ver a tela como seguir uma vez em execução:

Observe que, diferentemente da execução de nativamente, a execução dentro do Docker pode fornecer uma barra de progresso menos vívida, toras de cores e impressões. Isso se deve às limitações do terminal em um recipiente do docker. Não afeta o uso real.

Correr nativamente

A execução nativamente requer algumas etapas manuais, mas geralmente é mais fácil depurar.

Repositórios de clone

mkdir dalle && cd dalle
git clone https://github.com/jina-ai/dalle-flow.git
git clone https://github.com/jina-ai/SwinIR.git
git clone --branch v0.0.15 https://github.com/AmericanPresidentJimmyCarter/stable-diffusion.git
git clone https://github.com/CompVis/latent-diffusion.git
git clone https://github.com/jina-ai/glid-3-xl.git
git clone https://github.com/timojl/clipseg.git

Você deve ter a seguinte estrutura de pastas:

 dalle/
 |
 |-- Real-ESRGAN/
 |-- SwinIR/
 |-- clipseg/
 |-- dalle-flow/
 |-- glid-3-xl/
 |-- latent-diffusion/
 |-- stable-diffusion/

Instale repositórios auxiliares

 cd dalle-flow
python3 -m virtualenv env
source env/bin/activate && cd -
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116
pip install numpy tqdm pytorch_lightning einops numpy omegaconf
pip install https://github.com/crowsonkb/k-diffusion/archive/master.zip
pip install git+https://github.com/AmericanPresidentJimmyCarter/[email protected]
pip install basicsr facexlib gfpgan
pip install realesrgan
pip install https://github.com/AmericanPresidentJimmyCarter/xformers-builds/raw/master/cu116/xformers-0.0.14.dev0-cp310-cp310-linux_x86_64.whl && 
cd latent-diffusion && pip install -e . && cd -
cd stable-diffusion && pip install -e . && cd -
cd SwinIR && pip install -e . && cd -
cd glid-3-xl && pip install -e . && cd -
cd clipseg && pip install -e . && cd -

Existem casais modelos que precisamos baixar para Glid-3-XL se você estiver usando isso:

 cd glid-3-xl
wget https://dall-3.com/models/glid-3-xl/bert.pt
wget https://dall-3.com/models/glid-3-xl/kl-f8.pt
wget https://dall-3.com/models/glid-3-xl/finetune.pt
cd -

clipseg e RealESRGAN exigem que você defina um caminho de pasta de cache correto, normalmente algo como $ home/.

Instale o fluxo

 cd dalle-flow
pip install -r requirements.txt
pip install jax~=0.3.24

Inicie o servidor

Agora você está sob dalle-flow/ , execute o seguinte comando:

 # Optionally disable some generative models with the following flags when
# using flow_parser.py:
# --disable-dalle-mega
# --disable-glid3xl
# --disable-swinir
# --enable-stable-diffusion
python flow_parser.py
jina flow --uses flow.tmp.yml

Você deve ver esta tela imediatamente:

Na primeira partida, levará ~ 8 minutos para baixar o modelo Dall · E mega e outros modelos necessários. As execuções do processo devem levar apenas 1 minuto para alcançar a mensagem de sucesso.

Quando tudo estiver pronto, você verá:

Parabéns! Agora você deve ser capaz de executar o cliente.

Você pode modificar e estender o fluxo do servidor como desejar, por exemplo, alterando o modelo, adicionando persistência ou até mesmo para o Instagram/OpenSea. Com Jina e DocArray, você pode facilmente tornar o fluxo nativo da nuvem de fluxo e pronto para a produção.

Use o clipe como serviço

Para reduzir o uso do VRAM, você pode usar o CLIP-as-service como um executor externo disponível livremente em grpcs://api.clip.jina.ai:2096 .
Primeiro, verifique se você criou um token de acesso no site do console, ou CLI como seguinte

jina auth token create < name of PAT > -e < expiration days >

Em seguida, você precisa alterar as configurações relacionadas ao Executor ( host , port , external , tls e grpc_metadata ) do flow.yml .

...
  - name : clip_encoder
    uses : jinahub+docker://CLIPTorchEncoder/latest-gpu
    host : ' api.clip.jina.ai '
    port : 2096
    tls : true
    external : true
    grpc_metadata :
      authorization : " <your access token> "
    needs : [gateway]
...
  - name : rerank
    uses : jinahub+docker://CLIPTorchEncoder/latest-gpu
    host : ' api.clip.jina.ai '
    port : 2096
    uses_requests :
      ' / ' : rank
    tls : true
    external : true
    grpc_metadata :
      authorization : " <your access token> "
    needs : [dalle, diffusion]

Você também pode usar o flow_parser.py para gerar e executar automaticamente o fluxo com o uso do CLIP-as-service como executor externo:

python flow_parser.py --cas-token " <your access token>'
jina flow --uses flow.tmp.yml

️ grpc_metadata está disponível apenas após Jina v3.11.0 . Se você estiver usando uma versão mais antiga, atualize para a versão mais recente.

Agora, você pode usar o CLIP-as-service gratuito em seu fluxo.

Apoiar

Para estender o fluxo de Dall · e, você precisará se familiarizar com Jina e Docarray.
Junte -se à nossa comunidade Discord e converse com outros membros da comunidade sobre idéias.
Junte-se à nossa engenharia All Hands Meet-Up para discutir seu caso de uso e aprender os novos recursos de Jina.
- Quando? A segunda terça -feira de cada mês
- Onde? Zoom (veja nosso calendário de eventos públicos/.ical) e transmissão ao vivo no YouTube
Inscreva -se nos últimos tutoriais em vídeo em nosso canal do YouTube

Junte-se a nós

O fluxo Dall · E é apoiado por Jina AI e licenciado no Apache-2.0. Estamos contratando ativamente engenheiros de IA, engenheiros de solução para construir o próximo ecossistema de busca neural em código aberto.

Expandir