dalle flowダウンロード-Dalle dalle flowソースコードのダウンロード

Dall・E Flow：テキストからHD画像を作成するための人間のループワークフロー
ループの人間^？テキストからHD画像を作成するためのワークフロー

Dall・E Flowは、テキストプロンプトから高解像度画像を生成するためのインタラクティブなワークフローです。まず、Dall・e-mega、Glid-3 XL、および安定した拡散を活用して画像候補を生成し、クリップとしてサービスを呼び出して候補者にプロンプトをランク付けします。好ましい候補は、拡散のためにGlid-3 XLに供給され、テクスチャと背景を豊かにすることがよくあります。最後に、候補者はスウィニールを介して1024x1024に上昇します。

DALL・E Flowは、クライアントサーバーアーキテクチャのJinaで構築されており、高いスケーラビリティ、非ブロッキングストリーミング、最新のPythonicインターフェイスを提供します。クライアントは、TLSを使用してGRPC/WebSocket/HTTPを介してサーバーと対話できます。

なぜ人間のループ？生成アートは創造的なプロセスです。 Dall・eの最近の進歩は人々の創造性を解き放ちますが、シングルプロンプトシングル出力UX/UIを持つことで、想像力が単一の可能性にロックされますが、この単一の結果がどれほど素晴らしいかに関係なく悪いです。 Dall・E Flowは、生成アートを反復手順として形式化することにより、1ライナーの代替です。

使用法

Dall・E Flowは、クライアントサーバーアーキテクチャにあります。

クライアントの使用
サーバーの使用法、つまり、独自のサーバーを展開します

更新

？ 2022/10/27 Realesrgan Upscalersが追加されました。
ショ和2022/10/26 grpcs://api.clip.jina.ai:2096 （ jina >= v3.11.0が必要）で利用可能なクリップとしてのクリップとして使用するには、最初にアクセストークンを入手する必要があります。詳細については、サービスとしてのクリップとしての使用を参照してください。
？ 2022/9/25プロンプトからの自動クリップベースのセグメンテーションが追加されました。
？ 2022/8/17安定した拡散のための画像へのテキストが追加されました。それを使用するには、TOSに同意し、ウェイトをダウンロードし、Dockerまたはflow_parser.pyでフラグを有効にする必要があります。
ショ和2022/8/8は、外部の執行者としてClip-As-Serviceの使用を開始しました。必要に応じて、独自のクリップエグゼキューターを簡単に展開できます。この改善の結果、わずかな壊れた変化がありますので、Google Colabのノートブックを再開してください。
ショ和2022/7/6 Demo Serverへの移行AWS EKSへの移行は、より良い可用性と堅牢性のために、 grpcs://dalle-flow.dev.jina.aiに変化しています。すべての接続はTLS暗号化を使用しています。GoogleColabのノートブックを再開してください。
ショ和2022/6/25 6/25の間の予期しないダウンタイム0:00-12：00 GPUクォータのために。新しいサーバーには2つのGPUがあり、クライアントノートブックにHealthCheckを追加します。
2022/6/3画像のデフォルト数を経路あたり2に減らし、拡散の場合は4を減らします。
？ 2022/6/21 Docker Hubで事前に構築された画像が利用可能になりました！この画像は、CUDA 11.6ですぐに実行できます。サービスとしてのクリップで上流のバグを修正します。
ショ和2022/5/23サービスとしてのクリップで上流のバグを修正します。このバグにより、2番目の拡散ステップが与えられたテキストとは無関係になります。新しいDockerfileは、AWS EC2 p2.x8largeインスタンスで再現可能であることが証明されました。
2022/5/13B CloudFlareが100のタイムアウトを提供する際にTLSを削除し、Dalle Flowを使用してGoogle Colabでノートブックを再開してください！。
？ 2022/5/13新しいメガチェックポイント！すべての接続はTLSにあります。GoogleColabのノートブックを再開してください。
？ 2022/5/10 DockerFileが追加されました！これで、独自のドールフローを簡単に展開できます。新しいメガチェックポイント！メモリフットプリントが小さいため、フロー全体が21GBのメモリを備えた1つのGPUに収まるようになりました。
？ 2022/5/7 GLID3での新しいMegaチェックポイントと複数の最適化：メモリフットプリントの減少、 ViT-L/14@336pxを使用してサービスとして使用します。 steps 100->200 。
？ 2022/5/6 Dall・E Flowが更新されました！ Google Colabのノートブックを再開してください！
- 最初のステップを改訂しました：16人の候補者が生成され、8人はDall・E Megaから、8人はGlid3-XLから。その後、クリップとしてのサービスでランク付けされます。
- 流れの効率を改善しました。拡散やアップスケーリングを含む全体的な速度は、今でははるかに高速です！

ギャラリー

a realistic photo of a muddy dog A scientist comparing apples and oranges, by Norman Rockwell an oil painting portrait of the regal Burger King posing with a Whopper Eternal clock powered by a human cranium, artstation another planet amazing landscape The Decline and Fall of the Roman Empire board game kickstarter A raccoon astronaut with the cosmos reflecting on the glass of his helmet dreaming of the stars, digital art A photograph of an apple that is a disco ball, 85 mm lens, studio lighting a cubism painting Donald trump happy cyberpunk oil painting of a hamster drinking tea outside Colossus of Rhodes by Max Ernst landscape with great castle in middle of forest an medieval oil painting of Kanye west feels satisfied while playing chess in the style of Expressionism An oil pastel painting of an annoyed cat in a spaceship dinosaurs at the brink of a nuclear disaster fantasy landscape with medieval city GPU chip in the form of an avocado, digital art a giant rubber duck in the ocean Paddington bear as austrian emperor in antique black & white photography a rainy night with a superhero perched above a city, in the style of a comic book A synthwave style sunset above the reflecting water of the sea, digital art an oil painting of ocean beach front in the style of Titian an oil painting of Klingon general in the style of Rubens city, top view, cyberpunk, digital realistic art an oil painting of a medieval cyborg automaton made of magic parts and old steampunk mechanics a watercolour painting of a top view of a pirate ship sailing on the clouds a knight made of beautiful flowers and fruits by Rachel ruysch in the style of Syd brak a 3D render of a rainbow colored hot air balloon flying above a reflective lake a teddy bear on a skateboard in Times Square cozy bedroom at night an oil painting of monkey using computer the diagram of a search machine invented by Leonardo da Vinci A stained glass window of toucans in outer space a campfire in the woods at night with the milky-way galaxy in the sky Bionic killer robot made of AI scarab beetles The Hanging Gardens of Babylon in the middle of a city, in the style of Dalí painting oil of Izhevsk a hyper realistic photo of a marshmallow office chair fantasy landscape with city ocean beach front view in Van Gogh style An oil painting of a family reunited inside of an airport, digital art antique photo of a knight riding a T-Rex a top view of a pirate ship sailing on the clouds an oil painting of a humanoid robot playing chess in the style of Matisse a cubism painting of a cat dressed as French emperor Napoleon a husky dog wearing a hat with sunglasses A mystical castle appears between the clouds in the style of Vincent di Fate golden gucci airpods realistic photo

クライアント

クライアントの使用は非常に簡単です。次の手順は、JupyterノートブックまたはGoogle Colabで最もよく実行されます。

最初にDocarrayとJinaをインストールする必要があります：

pip install " docarray[common]>=0.13.5 " jina

プレイできるデモサーバーを提供しました。

ショ和大規模なリクエストにより、サーバーはそれに応じて遅れている可能性があります。しかし、私たちは稼働時間を高く保つことに非常に自信があります。ここで命令に従って独自のサーバーを展開することもできます。

 server_url = 'grpcs://dalle-flow.dev.jina.ai'

ステップ1：Dall・E Mega経由で生成します

次に、プロンプトを定義しましょう。

 prompt = 'an oil painting of a humanoid robot playing chess in the style of Matisse'

サーバーに送信して、結果を視覚化しましょう。

 from docarray import Document

doc = Document ( text = prompt ). post ( server_url , parameters = { 'num_images' : 8 })
da = doc . matches

da . plot_image_sprites ( fig_size = ( 10 , 10 ), show_index = True )

ここでは、Dalle-Megaから8人、Glid3 XLから8人、安定した拡散から8人の候補者を生成します。これは、約2分かかるnum_imagesで定義されています。長すぎる場合は、より小さな値を使用できます。

ステップ2：Glid3 XLを介して選択と改良

24人の候補者は、Clip-as-Serviceでソートされ、Index 0はClipで判断された最高の候補者として並べ替えられます。もちろん、あなたは違った考え方をするかもしれません。左上隅の番号に注目してください。あなたが一番好きなものを選択し、より良いビューを得る：

 fav_id = 3
fav = da [ fav_id ]
fav . embedding = doc . embedding
fav . display ()

次に、選択した候補者を拡散のためにサーバーに提出しましょう。

 diffused = fav . post ( f' { server_url } ' , parameters = { 'skip_rate' : 0.5 , 'num_images' : 36 }, target_executor = 'diffusion' ). matches

diffused . plot_image_sprites ( fig_size = ( 10 , 10 ), show_index = True )

これにより、選択した画像に基づいて36の画像が表示されます。 skip_rateゼロ近くの値、または指定された画像に近さを強制するために、よりゼロの値、または近い値を与えることにより、モデルがより即興でできるようにすることができます。手順全体に約2分かかります。

ステップ3：Swinir経由で選択して上向き

あなたが一番好きな画像を選択し、それをよく見てください：

 dfav_id = 34
fav = diffused [ dfav_id ]
fav . display ()

最後に、最後のステップでサーバーに送信します：1024 x 1024pxへのアップスケーリング。

 fav = fav . post ( f' { server_url } /upscale' )
fav . display ()

それでおしまい！それは1つです。満足していない場合は、手順を繰り返してください。

ところで、Docarrayは、構造化されていないデータの強力で使いやすいデータ構造です。クロス/マルチモーダルドメインで働くデータサイエンティストにとって非常に生産的です。 Docarrayの詳細については、ドキュメントをご覧ください。

サーバ

以下の命令に従って、独自のサーバーをホストできます。

ハードウェア要件

DALL・E Flowには、ピーク時に21GB VRAMを備えた1つのGPUが必要です。すべてのサービスはこの1つのGPUに絞り込まれます。これには（おおよそ）が含まれます

ダレ〜9GB
グリッド拡散〜6GB
安定した拡散〜8GB（batch_size = 4 in config.yml 、512x512）
スウィニール〜3GB
Clip VIT-L/14-336PX〜3GB

次の合理的なトリックを使用して、VRAMをさらに減らすために使用できます。

スウィニールはCPU（-3GB）に移動できます
クリップは、クリップとしてサービスとして無料のサーバー（-3GB）に委任できます

ハードドライブには、主に優先モデルをダウンロードするために、少なくとも50GBの空きスペースが必要です。

高速インターネットが必要です。遅い/不安定なインターネットは、モデルをダウンロードするときにイライラするタイムアウトを投げる可能性があります。

CPUのみの環境はテストされておらず、おそらく機能しない可能性があります。 Google ColabはOOMを投げている可能性が高いため、機能しません。

サーバーアーキテクチャ

Jinaをインストールした場合、上記のフローチャートを経由して生成できます。

 # pip install jina
jina export flowchart flow.yml flow.svg

安定した拡散重量

安定した拡散を使用する場合は、まずWebサイトのHuggingFaceにアカウントを登録し、モデルの利用規約に同意する必要があります。ログインした後、ここに行くことで必要なモデルのバージョンを見つけることができます。

compvis / sd-v1-5-inpainting.ckpt

ダウンロードThe Weightsセクションでは、 sd-v1-x.ckptのリンクをクリックします。執筆時点の最新の重みはsd-v1-5.ckptです。

Dockerユーザー：このファイルをldm/stable-diffusion-v1という名前のフォルダーに入れ、IT model.ckpt名前を変更します。デフォルトではSDが有効になっていないため、以下の指示に注意してください。

ネイティブユーザー：このファイルをdalle/stable-diffusion/models/ldm/stable-diffusion-v1/model.ckptに、「Natively」の下で残りのステップを終了した後。デフォルトではSDが有効になっていないため、以下の指示に注意してください。

Dockerで実行します

事前に構築された画像

直接引くことができる事前に構築されたDocker画像を提供しました。

docker pull jinaai/dalle-flow:latest

自分でそれを構築します

箱から出してサーバーを実行できるDockerFileを提供しました。

私たちのDockerFileは、CUDA 11.6をベース画像として使用しています。システムに従って調整することができます。

git clone https://github.com/jina-ai/dalle-flow.git
cd dalle-flow

docker build --build-arg GROUP_ID= $( id -g ${USER} ) --build-arg USER_ID= $( id -u ${USER} ) -t jinaai/dalle-flow .

建物の平均インターネット速度で10分かかり、18GBのDocker画像が発生します。

コンテナを実行します

それを実行するには、単に実行します：

docker run -p 51005:51005 
  -it 
  -v $HOME /.cache:/home/dalle/.cache 
  --gpus all 
  jinaai/dalle-flow

または、いくつかのワークフローを有効または無効にして実行して、メモリ外のクラッシュを防ぐこともできます。それを行うには、これらの環境変数の1つを渡します。

 DISABLE_DALLE_MEGA
DISABLE_GLID3XL
DISABLE_SWINIR
ENABLE_STABLE_DIFFUSION
ENABLE_CLIPSEG
ENABLE_REALESRGAN

たとえば、Glid3XLワークフローを無効にしたい場合は、実行してください。

docker run -e DISABLE_GLID3XL= ' 1 ' 
  -p 51005:51005 
  -it 
  -v $HOME /.cache:/home/dalle/.cache 
  --gpus all 
  jinaai/dalle-flow

最初の実行には、平均インターネット速度で約10分かかります。
-v $HOME/.cache:/root/.cacheすべてのDocker実行で繰り返しモデルのダウンロードを避けます。
-p 51005:51005の最初の部分は、ホストパブリックポートです。あなたが公開している場合は、人々がこのポートにアクセスできることを確認してください。その2番目の額は、flow.ymlで定義されているポートです。
安定した拡散を使用する場合は、 ENABLE_STABLE_DIFFUSIONで手動で有効にする必要があります。
Clipsegを使用する場合は、 ENABLE_CLIPSEGで手動で有効にする必要があります。
Realesrganを使用する場合は、 ENABLE_REALESRGANで手動で有効にする必要があります。

安定した拡散とDockerの特別な指示

SDの環境フラグ（ ENABLE_STABLE_DIFFUSION ）を有効にしながら、重量をダウンロードして仮想ボリュームとして利用できるようにする場合にのみ、安定した拡散を有効にできます。

以前に、重みをldm/stable-diffusion-v1という名前のフォルダーに入れ、 model.ckptをラベル付けする必要がありました。以下のYOUR_MODEL_PATH/ldm独自のシステムのパスに置き換えて、ウェイトをDocker画像にパイプします。

docker run -e ENABLE_STABLE_DIFFUSION= " 1 " 
  -e DISABLE_DALLE_MEGA= " 1 " 
  -e DISABLE_GLID3XL= " 1 " 
  -p 51005:51005 
  -it 
  -v YOUR_MODEL_PATH/ldm:/dalle/stable-diffusion/models/ldm/ 
  -v $HOME /.cache:/home/dalle/.cache 
  --gpus all 
  jinaai/dalle-flow

実行すると、次のような画面が表示されるはずです。

ネイティブに実行するのとは異なり、Docker内で実行すると、鮮明なProgressBar、カラーログ、プリントが少なくなる可能性があります。これは、Dockerコンテナ内の端子の制限によるものです。実際の使用には影響しません。

ネイティブに実行します

ネイティブに実行するには、いくつかの手動の手順が必要ですが、多くの場合、デバッグが簡単です。

クローンレポス

mkdir dalle && cd dalle
git clone https://github.com/jina-ai/dalle-flow.git
git clone https://github.com/jina-ai/SwinIR.git
git clone --branch v0.0.15 https://github.com/AmericanPresidentJimmyCarter/stable-diffusion.git
git clone https://github.com/CompVis/latent-diffusion.git
git clone https://github.com/jina-ai/glid-3-xl.git
git clone https://github.com/timojl/clipseg.git

次のフォルダー構造が必要です。

 dalle/
 |
 |-- Real-ESRGAN/
 |-- SwinIR/
 |-- clipseg/
 |-- dalle-flow/
 |-- glid-3-xl/
 |-- latent-diffusion/
 |-- stable-diffusion/

補助リポジトリをインストールします

 cd dalle-flow
python3 -m virtualenv env
source env/bin/activate && cd -
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116
pip install numpy tqdm pytorch_lightning einops numpy omegaconf
pip install https://github.com/crowsonkb/k-diffusion/archive/master.zip
pip install git+https://github.com/AmericanPresidentJimmyCarter/[email protected]
pip install basicsr facexlib gfpgan
pip install realesrgan
pip install https://github.com/AmericanPresidentJimmyCarter/xformers-builds/raw/master/cu116/xformers-0.0.14.dev0-cp310-cp310-linux_x86_64.whl && 
cd latent-diffusion && pip install -e . && cd -
cd stable-diffusion && pip install -e . && cd -
cd SwinIR && pip install -e . && cd -
cd glid-3-xl && pip install -e . && cd -
cd clipseg && pip install -e . && cd -

Glid-3-XL用にダウンロードする必要があるカップルモデルがあります。

 cd glid-3-xl
wget https://dall-3.com/models/glid-3-xl/bert.pt
wget https://dall-3.com/models/glid-3-xl/kl-f8.pt
wget https://dall-3.com/models/glid-3-xl/finetune.pt
cd -

clipsegとRealESRGAN両方で、正しいキャッシュフォルダーパス、通常は$ home/のようなものを設定する必要があります。

フローをインストールします

 cd dalle-flow
pip install -r requirements.txt
pip install jax~=0.3.24

サーバーを起動します

これでdalle-flow/下にあります。次のコマンドを実行します。

 # Optionally disable some generative models with the following flags when
# using flow_parser.py:
# --disable-dalle-mega
# --disable-glid3xl
# --disable-swinir
# --enable-stable-diffusion
python flow_parser.py
jina flow --uses flow.tmp.yml

この画面はすぐに表示されます。

最初のスタートでは、Dall・E Megaモデルやその他の必要なモデルをダウンロードするには約8分かかります。手続きの実行は、成功メッセージに到達するまでに約1分しかかからないはずです。

すべての準備ができたら、あなたは見るでしょう：

おめでとう！これで、クライアントを実行できるはずです。

モデルの変更、永続性の追加、またはInstagram/Openseaへの自動ポストなど、サーバーフローを好きなように変更および拡張できます。 JinaとDocarrayを使用すると、ドールを簡単にFlow Cloud-Nativeに作成し、生産の準備ができています。

サービスとしてのクリップを使用します

VRAMの使用を減らすために、 grpcs://api.clip.jina.ai:2096で自由に利用できる外部エグゼキューターとしてCLIP-as-serviceとして使用できます。
まず、コンソールWebサイトからアクセストークンを作成したことを確認してください。

jina auth token create < name of PAT > -e < expiration days >

次に、 flow.ymlからエグゼキュータ関連の構成（ host 、 port 、 external 、 tls 、 grpc_metadata ）を変更する必要があります。

...
  - name : clip_encoder
    uses : jinahub+docker://CLIPTorchEncoder/latest-gpu
    host : ' api.clip.jina.ai '
    port : 2096
    tls : true
    external : true
    grpc_metadata :
      authorization : " <your access token> "
    needs : [gateway]
...
  - name : rerank
    uses : jinahub+docker://CLIPTorchEncoder/latest-gpu
    host : ' api.clip.jina.ai '
    port : 2096
    uses_requests :
      ' / ' : rank
    tls : true
    external : true
    grpc_metadata :
      authorization : " <your access token> "
    needs : [dalle, diffusion]

また、 flow_parser.py使用して、外部エグゼキューターとしてCLIP-as-serviceの使用を使用して、フローを自動的に生成および実行することもできます。

python flow_parser.py --cas-token " <your access token>'
jina flow --uses flow.tmp.yml

ショ和grpc_metadataは、Jina v3.11.0以降にのみ利用できます。古いバージョンを使用している場合は、最新バージョンにアップグレードしてください。

これで、フローで無料のCLIP-as-serviceを使用できます。

サポート

Dall・E Flowを拡張するには、JinaとDocarrayに精通する必要があります。
私たちの不一致コミュニティに参加し、アイデアについて他のコミュニティメンバーとチャットしてください。
エンジニアリングに参加して、ユースケースについて話し合い、ジナの新機能を学びましょう。
- いつ？毎月第2火曜日
- どこ？ズーム（パブリックイベントカレンダー/.icalを参照）とYouTubeのライブストリーム
YouTubeチャンネルで最新のビデオチュートリアルを購読する