これは、「拡散モデルによるアンビグラム生成」という論文の公式の繰り返しです。この論文はICDAR 2023で受け入れられています。
【 アップデート 】
2023/07/20:Ambifusion2が開いています。この方法は、2つのプロンプトをペアとして指定することにより、任意の画像ペアでAmbigramsを生成できます。
tl; dr
ambigramability
提案します。 Ambigramsは、元の方向だけでなく、回転した方向(特に180度)からも読むことができるグラフィカルな文字のデザインです。 Ambigramsを設計することは、人間の専門家にとっても困難です。なぜなら、両方向から二重の読みやすさを維持することはしばしば難しいからです。このペーパーでは、Ambigram Generationモデルを提案しています。生成モジュールとして、拡散モデルを使用します。これは、最近高品質の写真画像を生成するために使用されています。 「A」や「B」などの一対の文字クラスを指定することにより、提案されたモデルは、180度回転した方向から「A」、「B」として読み取ることができるさまざまなAmbigram画像を生成します。実験結果の定量的および定性的分析は、提案されたモデルが高品質で多様なアンビグラムを生成できることを示しています。さらに、各文字ペアのアンビグラムを生成することがどれほど簡単かの客観的な尺度であるAmvigramabilityを定義します。たとえば、「A」と「V」のペアは、アンビグラムを生成するのは簡単です)を示し、「d」と「k」のペアは、より低い歩行可能性を示します。アンビグラメビリティは、コンピューターだけでなく、人間の専門家にとっても、アンビグラム世代のさまざまなヒントを提供します。
提案された方法は、次の例のようなアンビグラムを生成します。
括弧付きの数は、文字ペアのアンビグラメビリティスコア(↑)です。上部の3行はかなり簡単なクラスペア(より高いアンビグラメビリティスコアを持つ)であり、下部3列はそうではありません。
Python: 3.8.10
のすべてのコードをテストしました。次のように、 pip
を使用して外部ライブラリをダウンロードできます。
pip install torch==1.11.0+cu113 torchvision==0.12.0+cu113 torchaudio==0.11.0 --extra-index-url https://download.pytorch.org/whl/cu113
pip install -r requirements.txt
事前に訓練されたウェイトをダウンロードすることもできます。すべてのpseud-weightsファイルのweight_name.txt
ダウンロードしたReal-Weightsファイルに置き換えます。
python demo.py
127.0.0.1:11111
にアクセスします。 ambigram_random_sample.py
でTestConfigs
設定します。 python ambigram_random_sample.py
calc_ambigramability.py
でTestConfigs
設定します。 python calc_ambigramability.py
configs/trainargs.py
でTrainConfigs
設定します。必要に応じて、 DA_ambigram_configs.yaml
変更できます(詳細は論文のセクション3.2で言及されています)。 ## Run on single gpu
python ambigram_train.py
## Run on multiple gpus
mpiexec -n [NUM_GPUs] python ambigram_train.py
注[1]: classifier-free guidance
を使用してアンビグラムを生成する場合は、条件付きモデルと無条件モデルの両方を個別にトレーニングする必要があります。
@article{shirakawa2023ambigram,
title={Ambigram Generation by A Diffusion Model},
author={Shirakawa, Takahiro and Uchida, Seiichi},
booktitle={2023 17th international conference on document analysis and recognition (ICDAR)},
year={2023}
}