Dies ist ein offizielles Repogitor für das Papier "Ambigrammgenerierung durch ein Diffusionsmodell". Dieses Papier wird bei ICDAR 2023 akzeptiert.
【 AKTUALISIEREN 】
2023/07/20: Ambifusion2 ist geöffnet. Diese Methode kann Ambigramme mit jedem Bildpaar erzeugen, indem zwei Eingabeaufforderungen als Paar angegeben werden.
tl; dr
ambigramability
vor, ein objektives Maß dafür, wie einfach es ist, Ambigramm für jedes Buchstabenpaar zu erzeugen. Ambigramme sind grafische Buchstabendesigns, die nicht nur aus der ursprünglichen Richtung, sondern auch aus rotierter Richtung (insbesondere mit 180 Grad) gelesen werden können. Das Entwerfen von Ambigramme ist selbst für menschliche Experten schwierig, da es oft schwierig ist, ihre doppelte Lesbarkeit aus beiden Richtungen zu halten. Dieses Papier schlägt ein Modell zur Generierung von Ambigram vor. Als Erzeugungsmodul verwenden wir ein Diffusionsmodell, mit dem kürzlich hochwertige fotografische Bilder erzeugt wurden. Durch Angabe eines Paares von Buchstabenklassen wie 'A' und 'B' erzeugt das vorgeschlagene Modell verschiedene Ambigrammbilder, die als "A" aus der ursprünglichen Richtung und 'B' aus einer 180 Grad gedrehten Richtung gelesen werden können. Quantitative und qualitative Analysen experimenteller Ergebnisse zeigen, dass das vorgeschlagene Modell hochwertige und vielfältige Ambigramme erzeugen kann. Darüber hinaus definieren wir die Ambigrammfähigkeit, ein objektives Maß dafür, wie einfach es ist, Ambigramm für jedes Buchstabenpaar zu generieren. Zum Beispiel zeigt das Paar 'A' und 'V' eine hohe Ambigrammfähigkeit (dh es ist einfach, ihre Ambigramme zu erzeugen), und das Paar 'D' und 'k' zeigt eine geringere Ambigrammabilität. Die Ambigrammabilität gibt verschiedene Hinweise auf die Ambigramm -Generation nicht nur für Computer, sondern auch für menschliche Experten.
Unsere vorgeschlagene Methode generiert Ambigramme wie folgende Beispiele.
Die untersammelte Nummer ist die Ambigrammenabilitätsbewertung (↑) des Buchstabenpaars. Die oberen drei Zeilen sind ziemlich einfache Klassenpaare (mit höheren Ambigrammbarkeitswerten) und die unteren drei nicht.
Wir haben alle Codes in Python: 3.8.10
. Sie können externe Bibliotheken mit pip
wie folgt herunterladen.
pip install torch==1.11.0+cu113 torchvision==0.12.0+cu113 torchaudio==0.11.0 --extra-index-url https://download.pytorch.org/whl/cu113
pip install -r requirements.txt
Sie können auch vorgeborene Gewichte herunterladen. Ersetzen Sie alle pseud-weights dateis weight_name.txt
durch durch heruntergeladene real-weights-Datei.
python demo.py
127.0.0.1:11111
zu. TestConfigs
in ambigram_random_sample.py
. python ambigram_random_sample.py
TestConfigs
in calc_ambigramability.py
. python calc_ambigramability.py
TrainConfigs
in configs/trainargs.py
. Wenn Sie möchten, können Sie DA_ambigram_configs.yaml
ändern (die Details werden in Abschnitt 3.2 im Papier erwähnt). ## Run on single gpu
python ambigram_train.py
## Run on multiple gpus
mpiexec -n [NUM_GPUs] python ambigram_train.py
HINWEIS [1]: Wenn Sie mithilfe von classifier-free guidance
Ambigramme generieren möchten, müssen Sie sowohl das bedingte Modell als auch das bedingungslose Modell separat ausbilden.
@article{shirakawa2023ambigram,
title={Ambigram Generation by A Diffusion Model},
author={Shirakawa, Takahiro and Uchida, Seiichi},
booktitle={2023 17th international conference on document analysis and recognition (ICDAR)},
year={2023}
}