이것은 "확산 모델에 의한 앰그램 생성"이 논문의 공식적인 기복입니다. 이 백서는 ICDAR 2023에서 허용됩니다.
【 업데이트 】
2023/07/20 : Ambifusion2가 열려 있습니다. 이 방법은 두 프롬프트를 쌍으로 지정하여 이미지 쌍으로 Ambigram을 생성 할 수 있습니다.
tl; dr
ambigramability
을 생성하는 것이 얼마나 쉬운 지에 대한 객관적인 측정 값을 제안합니다. Ambigram은 원래 방향뿐만 아니라 회전 방향 (특히 180도)에서 읽을 수있는 그래픽 문자 설계입니다. 인간 전문가에게도 앰비버를 설계하는 것은 어렵습니다. 두 방향에서 이중 가독성을 유지하는 것은 종종 어렵 기 때문입니다. 이 논문은 앰그램 생성 모델을 제안합니다. 생성 모듈로서 우리는 최근 고품질 사진 이미지를 생성하는 데 사용 된 확산 모델을 사용합니다. 제안 된 모델은 'A'및 'B'와 같은 한 쌍의 문자 클래스를 지정함으로써 원래 방향에서 'A'로 읽을 수있는 다양한 Ambigram 이미지를 생성하고 180도 회전 방향에서 'B'이미지를 생성합니다. 실험 결과의 정량적 및 질적 분석은 제안 된 모델이 고품질의 다양한 앰그램을 생성 할 수 있음을 보여줍니다. 또한, 우리는 각 문자 쌍에 대해 앰그램을 생성하는 것이 얼마나 쉬운 지에 대한 객관적인 측정 값을 정의합니다. 예를 들어, 'a'와 'v'쌍은 높은 앰그램 가능성을 보여줍니다 (즉, 앰비버를 쉽게 생성 할 수 있습니다). 'd'와 'k'쌍은 더 낮은 앰 이그램 가능성을 보여줍니다. 앰그램 성은 컴퓨터뿐만 아니라 인간 전문가들에게도 앰그램 생성에 대한 다양한 힌트를 제공합니다.
우리의 제안 된 방법은 다음 예제와 같은 앰그램을 생성합니다.
괄호화 된 숫자는 문자 쌍의 앰그램 가능성 점수 (↑)입니다. 상위 3 행은 다소 쉬운 클래스 쌍 (앰 이그램 가능성 점수가 높음)이며 더 낮은 3 행은 그렇지 않습니다.
Python: 3.8.10
. 다음과 같이 pip
로 외부 라이브러리를 다운로드 할 수 있습니다.
pip install torch==1.11.0+cu113 torchvision==0.12.0+cu113 torchaudio==0.11.0 --extra-index-url https://download.pytorch.org/whl/cu113
pip install -r requirements.txt
미리 훈련 된 무게를 다운로드 할 수도 있습니다. 모든 의사 중량 파일 파일 weight_name.txt
를 다운로드 된 실제 중량 파일로 바꾸십시오.
python demo.py
127.0.0.1:11111
액세스하십시오. ambigram_random_sample.py
에서 TestConfigs
설정하십시오. python ambigram_random_sample.py
calc_ambigramability.py
에서 TestConfigs
설정하십시오. python calc_ambigramability.py
configs/trainargs.py
에서 TrainConfigs
설정하십시오. 원한다면 DA_ambigram_configs.yaml
변경할 수 있습니다 (세부 사항은 논문의 3.2 초에서 언급되어 있음). ## Run on single gpu
python ambigram_train.py
## Run on multiple gpus
mpiexec -n [NUM_GPUs] python ambigram_train.py
참고 [1] : classifier-free guidance
사용하여 Ambigram을 생성하려면 조건부 모델과 무조건 모델을 개별적으로 훈련시켜야합니다.
@article{shirakawa2023ambigram,
title={Ambigram Generation by A Diffusion Model},
author={Shirakawa, Takahiro and Uchida, Seiichi},
booktitle={2023 17th international conference on document analysis and recognition (ICDAR)},
year={2023}
}