Proyek | ArXiv | Kertas | Demo Huggingface | Demo Colab
2024.02 Uji model menggunakan sampel tulisan tangan khusus:
Demo Huggingface sekarang tersedia dan berjalan
Demo Colab untuk tulisan tangan khusus
Demo Colab untuk set data IAM/CVL
Ankan Kumar Bhunia, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, Fahad Shahbaz Khan & Mubarak Shah
Abstrak: Kami mengusulkan pendekatan pembuatan gambar teks tulisan tangan bergaya transformator baru, HWT, yang berupaya mempelajari keterikatan gaya-konten serta pola gaya penulisan global dan lokal. HWT yang diusulkan menangkap hubungan jangka panjang dan pendek dalam contoh gaya melalui mekanisme perhatian diri, sehingga mengkodekan pola gaya global dan lokal. Lebih lanjut, HWT berbasis transformator yang diusulkan terdiri dari perhatian encoder-decoder yang memungkinkan keterikatan gaya-konten dengan mengumpulkan representasi gaya dari setiap karakter kueri. Sejauh pengetahuan kami, kami adalah orang pertama yang memperkenalkan jaringan generatif berbasis transformator untuk pembuatan teks tulisan tangan bergaya. HWT yang kami usulkan menghasilkan gambar teks tulisan tangan bergaya realistis dan secara signifikan mengungguli kinerja canggih yang ditunjukkan melalui evaluasi kualitatif, kuantitatif, dan berbasis manusia yang ekstensif. HWT yang diusulkan dapat menangani panjang teks yang berubah-ubah dan gaya penulisan apa pun yang diinginkan dalam pengaturan beberapa gambar. Lebih lanjut, HWT kami menggeneralisasi dengan baik skenario yang menantang di mana kata-kata dan gaya penulisan tidak terlihat selama pelatihan, sehingga menghasilkan gambar teks tulisan tangan bergaya realistis.
ular piton 3.7
PyTorch >=1.4
Silakan lihat INSTALL.md
untuk menginstal perpustakaan yang diperlukan. Anda dapat mengubah konten dalam file mytext.txt
untuk memvisualisasikan tulisan tangan yang dihasilkan saat pelatihan.
Unduh file dan model Kumpulan Data dari https://drive.google.com/file/d/16g9zgysQnWk7-353_tMig92KsZsrcM6k/view?usp=sharing dan unzip di dalam folder files
. Singkatnya, jalankan baris berikut di terminal bash.
git clone https://github.com/ankanbhunia/Handwriting-Transformerscd Tulisan Tangan-Transformers pip install --upgrade --no-cache-dir gdown gdown --id 16g9zgysQnWk7-353_tMig92KsZsrcM6k && unzip file.zip && rm file.zip
Untuk mulai melatih model: jalankan
python train.py
Jika Anda ingin menggunakan wandb
silakan instal dan ubah auth_key Anda di file train.py
(ln:4).
Anda dapat mengubah parameter berbeda di file params.py
.
Anda dapat melatih model dalam kumpulan data khusus apa pun selain IAM dan CVL. Prosesnya melibatkan pembuatan file dataset_name.pickle
dan menempatkannya di dalam folder files
. Struktur dataset_name.pickle
adalah kamus python sederhana.
{'kereta': [{writer_1:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]}, {writer_2:[{'img': <PIL.IMAGE> , 'label':<str_label>},...]},...], 'tes': [{writer_3:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]}, {writer_4:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]},...], }
docker run -it -p 7860:7860 --platform=linux/amd64 registry.hf.space/ankankbhunia-hwt:latest python app.py
Silakan periksa folder results
di repositori untuk melihat analisis lebih kualitatif. Selain itu, silakan lihat demo colab untuk mencoba teks kustom dan gaya penulisan Anda sendiri
Hasil rekonstruksi menggunakan HWT yang diusulkan dibandingkan dengan penulisan GAN dan Davis et al. Kami menggunakan teks yang sama seperti pada contoh gaya untuk menghasilkan gambar tulisan tangan.
Jika Anda menggunakan kode tersebut untuk penelitian Anda, silakan kutip makalah kami:
@InProceedings{Bhunia_2021_ICCV, author = {Bhunia, Ankan Kumar and Khan, Salman and Cholakkal, Hisham and Anwer, Rao Muhammad and Khan, Fahad Shahbaz and Shah, Mubarak}, title = {Handwriting Transformers}, booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, month = {October}, year = {2021}, pages = {1086-1094} }