مشروع | آركايف | ورق | معانقة الوجه التجريبي | كولاب التجريبي
2024.02 اختبار النموذج باستخدام عينات الكتابة اليدوية المخصصة:
عرض Huggingface متاح الآن ويعمل
عرض Colab للكتابات اليدوية المخصصة
عرض توضيحي لـ Colab لمجموعة بيانات IAM/CVL
أنكان كومار بونيا، سلمان خان، هشام تشولاكال، راو محمد أنور، فهد شهباز خان ومبارك شاه
الملخص: نقترح أسلوبًا جديدًا لإنشاء صور نصية مكتوبة بخط اليد يعتمد على المحولات، HWT، والذي يسعى جاهداً لتعلم كل من تشابك الأسلوب والمحتوى بالإضافة إلى أنماط أسلوب الكتابة العالمية والمحلية. يلتقط HWT المقترح العلاقات طويلة وقصيرة المدى ضمن أمثلة الأنماط من خلال آلية الاهتمام الذاتي، وبالتالي تشفير أنماط الأنماط العالمية والمحلية. علاوة على ذلك، يشتمل HWT المقترح القائم على المحولات على اهتمام بمفكك التشفير الذي يمكّن من تشابك محتوى النمط من خلال جمع تمثيل النمط لكل حرف استعلام. على حد علمنا، نحن أول من قدم شبكة توليدية قائمة على المحولات لإنشاء نص مكتوب بخط اليد. يُنشئ HWT المقترح لدينا صورًا نصية مكتوبة بخط اليد بأسلوب واقعي ويتفوق بشكل كبير على أحدث ما تم إثباته من خلال تقييمات نوعية وكمية وإنسانية واسعة النطاق. يمكن لـ HWT المقترح التعامل مع الطول التعسفي للنص وأي نمط كتابة مرغوب فيه في إعداد بضع لقطات. علاوة على ذلك، يعمم برنامج HWT الخاص بنا بشكل جيد السيناريو الصعب حيث لا يتم رؤية الكلمات وأسلوب الكتابة أثناء التدريب، مما يؤدي إلى إنشاء صور نصية مكتوبة بخط اليد بأسلوب واقعي.
بايثون 3.7
باي تورش >=1.4
الرجاء مراجعة INSTALL.md
لتثبيت المكتبات المطلوبة. يمكنك تغيير المحتوى الموجود في الملف mytext.txt
لتصور الكتابة اليدوية التي تم إنشاؤها أثناء التدريب.
قم بتنزيل ملفات ونماذج مجموعة البيانات من https://drive.google.com/file/d/16g9zgysQnWk7-353_tMig92KsZsrcM6k/view?usp=sharing وفك الضغط داخل مجلد files
. باختصار، قم بتشغيل الأسطر التالية في محطة باش.
استنساخ بوابة https://github.com/ankanbhunia/Handwriting-Transformerscd Handwriting-Transformers تثبيت النقطة - الترقية - no-cache-dir gdown gdown --id 16g9zgysQnWk7-353_tMig92KsZsrcM6k && فك ضغط الملفات.zip && rm files.zip
لبدء تدريب النموذج: تشغيل
python train.py
إذا كنت تريد استخدام wandb
فيرجى تثبيته وتغيير auth_key الخاص بك في ملف train.py
(ln:4).
يمكنك تغيير معلمات مختلفة في ملف params.py
.
يمكنك تدريب النموذج على أي مجموعة بيانات مخصصة بخلاف IAM وCVL. تتضمن العملية إنشاء ملف dataset_name.pickle
ووضعه داخل مجلد files
. هيكل dataset_name.pickle
هو قاموس بايثون بسيط.
{'قطار': [{writer_1:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]}, {writer_2:[{'img': <PIL.IMAGE> , 'label':<str_label>},...]},...], 'اختبار': [{writer_3:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]}, {writer_4:[{'img': <PIL.IMAGE>, 'التسمية':<str_label>},...]},...], }
docker run -it -p 7860:7860 --platform=linux/amd64 registry.hf.space/ankankbhunia-hwt:latest python app.py
يرجى التحقق من مجلد results
في المستودع لرؤية المزيد من التحليل النوعي. يرجى أيضًا الاطلاع على العرض التوضيحي لـ colab لتجربة النص المخصص وأسلوب الكتابة الخاص بك
نتائج إعادة الإعمار باستخدام HWT المقترحة بالمقارنة مع GANwriting وDavis et al. نستخدم نفس النص الموجود في أمثلة الأنماط لإنشاء صور مكتوبة بخط اليد.
إذا كنت تستخدم الكود لبحثك، يرجى الاستشهاد بمقالتنا:
@InProceedings{Bhunia_2021_ICCV, author = {Bhunia, Ankan Kumar and Khan, Salman and Cholakkal, Hisham and Anwer, Rao Muhammad and Khan, Fahad Shahbaz and Shah, Mubarak}, title = {Handwriting Transformers}, booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, month = {October}, year = {2021}, pages = {1086-1094} }