โครงการ | อาร์ซิฟ | กระดาษ | Huggingface-สาธิต | Colab-สาธิต
2024.02 ทดสอบโมเดลโดยใช้ตัวอย่างลายมือที่กำหนดเอง:
ขณะนี้การสาธิต Huggingface พร้อมให้ใช้งานแล้ว
การสาธิต Colab สำหรับการเขียนด้วยลายมือที่กำหนดเอง
การสาธิต Colab สำหรับชุดข้อมูล IAM/CVL
อังกัน กุมาร์ บูเนีย, ซัลมาน ข่าน, ฮิชาม โชลัคคาล, เรา มูฮัมหมัด อันแวร์, ฟาฮัด ชาห์บาซ ข่าน และ มูบารัค ชาห์
บทคัดย่อ: เราขอเสนอ HWT ซึ่งเป็นแนวทางการสร้างภาพข้อความที่เขียนด้วยลายมือสไตล์ที่ใช้หม้อแปลงไฟฟ้าแบบใหม่ ซึ่งมุ่งมั่นที่จะเรียนรู้ทั้งความพัวพันระหว่างเนื้อหาและสไตล์ รวมถึงรูปแบบสไตล์การเขียนระดับโลกและระดับท้องถิ่น HWT ที่เสนอจะรวบรวมความสัมพันธ์ระยะยาวและระยะสั้นภายในตัวอย่างสไตล์ผ่านกลไกการเอาใจใส่ตนเอง ดังนั้นจึงเข้ารหัสรูปแบบสไตล์ระดับโลกและระดับท้องถิ่น นอกจากนี้ HWT ที่ใช้หม้อแปลงไฟฟ้าที่นำเสนอยังประกอบด้วยความสนใจของตัวเข้ารหัสและตัวถอดรหัสที่ช่วยให้สามารถพัวพันกับเนื้อหาสไตล์ได้โดยการรวบรวมการแสดงสไตล์ของอักขระคิวรีแต่ละตัว เท่าที่เราทราบ เราเป็นคนแรกที่แนะนำเครือข่ายการสร้างที่ใช้หม้อแปลงไฟฟ้าสำหรับการสร้างข้อความที่เขียนด้วยลายมือที่มีสไตล์ HWT ที่เรานำเสนอจะสร้างภาพข้อความที่เขียนด้วยลายมือที่มีสไตล์เหมือนจริงและมีประสิทธิภาพเหนือกว่าความล้ำสมัยอย่างมากซึ่งแสดงให้เห็นผ่านการประเมินเชิงคุณภาพ เชิงปริมาณ และโดยอาศัยมนุษย์อย่างกว้างขวาง HWT ที่เสนอสามารถรองรับความยาวของข้อความได้ตามใจชอบและรูปแบบการเขียนที่ต้องการในการตั้งค่าไม่กี่ช็อต นอกจากนี้ HWT ของเรายังสรุปสถานการณ์ที่ท้าทายได้ดีโดยที่ทั้งคำและรูปแบบการเขียนไม่สามารถมองเห็นได้ในระหว่างการฝึกอบรม ทำให้เกิดภาพข้อความที่เขียนด้วยลายมือที่มีสไตล์สมจริง
หลาม 3.7
ไพทอร์ช >=1.4
โปรดดู INSTALL.md
สำหรับการติดตั้งไลบรารีที่จำเป็น คุณสามารถเปลี่ยนเนื้อหาในไฟล์ mytext.txt
เพื่อให้เห็นภาพลายมือที่สร้างขึ้นขณะฝึก
ดาวน์โหลดไฟล์และโมเดลชุดข้อมูลจากhttps://drive.google.com/file/d/16g9zgysQnWk7-353_tMig92KsZsrcM6k/view?usp=sharing และแตกไฟล์ซิปภายในโฟลเดอร์ files
กล่าวโดยสรุป ให้รันบรรทัดต่อไปนี้ในเทอร์มินัล bash
git clone https://github.com/ankanbhunia/Handwriting-Transformerscd การเขียนด้วยลายมือ-Transformers การติดตั้ง pip -- อัปเกรด -- no-cache-dir gdown gdown --id 16g9zgysQnWk7-353_tMig92KsZsrcM6k && แตกไฟล์ zip.zip && rm files.zip
หากต้องการเริ่มฝึกโมเดล: วิ่ง
python train.py
หากคุณต้องการใช้ wandb
โปรดติดตั้งและเปลี่ยน auth_key ของคุณในไฟล์ train.py
(ln:4)
คุณสามารถเปลี่ยนพารามิเตอร์ต่างๆ ในไฟล์ params.py
ได้
คุณสามารถฝึกโมเดลในชุดข้อมูลที่กำหนดเองใดๆ นอกเหนือจาก IAM และ CVL กระบวนการนี้เกี่ยวข้องกับการสร้างไฟล์ dataset_name.pickle
และวางไว้ภายในโฟลเดอร์ files
โครงสร้างของ dataset_name.pickle
เป็นพจนานุกรมหลามอย่างง่าย
{'train': [{writer_1:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]}, {writer_2:[{'img': <PIL.IMAGE> , 'ฉลาก':<str_label>},...]},...], 'ทดสอบ': [{writer_3:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]}, {writer_4:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]},...], -
docker run -it -p 7860:7860 --platform=linux/amd64 registry.hf.space/ankankbhunia-hwt:latest python app.py
โปรดตรวจสอบโฟลเดอร์ results
ในพื้นที่เก็บข้อมูลเพื่อดูการวิเคราะห์เชิงคุณภาพเพิ่มเติม นอกจากนี้ โปรดลองดูการสาธิต Colab เพื่อลองใช้ข้อความและสไตล์การเขียนที่คุณกำหนดเอง
ผลลัพธ์การสร้างใหม่โดยใช้ HWT ที่เสนอเมื่อเปรียบเทียบกับ GANwriting และ Davis และคณะ เราใช้ข้อความเดียวกันกับในตัวอย่างสไตล์เพื่อสร้างภาพที่เขียนด้วยลายมือ
หากคุณใช้รหัสในการค้นคว้าของคุณ โปรดอ้างอิงรายงานของเรา:
@InProceedings{Bhunia_2021_ICCV, author = {Bhunia, Ankan Kumar and Khan, Salman and Cholakkal, Hisham and Anwer, Rao Muhammad and Khan, Fahad Shahbaz and Shah, Mubarak}, title = {Handwriting Transformers}, booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, month = {October}, year = {2021}, pages = {1086-1094} }