เครื่องจักรความรู้ขั้นสูง
การแนะนำ
เป้าหมายสูงสุดของการวิจัยของเราคือการสร้างระบบที่มีสติปัญญาระดับสูง กล่าวคือ มีความสามารถในการ อ่าน คิด และสร้าง ล้ำหน้ามากจนสามารถก้าวข้ามสติปัญญาของมนุษย์ได้ในวันหนึ่งในอนาคต เราตั้งชื่อระบบประเภทนี้ ว่า Advanced Literate Machinery (ALM)
ประการแรก ขณะนี้เรามุ่งเน้นไปที่การสอนเครื่องให้ อ่าน จากรูปภาพและเอกสาร ในอีกหลายปีข้างหน้า เราจะสำรวจความเป็นไปได้ของการมอบเครื่องจักรด้วยความสามารถทางปัญญาใน การคิดและการสร้างสรรค์ ให้ทันและเหนือกว่า GPT-4 และ GPT-4V
โครงการนี้ดูแลโดย ทีมงาน OCR 读光(读光-Du Guang แปลว่า " การอ่านแสงสว่าง ") ใน Tongyi Lab, Alibaba Group
เยี่ยมชมพอร์ทัล 读光-Du Guang และ DocMaster เพื่อสัมผัสประสบการณ์การสาธิตออนไลน์สำหรับ OCR และความเข้าใจในเอกสาร
อัพเดทล่าสุด
2024.12 เปิดตัว
- CC-OCR ( CC-OCR: เกณฑ์มาตรฐาน OCR ที่ครอบคลุมและท้าทายสำหรับการประเมินโมเดลมัลติโมดัลขนาดใหญ่ในการรู้หนังสือ กระดาษ): เกณฑ์มาตรฐาน CC-OCR ได้รับการออกแบบมาโดยเฉพาะสำหรับการประเมินความสามารถที่เน้น OCR เป็นศูนย์กลางของโมเดลมัลติโมดัลขนาดใหญ่ CC-OCR มีสถานการณ์ งาน และความท้าทายที่หลากหลาย ซึ่งประกอบด้วยเส้นทางที่เน้น OCR สี่เส้นทาง ได้แก่ การอ่านข้อความหลายฉาก การอ่านข้อความหลายภาษา การแยกวิเคราะห์เอกสาร และการดึงข้อมูลที่สำคัญ ประกอบด้วยชุดย่อย 39 ชุดพร้อมรูปภาพคำอธิบายประกอบแบบเต็ม 7,058 ภาพ โดย 41% มาจากแอปพลิเคชันจริงที่เปิดตัวเป็นครั้งแรก
วางจำหน่ายปี 2024.9
Platypus ( Platypus: A Generalized Specialist Model for Reading Text in variety Forms, ECCV 2024. paper): Platypus แนะนำแนวทางใหม่ในการอ่านข้อความจากรูปภาพ โดยระบุถึงข้อจำกัดของทั้งแบบจำลองผู้เชี่ยวชาญและทั่วไป Platypus ใช้ประโยชน์จาก สถาปัตยกรรมแบบครบวงจรเพียงตัวเดียว ในการจดจำข้อความใน รูปแบบต่างๆ ได้อย่างมีประสิทธิภาพ โดยคงไว้ซึ่งความแม่นยำและประสิทธิภาพสูง นอกจากนี้เรายังแนะนำ ชุดข้อมูล Worms ใหม่ ซึ่งรวมและติดป้ายกำกับชุดข้อมูลก่อนหน้าใหม่บางส่วนเพื่อรองรับการพัฒนาและการประเมินผลของแบบจำลอง
SceneVTG ( การสร้างข้อความภาพในป่า กระดาษ ECCV 2024): เราขอเสนอเครื่องสร้างข้อความภาพ (เรียกว่า SceneVTG) ซึ่งสามารถสร้าง ภาพข้อความคุณภาพสูงในป่า ตาม กระบวนทัศน์สองขั้นตอน SceneVTG ใช้ประโยชน์จากโมเดลภาษาขนาดใหญ่หลายรูปแบบเพื่อแนะนำขอบเขตข้อความและเนื้อหาที่เหมาะสมในหลายระดับและระดับ ซึ่งถูกใช้โดยโมเดลการแพร่กระจายแบบมีเงื่อนไขเป็นเงื่อนไขในการสร้างภาพข้อความ ในการฝึก SceneVTG เรายังสนับสนุน ชุดข้อมูลใหม่ SceneVTG-Erase พร้อมคำอธิบายประกอบ OCR โดยละเอียด
WebRPG ( WebRPG: การสร้างพารามิเตอร์การเรนเดอร์เว็บอัตโนมัติสำหรับการนำเสนอด้วยภาพ, ECCV 2024 บทความ): เราแนะนำ WebRPG ซึ่งเป็นงานใหม่ที่มุ่งเน้นไปที่ การสร้างการนำเสนอด้วยภาพโดยอัตโนมัติ สำหรับหน้าเว็บโดยใช้โค้ด HTML ในกรณีที่ไม่มีเกณฑ์มาตรฐาน เราได้สร้างชุดข้อมูลใหม่ผ่าน ไปป์ไลน์อัตโนมัติ โมเดลที่เรานำเสนอสร้างขึ้นบน สถาปัตยกรรม VAE และ การฝัง HTML แบบกำหนดเอง จัดการองค์ประกอบเว็บและพารามิเตอร์การเรนเดอร์จำนวนมากได้อย่างมีประสิทธิภาพ การทดลองที่ครอบคลุม รวมถึงการประเมินเชิงปริมาณที่กำหนดเอง แสดงให้เห็นถึงประสิทธิภาพของโมเดล WebRPG ในการสร้างการนำเสนอทางเว็บ
ProcTag ( ProcTag: การแท็กกระบวนการสำหรับการประเมินประสิทธิภาพของข้อมูลคำสั่งเอกสาร, arXiv 2024 กระดาษ): วิธีการประเมินที่มีประสิทธิผลสำหรับข้อมูลคำสั่งเอกสารมีความสำคัญอย่างยิ่งในการสร้างข้อมูลคำสั่งที่มีประสิทธิภาพสูง ซึ่งในทางกลับกัน จะอำนวยความสะดวกในการฝึกอบรม LLM และ MLLM เพื่อการทำความเข้าใจเอกสาร เราเสนอ ProcTag ซึ่งเป็นวิธีการเชิงข้อมูลที่จะ แท็กกระบวนการดำเนินการตามคำสั่ง มากกว่าตัวข้อความ ทำให้สามารถประเมินผลและสุ่มตัวอย่างคำสั่งเอกสารแบบเลือกสรรได้อย่างมีประสิทธิภาพมากขึ้น
2024.4 การเปิดตัว
- OmniParser ( OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition, CVPR 2024. กระดาษ): เราเสนอแบบจำลองสากลสำหรับการแยกวิเคราะห์ข้อความที่มองเห็นได้ในสถานการณ์ที่หลากหลาย เรียกว่า OmniParser ซึ่งสามารถจัดการสามรูปแบบทั่วไปที่มองเห็นได้พร้อมกัน งานแยกวิเคราะห์ข้อความที่ตั้ง: การระบุข้อความ การแยกข้อมูลที่สำคัญ และการจดจำตาราง ใน OmniParser งานทั้งหมดจะแชร์ สถาปัตยกรรมตัวเข้ารหัส-ตัวถอดรหัส แบบรวม วัตถุประสงค์แบบรวม: การสร้างข้อความแบบมีเงื่อนไข และการแสดงอินพุตและเอาต์พุตแบบรวม: ลำดับพร้อมท์และแบบมีโครงสร้าง
2024.3 เปิดตัว
- GEM ( GEM: Gestalt Enhanced Markup Language Model for Web Underinging via Render Tree, EMNLP 2023. paper): หน้าเว็บทำหน้าที่เป็นสื่อสำคัญสำหรับมนุษย์ในการรับและรับรู้ข้อมูล ด้วยแรงบันดาลใจจากทฤษฎีจิตวิทยา Gestalt เราขอเสนอโมเดลภาษามาร์กอัปขั้นสูง Gestalt (เรียกสั้น ๆ ว่า GEM) ที่เป็นนวัตกรรมใหม่ สำหรับ การโฮสต์ข้อมูลภาพที่ต่างกันจากการเรนเดอร์ทรีของหน้าเว็บ นำไปสู่ประสิทธิภาพที่ยอดเยี่ยมในงานต่างๆ เช่น การตอบคำถามบนเว็บ และการดึงข้อมูลเว็บ
วางจำหน่ายปี 2023.9
- DocXChain ( DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond, arXiv 2023. report): เพื่อ ส่งเสริมระดับของการแปลงเป็นดิจิทัลและโครงสร้างสำหรับเอกสาร เราได้พัฒนาและเผยแพร่ toolchain แบบโอเพ่นซอร์สที่เรียกว่า DocXChain เพื่อให้มีความแม่นยำและมีรายละเอียด การแยกวิเคราะห์เอกสาร ในปัจจุบัน มีความสามารถพื้นฐาน รวมถึงการตรวจจับข้อความ การจดจำข้อความ การจดจำโครงสร้างตาราง และการวิเคราะห์โครงร่าง นอกจากนี้ ไปป์ไลน์ทั่วไป เช่น การอ่านข้อความทั่วไป การแยกวิเคราะห์ตาราง และการจัดโครงสร้างเอกสาร ได้รับการสร้างขึ้นเพื่อรองรับแอปพลิเคชันที่ซับซ้อนมากขึ้นที่เกี่ยวข้องกับเอกสาร โมเดลอัลกอริธึมส่วนใหญ่มาจาก ModelScope รองรับการจดจำสูตร (โดยใช้โมเดลจาก RapidLatexOCR) และการแปลง PDF ทั้งหมด (รูปแบบ PDF เป็น JSON) แล้ว
- LISTER ( LISTER: Neighbor Decoding for length-Insensitive Scene Text Recognition, ICCV 2023. กระดาษ): เราเสนอวิธีการที่เรียกว่า LISTER-Insensitive Scene TExt Recognizer (LISTER) ซึ่งแก้ไขข้อจำกัดเกี่ยวกับ ความทนทานของข้อความความยาวต่างๆ โดยเฉพาะอย่างยิ่ง มีการเสนอตัวถอดรหัสเพื่อนบ้านเพื่อให้ได้แผนที่ความสนใจของตัวละครที่แม่นยำ ด้วยความช่วยเหลือของเมทริกซ์เพื่อนบ้านแบบใหม่ โดยไม่คำนึงถึงความยาวของข้อความ นอกจากนี้ โมดูลการปรับปรุงคุณสมบัติยังได้รับการคิดค้นเพื่อสร้างแบบจำลองการพึ่งพาระยะไกลด้วยต้นทุนการคำนวณต่ำ ซึ่งสามารถดำเนินการวนซ้ำด้วยตัวถอดรหัสเพื่อนบ้านเพื่อปรับปรุงแผนที่คุณลักษณะอย่างต่อเนื่อง
- VGT ( Vision Grid Transformer สำหรับการวิเคราะห์เค้าโครงเอกสาร, ICCV 2023 กระดาษ): เพื่อ ใช้ประโยชน์จากข้อมูลหลายรูปแบบอย่างเต็มที่และใช้ประโยชน์จากเทคนิคก่อนการฝึกอบรมเพื่อเรียนรู้การนำเสนอที่ดีขึ้น สำหรับการวิเคราะห์เค้าโครงเอกสาร (DLA) เรานำเสนอ VGT ซึ่งเป็นวิสัยทัศน์แบบสองสตรีม Grid Transformer ซึ่งมีการเสนอและฝึกอบรม Grid Transformer (GiT) ล่วงหน้าสำหรับการทำความเข้าใจความหมายระดับโทเค็น 2D และระดับเซ็กเมนต์ นอกจากนี้ เกณฑ์มาตรฐานใหม่สำหรับการประเมินอัลกอริธึมการวิเคราะห์เค้าโครงเอกสารที่เรียกว่า D^4LA ได้รับการดูแลและเผยแพร่
- บทความ VLPT-STD ( การฝึกอบรมล่วงหน้าภาษาด้วยการมองเห็นเพื่อส่งเสริมตัวตรวจจับข้อความในฉาก, CVPR 2022): เราปรับ การเรียนรู้ร่วมด้วยภาษาแห่งการมองเห็นสำหรับการตรวจจับข้อความในฉาก ซึ่งเป็นงานที่เกี่ยวข้องกับการโต้ตอบข้ามโมดัลโดยเนื้อแท้ระหว่างสองรูปแบบ: การมองเห็นและ ภาษา. โมเดลที่ได้รับการฝึกอบรมล่วงหน้าสามารถสร้างการนำเสนอข้อมูลได้มากขึ้นด้วยความหมายที่สมบูรณ์ยิ่งขึ้น ซึ่งอาจเป็นประโยชน์ต่อเครื่องตรวจจับข้อความในฉากที่มีอยู่ (เช่น EAST และ DB) ในงานตรวจจับข้อความดาวน์สตรีม
2023.6 เปิดตัว
- LiteWeightOCR ( การสร้างเครื่องรู้จำข้อความบนมือถือผ่าน NAS ที่แนะนำการกลั่นความรู้ที่ใช้ SVD ที่ถูกตัดทอน, BMVC 2023 กระดาษ): เพื่อให้โมเดล OCR สามารถปรับใช้บนอุปกรณ์มือถือในขณะที่ยังคงความแม่นยำสูง เราขอเสนอตัวรู้จำข้อความน้ำหนักเบาที่รวมค่าเอกพจน์ที่ถูกตัดทอน การกลั่นความรู้ตามการสลายตัว (TSVD) (KD) เข้าสู่กระบวนการค้นหาสถาปัตยกรรมประสาท (NAS)
2023.4 การเปิดตัว
- GeoLayoutLM ( GeoLayoutLM: Geometric Pre-training for Visual Information Extraction, CVPR 2023. เอกสาร): เราเสนอเฟรมเวิร์กหลายรูปแบบชื่อ GeoLayoutLM สำหรับการดึงข้อมูลภาพ (VIE) ตรงกันข้ามกับวิธีการก่อนหน้าสำหรับการฝึกอบรมล่วงหน้าด้านเอกสาร ซึ่งมักจะเรียนรู้การแสดงเรขาคณิตในลักษณะโดยปริยาย GeoLayoutLM จะสร้างแบบจำลองความสัมพันธ์ทางเรขาคณิตของเอนทิตีในเอกสารอย่างชัดเจน
2023.2 เปิดตัว
- LORE-TSR ( LORE: Logical Location Regression Network for Table Structure Recognition, AAAI 2022. paper): เราจำลอง Table Structure Recognition (TSR) เป็นปัญหาการถดถอยตำแหน่งเชิงตรรกะ และเสนออัลกอริทึมใหม่ที่เรียกว่า LORE ซึ่งย่อมาจาก LOgical location REgression network ซึ่งเป็นครั้งแรก ที่รวมการถดถอยตำแหน่งเชิงตรรกะเข้ากับการถดถอยตำแหน่งเชิงพื้นที่ ของเซลล์ตาราง
เปิดตัวปี 2022.9
- MGP-STR ( Multi-Granularity Prediction for Scene Text Recognition, ECCV 2022. paper): อิงจาก ViT และโมดูล Adaptive Addressing and Aggregation ที่ปรับแต่งมาโดยเฉพาะ เราสำรวจวิธีการโดยนัยสำหรับการผสมผสานความรู้ทางภาษาศาสตร์โดยการแนะนำการแสดงคำย่อยเพื่ออำนวยความสะดวกในการทำนาย แบบหลายรายละเอียด และการผสมผสานในการจดจำข้อความในฉาก
- LevOCR (กระดาษ Levenshtein OCR, ECCV 2022): ได้รับแรงบันดาลใจจาก Levenshtein Transformer เรานำเสนอปัญหาของการรู้จำข้อความในฉากเป็นกระบวนการปรับแต่งลำดับซ้ำ ซึ่งช่วยให้สามารถ ถอดรหัสแบบขนาน การเปลี่ยนแปลงความยาวไดนามิก และความสามารถในการตีความได้ดี