آلات القراءة والكتابة المتقدمة
مقدمة
الهدف النهائي لبحثنا هو بناء نظام يتمتع بذكاء عالي المستوى، أي امتلاك قدرات القراءة والتفكير والإبداع ، متقدمة جدًا لدرجة أنه يمكن أن يتجاوز الذكاء البشري يومًا ما في المستقبل. نحن نسمي هذا النوع من الأنظمة بآلات القراءة والكتابة المتقدمة (ALM) .
في البداية، نركز حاليًا على تعليم الآلات كيفية القراءة من الصور والمستندات. في السنوات القادمة، سوف نستكشف إمكانيات منح الآلات القدرات الفكرية للتفكير والإبداع ، ومواكبة وتجاوز GPT-4 وGPT-4V.
تتم صيانة هذا المشروع من قبل فريق 读光 OCR (读光-Du Guang تعني " قراءة الضوء ") في Tongyi Lab، مجموعة Alibaba Group.
تفضل بزيارة 读光-Du Guang Portal وDocMaster لتجربة العروض التوضيحية عبر الإنترنت للتعرف الضوئي على الحروف وفهم المستندات.
التحديثات الأخيرة
إصدار 2024.12
- CC-OCR ( CC-OCR: معيار التعرف الضوئي على الحروف (OCR) الشامل والصعب لتقييم النماذج الكبيرة متعددة الوسائط في معرفة القراءة والكتابة . ورقة): تم تصميم معيار CC-OCR خصيصًا لتقييم القدرات المتمحورة حول التعرف الضوئي على الحروف (OCR) للنماذج الكبيرة متعددة الوسائط. تمتلك CC-OCR مجموعة متنوعة من السيناريوهات والمهام والتحديات، والتي تتألف من أربعة مسارات تتمحور حول التعرف الضوئي على الحروف: قراءة النص متعدد المشاهد، وقراءة النص متعدد اللغات، وتحليل المستندات، واستخراج المعلومات الأساسية. ويتضمن 39 مجموعة فرعية تحتوي على 7,058 صورة مشروحة كاملة، منها 41% مصدرها تطبيقات حقيقية، ويتم إصدارها لأول مرة.
إصدار 2024.9
خلد الماء ( خلد الماء: نموذج متخصص معمم لقراءة النص بأشكال مختلفة، ECCV 2024. ورقة): يقدم خلد الماء منهجًا جديدًا لقراءة النص من الصور، ويعالج قيود النماذج المتخصصة والعامة. يستخدم خلد الماء بنية موحدة واحدة للتعرف بشكل فعال على النص بأشكال مختلفة ، مع الحفاظ على الدقة والكفاءة العالية. نقدم أيضًا مجموعة بيانات جديدة Worms والتي تجمع مجموعات البيانات السابقة وتعيد تسميتها جزئيًا لدعم تطوير النموذج وتقييمه.
SceneVTG ( إنشاء النص المرئي في البرية، ورق ECCV 2024): نقترح مولد نص مرئي (يسمى SceneVTG)، يمكنه إنتاج صور نصية عالية الجودة في البرية . باتباع نموذج من مرحلتين ، تستفيد SceneVTG من نموذج لغة كبير متعدد الوسائط للتوصية بمناطق ومحتويات نصية معقولة عبر مقاييس ومستويات متعددة، والتي يستخدمها نموذج النشر المشروط كشروط لإنشاء صور نصية. لتدريب SceneVTG، نساهم أيضًا في مجموعة بيانات جديدة SceneVTG-Erase مع تعليقات توضيحية تفصيلية للتعرف الضوئي على الحروف.
WebRPG ( WebRPG: إنشاء معلمات عرض الويب التلقائي للعروض التقديمية المرئية، ECCV 2024.paper): نقدم WebRPG، وهي مهمة جديدة تركز على أتمتة إنشاء العروض التقديمية المرئية لصفحات الويب بناءً على كود HTML. في غياب أي معيار، قمنا بإنشاء مجموعة بيانات جديدة عبر مسار آلي . تعمل نماذجنا المقترحة، المبنية على بنية VAE وتضمينات HTML المخصصة ، على إدارة العديد من عناصر الويب ومعلمات العرض بكفاءة. تُظهر التجارب الشاملة، بما في ذلك التقييمات الكمية المخصصة، فعالية نموذج WebRPG في إنشاء عروض تقديمية على الويب.
ProcTag ( ProcTag: وضع العلامات على العمليات لتقييم فعالية بيانات تعليمات المستند، arXiv 2024.paper): تعد طريقة التقييم الفعالة لبيانات تعليمات المستند أمرًا بالغ الأهمية في إنشاء بيانات التعليمات بكفاءة عالية، والتي بدورها تسهل تدريب LLMs و MLLMs لفهم الوثيقة. نقترح ProcTag، وهي طريقة موجهة نحو البيانات تضع علامات على عملية تنفيذ التعليمات بدلاً من النص نفسه، مما يتيح إجراء تقييم أكثر فعالية وأخذ عينات انتقائية لتعليمات المستند.
إصدار 2024.4
- OmniParser ( OmniParser: إطار موحد لاكتشاف النص واستخراج المعلومات الأساسية والتعرف على الجداول، CVPR 2024.paper): نقترح نموذجًا عالميًا لتحليل النص الموجود بصريًا عبر سيناريوهات متنوعة، يسمى OmniParser، والذي يمكنه في وقت واحد التعامل مع ثلاثة نماذج بصرية نموذجية. مهام تحليل النص الموجودة: اكتشاف النص، واستخراج المعلومات الأساسية، والتعرف على الجدول. في OmniParser، تشترك جميع المهام في بنية التشفير وفك التشفير الموحدة ، والهدف الموحد: إنشاء نص مشروط بنقطة ، والتمثيل الموحد للمدخلات والمخرجات: تسلسلات سريعة ومنظم .
إصدار 2024.3
- GEM ( GEM: نموذج لغة الترميز المحسّن Gestalt لفهم الويب عبر Render Tree، EMNLP 2023.paper): تعمل صفحات الويب كحاملات مهمة للبشر لاكتساب المعلومات وإدراكها. مستوحاة من نظرية الجشطالت النفسية، نقترح نموذجًا مبتكرًا للغة الترميز المحسنة الجشطالت (GEM للاختصار) لاستضافة معلومات مرئية غير متجانسة من أشجار عرض صفحات الويب ، مما يؤدي إلى أداء ممتاز في مهام مثل الإجابة على أسئلة الويب واستخراج معلومات الويب.
إصدار 2023.9
- DocXChain ( DocXChain: سلسلة أدوات قوية مفتوحة المصدر لتحليل المستندات وما بعدها، تقرير arXiv 2023): لتعزيز مستوى الرقمنة والهيكلة للمستندات ، نقوم بتطوير وإصدار سلسلة أدوات مفتوحة المصدر، تسمى DocXChain، للحصول على معلومات دقيقة ومفصلة تحليل الوثيقة. حاليًا، يتم توفير الإمكانيات الأساسية، بما في ذلك اكتشاف النص والتعرف على النص والتعرف على بنية الجدول وتحليل التخطيط. بالإضافة إلى ذلك، تم تصميم خطوط الأنابيب النموذجية، مثل قراءة النص العامة، وتحليل الجدول، وهيكلة المستندات، لدعم التطبيقات الأكثر تعقيدًا المتعلقة بالمستندات. معظم النماذج الخوارزمية هي من ModelScope. يتم الآن دعم التعرف على الصيغة (باستخدام نماذج من RapidLatexOCR) وتحويل PDF بالكامل (تنسيق PDF إلى JSON).
- LISTER ( LISTER: فك ترميز الجوار للتعرف على نص المشهد غير الحساس للطول، ICCV 2023. ورقة): نقترح طريقة تسمى أداة التعرف على نصوص المشهد غير الحساس للطول (LISTER)، والتي تعالج القيود المتعلقة بمتانة أطوال النص المختلفة . على وجه التحديد، يُقترح استخدام وحدة فك ترميز الجوار للحصول على خرائط دقيقة لانتباه الأحرف بمساعدة مصفوفة جوار جديدة بغض النظر عن أطوال النص. علاوة على ذلك، تم تصميم وحدة تحسين الميزات لنمذجة التبعية طويلة المدى بتكلفة حسابية منخفضة، والتي تكون قادرة على إجراء تكرارات مع وحدة فك ترميز الجار لتحسين خريطة الميزات تدريجيًا.
- VGT ( محول شبكة الرؤية لتحليل تخطيط المستند، ورقة ICCV 2023): للاستفادة الكاملة من المعلومات متعددة الوسائط واستغلال تقنيات ما قبل التدريب لتعلم تمثيل أفضل لتحليل تخطيط المستند (DLA)، نقدم VGT، وهي رؤية ثنائية التدفق محول الشبكة، حيث يتم اقتراح محول الشبكة (GiT) وتدريبه مسبقًا على الفهم الدلالي على مستوى الرمز المميز ثنائي الأبعاد وعلى مستوى المقطع. بالإضافة إلى ذلك، تم تنظيم وإصدار معيار جديد لتقييم خوارزميات تحليل تخطيط المستند، يسمى D^4LA.
- VLPT-STD ( التدريب المسبق للغة الرؤية لتعزيز أجهزة الكشف عن نص المشهد، CVPR 2022. ورقة): نقوم بتكييف التعلم المشترك للغة الرؤية لاكتشاف نص المشهد ، وهي مهمة تتضمن في جوهرها تفاعلًا متعدد الوسائط بين الطريقتين: الرؤية و لغة. النموذج المُدرب مسبقًا قادر على إنتاج تمثيلات أكثر إفادة مع دلالات أكثر ثراءً، والتي يمكن أن تفيد بسهولة أجهزة الكشف عن نص المشهد الموجودة (مثل EAST وDB) في مهمة اكتشاف النص المتدفق.
إصدار 2023.6
- LiteWeightOCR ( إنشاء أداة التعرف على النصوص المحمولة عبر NAS المستندة إلى SVD والموجهة بالتقطير المعرفي، ورقة BMVC 2023): لجعل نماذج التعرف الضوئي على الحروف قابلة للنشر على الأجهزة المحمولة مع الحفاظ على الدقة العالية ، نقترح أداة التعرف على النصوص خفيفة الوزن التي تدمج القيمة المفردة المقتطعة تحليل المعرفة المستندة إلى التحلل (TSVD) (KD) في عملية البحث في الهندسة المعمارية العصبية (NAS).
إصدار 2023.4
- GeoLayoutLM ( GeoLayoutLM: التدريب المسبق الهندسي لاستخراج المعلومات المرئية، CVPR 2023. ورقة): نقترح إطار عمل متعدد الوسائط، يسمى GeoLayoutLM، لاستخراج المعلومات المرئية (VIE). على عكس الأساليب السابقة للتدريب المسبق على المستندات، والتي عادةً ما تتعلم التمثيل الهندسي بطريقة ضمنية، فإن GeoLayoutLM تصمم بشكل واضح العلاقات الهندسية للكيانات في المستندات .
إصدار 2023.2
- LORE-TSR ( LORE: شبكة انحدار الموقع المنطقي للتعرف على بنية الجدول، AAAI 2022. ورقة): نحن نصمم التعرف على بنية الجدول (TSR) كمشكلة انحدار الموقع المنطقي ونقترح خوارزمية جديدة تسمى LORE، والتي تمثل شبكة انحدار الموقع المنطقي، والذي يجمع لأول مرة بين انحدار الموقع المنطقي وانحدار الموقع المكاني لخلايا الجدول.
إصدار 2022.9
- MGP-STR ( التنبؤ متعدد التفاصيل للتعرف على نص المشهد، ورقة ECCV 2022): استنادًا إلى ViT ووحدة المعالجة والتجميع التكيفية المخصصة، نستكشف طريقة ضمنية لدمج المعرفة اللغوية من خلال تقديم تمثيلات الكلمات الفرعية لتسهيل التنبؤ متعدد التفاصيل والاندماج في التعرف على نص المشهد.
- LevOCR ( Levenshtein OCR، ECCV 2022.paper): مستوحاة من Levenshtein Transformer، قمنا بطرح مشكلة التعرف على نص المشهد كعملية تحسين تسلسل تكرارية، مما يسمح بفك التشفير المتوازي وتغيير الطول الديناميكي وقابلية التفسير الجيدة .