في عصر انفجار المعلومات، من الضروري معالجة المعلومات النصية في الصور بكفاءة. سيقدم محرر Downcodes نموذجًا ثوريًا للتعرف الضوئي على الحروف (OCR) اليوم - GOT (النظرية العامة للتعرف البصري على الأحرف)، والذي يمثل دخول تقنية التعرف الضوئي على الحروف (OCR) إلى عصر 2.0. يجمع نموذج GOT بين مزايا التعرف الضوئي على الحروف التقليدي ونماذج اللغات الكبيرة، ويحقق اختراقات جديدة في مجال التعرف على النص من خلال أدائه القوي وتعدد استخداماته. لا يمكنه التعرف على المستندات ونصوص المشهد الإنجليزية والصينية فحسب، بل يمكنه أيضًا التعامل مع المعلومات المعقدة مثل الصيغ الرياضية والكيميائية ورموز الموسيقى والرسوم البيانية وما إلى ذلك. ويمكن أن يطلق عليه "اللاعب الشامل" في مجال التعرف الضوئي على الحروف.
في العصر الرقمي، يعد تحويل محتوى النص في الصور بسرعة إلى نص قابل للتحرير متطلبًا شائعًا ومهمًا. الآن، يمثل ظهور نموذج جديد للتعرف البصري على الأحرف (OCR) يسمى GOT (النظرية العامة للتعرف البصري على الأحرف) دخول تقنية التعرف الضوئي على الحروف (OCR) في عصر 2.0. يجمع هذا النموذج المبتكر بين مزايا أنظمة التعرف الضوئي على الحروف التقليدية ونماذج اللغة واسعة النطاق لإنشاء أداة أكثر كفاءة وذكاءً للتعرف على النص.
يعتمد نموذج GOT بنية مبتكرة شاملة، ولا يوفر هذا التصميم الموارد فحسب، بل يعمل أيضًا على توسيع قدرات التعرف إلى ما هو أبعد من التعرف على النص. يتكون النموذج من أداة تشفير للصور تحتوي على ما يقرب من 80 مليون معلمة ووحدة فك ترميز تحتوي على حوالي 5 ملايين معلمة. يستطيع برنامج تشفير الصور ضغط الصور حتى 1024 × 1024 بكسل إلى وحدات بيانات، بينما يقوم برنامج فك التشفير بتحويل هذه البيانات إلى نص يصل طوله إلى 8000 حرف.
تكمن قوة GOT في تعدد استخداماته، فهو لا يمكنه التعرف على المستندات ونصوص المشاهد الإنجليزية والصينية وتحويلها فحسب، بل يمكنه أيضًا معالجة الصيغ الرياضية والكيميائية والرموز الموسيقية والأشكال الهندسية البسيطة والرسوم البيانية المتنوعة. وهذا يجعل GOT لعبة شاملة حقيقية.
لتدريب هذا النموذج، ركز فريق البحث أولاً على مهام التعرف على النص، ثم استخدم Qwen-0.5B من Alibaba كوحدة فك التشفير وقام بضبطه باستخدام مجموعة متنوعة من البيانات الاصطناعية. لقد استخدموا أدوات عرض احترافية مثل LaTeX وMathpix-markdown-it وMatplotlib لإنشاء ملايين من أزواج الصور والنص للتدريب على النماذج.
ومن المزايا الأخرى لتقنية OCR2.0 قدرتها على استخراج النصوص المنسقة والعناوين وحتى الصور متعددة الصفحات وتحويلها إلى تنسيق رقمي منظم. وهذا يفتح إمكانيات جديدة للمعالجة والتحليل الآلي في مجالات مثل العلوم والموسيقى وتحليل البيانات.
في اختبارات مهام التعرف الضوئي على الحروف المختلفة، أظهر GOT أداءً ممتازًا، وحقق نتائج رائدة في الصناعة في التعرف على نصوص المستندات والمشاهد، بل وتجاوز العديد من النماذج الاحترافية ونماذج اللغات الكبيرة في التعرف على المخططات. سواء أكان الأمر يتعلق بصيغ التركيب الكيميائي المعقدة، أو التدوين الموسيقي وتصور البيانات، يمكن لـ OCR2.0 التقاطها بدقة وتحويلها إلى تنسيقات يمكن قراءتها آليًا.
من أجل السماح لمزيد من المستخدمين بتجربة هذه التكنولوجيا واستخدامها، أصدر فريق البحث عروضًا توضيحية مجانية وأكوادًا على منصة Hugging Face. لقد أحدث وصول OCR2.0 بلا شك ثورة في مجال معالجة المعلومات، فهو لا يحسن الكفاءة فحسب، بل يزيد أيضًا من المرونة، مما يسمح لنا بمعالجة المعلومات النصية في الصور بسهولة أكبر.
لا شك أن ظهور نموذج GOT قد ضخ حيوية جديدة في تقنية التعرف الضوئي على الحروف (OCR)، وسيتم استخدام ميزاته الفعالة والدقيقة والمتعددة الاستخدامات على نطاق واسع في جميع مناحي الحياة، مما يوفر المزيد من الراحة لعمل الناس وحياتهم. نحن نتطلع إلى مواصلة تحسين نموذج GOT في المستقبل وتقديم المزيد من المفاجآت لنا!