À l’ère de l’explosion de l’information, il est crucial de traiter efficacement les informations textuelles dans les images. L'éditeur de Downcodes présentera aujourd'hui un modèle OCR révolutionnaire - GOT (General Optical Character Recognition Theory), qui marque l'entrée de la technologie OCR dans l'ère 2.0. Le modèle GOT combine les avantages de l'OCR traditionnel et des grands modèles linguistiques, et apporte de nouvelles avancées dans le domaine de la reconnaissance de texte grâce à ses puissantes performances et sa polyvalence. Il peut non seulement reconnaître des documents et des textes de scènes anglais et chinois, mais également traiter des informations complexes telles que des formules mathématiques et chimiques, des symboles musicaux, des graphiques, etc. Il peut être qualifié d'« acteur polyvalent » dans le domaine de l'OCR.
À l’ère du numérique, la conversion rapide du contenu textuel des images en texte modifiable est une exigence courante et importante. Aujourd'hui, l'avènement d'un nouveau modèle de reconnaissance optique de caractères (OCR) appelé GOT (General Optical Character Recognition Theory) marque l'entrée de la technologie OCR dans l'ère 2.0. Ce modèle innovant combine les avantages des systèmes OCR traditionnels et des modèles linguistiques à grande échelle pour créer un outil de reconnaissance de texte plus efficace et plus intelligent.
Le modèle GOT adopte une architecture de bout en bout innovante. Cette conception permet non seulement d'économiser des ressources, mais étend également considérablement les capacités de reconnaissance au-delà de la reconnaissance de texte. Le modèle se compose d'un encodeur d'image avec environ 80 millions de paramètres et d'un décodeur avec environ 5 millions de paramètres. L'encodeur d'image est capable de compresser des images jusqu'à 1 024 x 1 024 pixels en unités de données, tandis que le décodeur convertit ces données en texte d'une longueur maximale de 8 000 caractères.
La puissance de GOT réside dans sa polyvalence. Il peut non seulement reconnaître et convertir des documents et des textes de scènes anglais et chinois, mais également traiter des formules mathématiques et chimiques, des symboles musicaux, des figures géométriques simples et divers graphiques. Cela fait de GOT un véritable outil polyvalent.
Pour former ce modèle, l'équipe de recherche s'est d'abord concentrée sur les tâches de reconnaissance de texte, puis a utilisé le Qwen-0.5B d'Alibaba comme décodeur et l'a peaufiné avec une variété de données synthétiques. Ils ont utilisé des outils de rendu professionnels tels que LaTeX, Mathpix-markdown-it et Matplotlib pour générer des millions de paires image-texte pour la formation du modèle.
Un autre point fort de la technologie OCR2.0 est sa capacité à extraire du texte formaté, des titres et même des images de plusieurs pages et à les convertir dans un format numérique structuré. Cela ouvre de nouvelles possibilités de traitement et d’analyse automatisés dans des domaines tels que la science, la musique et l’analyse des données.
Lors des tests de diverses tâches OCR, GOT a démontré d'excellentes performances, obtenant des résultats de pointe en matière de reconnaissance de documents et de textes de scènes, et surpassant même de nombreux modèles professionnels et grands modèles de langage en matière de reconnaissance de graphiques. Qu'il s'agisse de formules de structure chimique complexes, de notation musicale ou de visualisation de données, OCR2.0 peut les capturer avec précision et les convertir dans des formats lisibles par machine.
Afin de permettre à davantage d'utilisateurs de découvrir et d'utiliser cette technologie, l'équipe de recherche a publié des démos et du code gratuits sur la plateforme Hugging Face. L'arrivée de l'OCR2.0 a sans aucun doute apporté une révolution dans le domaine du traitement de l'information. Elle améliore non seulement l'efficacité, mais augmente également la flexibilité, nous permettant de traiter plus facilement les informations textuelles dans les images.
L'émergence du modèle GOT a sans aucun doute insufflé une nouvelle vitalité à la technologie OCR. Ses fonctionnalités efficaces, précises et polyvalentes seront largement utilisées dans tous les domaines, apportant plus de commodité au travail et à la vie des gens. Nous sommes impatients d'améliorer encore le modèle GOT à l'avenir et de nous apporter plus de surprises !