L’éditeur de Downcodes vous fera découvrir les dernières avancées de l’équipe IA d’Alibaba ! Le modèle mPLUG-DocOwl1.5 qu'ils ont lancé offre d'excellentes capacités de compréhension de documents sans avoir recours à la technologie OCR. Ce modèle brise le goulot d'étranglement de la compréhension traditionnelle des documents et apprend à comprendre le contenu du document directement à partir des images. Son efficacité et sa précision sont étonnantes. Il peut non seulement traiter des documents ordinaires, mais prend également en charge une variété de types de documents tels que des tableaux, des graphiques, des pages Web et des images naturelles, faisant preuve d'une forte adaptabilité et capacités de traitement. Examinons de plus près les avantages et les orientations futures du développement de ce modèle d’IA de pointe.
Récemment, l'équipe de recherche en IA d'Alibaba a réalisé des progrès impressionnants dans le domaine de la compréhension des documents. Elle a lancé mPLUG-DocOwl1.5, un modèle de pointe qui fonctionne parfaitement sur les tâches de compréhension de documents sans OCR (reconnaissance optique de caractères).
Dans le passé, lors de tâches de compréhension de documents, nous nous appuyions souvent sur la technologie OCR pour extraire le texte des images, mais cela était souvent gêné par des mises en page complexes et du bruit visuel. mPLUG-DocOwl1.5 utilise un nouveau cadre d'apprentissage de structure unifié pour apprendre et comprendre des documents directement à partir d'images, évitant ainsi intelligemment ce goulot d'étranglement.
Ce modèle couvre cinq domaines comprenant les documents ordinaires, les tableaux, les graphiques, les pages Web et les images naturelles en analysant la mise en page et les capacités organisationnelles des documents dans différents domaines. Non seulement il reconnaît avec précision le texte, mais il utilise également des éléments tels que les espaces et les sauts de ligne pour comprendre la structure d'un document.
Pour les tableaux, le modèle peut générer des formats Markdown structurés et, lors de l'analyse des graphiques, il les convertit en tableaux de données en comprenant les relations entre les légendes, les axes et les valeurs. De plus, mPLUG-DocOwl1.5 a également la capacité d'extraire du texte à partir d'images naturelles.
En termes de localisation de texte, mPLUG-DocOwl1.5 est capable d'identifier et de localiser des mots, des phrases, des lignes et des blocs, garantissant un alignement précis entre les zones de texte et d'image. L'architecture H-Reducer qui la sous-tend combine des caractéristiques visuelles horizontalement via des opérations de convolution, conservant la disposition spatiale tout en réduisant la longueur de la séquence, améliorant ainsi l'efficacité du traitement.
Pour entraîner ce modèle, l’équipe de recherche a utilisé deux ensembles de données soigneusement sélectionnés. DocStruct4M est un ensemble de données à grande échelle axé sur l'apprentissage de structure unifié, et DocReason25K teste les capacités de raisonnement du modèle au moyen de questions et réponses étape par étape.
Les résultats montrent que mPLUG-DocOwl1.5 a établi de nouveaux records dans dix tests de référence, obtenant une amélioration de plus de 10 points sur la moitié des tâches par rapport à des modèles similaires. De plus, il démontre d’excellentes capacités de raisonnement verbal et est capable de générer des explications détaillées, étape par étape, pour ses réponses.
Bien que mPLUG-DocOwl1.5 ait réalisé des progrès significatifs à bien des égards, les chercheurs ont également réalisé qu'il restait encore place à l'amélioration du modèle, notamment dans la gestion des déclarations incohérentes ou erronées. À l’avenir, l’équipe espère étendre davantage le cadre d’apprentissage de structure unifié pour couvrir davantage de types et de tâches de documents, et promouvoir le développement ultérieur de l’IA documentaire.
Article : https://arxiv.org/abs/2403.12895
Code : https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
Souligner:
mPLUG-DocOwl1.5 est un modèle d'IA qui fonctionne parfaitement dans les tâches de compréhension de documents sans OCR.
Le modèle peut analyser la mise en page des documents, couvrir plusieurs types de documents et apprendre directement à partir des images.
mPLUG-DocOwl1.5 a établi de nouveaux records dans dix tests de référence, démontrant des capacités supérieures de raisonnement linguistique.
L'émergence de mPLUG-DocOwl1.5 marque une nouvelle étape dans la technologie de compréhension des documents. Son efficacité, sa précision et sa forte adaptabilité offrent des possibilités illimitées pour le futur traitement de documents et l'extraction d'informations. L'éditeur de Downcodes estime qu'avec les progrès continus de la technologie, mPLUG-DocOwl1.5 jouera un rôle important dans davantage de domaines et nous apportera une expérience de traitement de l'information plus intelligente.