Mit der raschen Entwicklung der Technologie für künstliche Intelligenz ist die Integration von Vision- und Textdaten zu einer wichtigen Herausforderung geworden. Traditionelle Modelle haben viele Einschränkungen bei strukturierten visuellen Dokumenten, die sich auf die automatische Inhaltsextraktion und das Verständnis auswirken. Die kürzlich veröffentlichte Granit-Vision-3.1-2B von IBM ist ein visuelles Sprachmodell, das dieses Problem lösen soll.
Mit der kontinuierlichen Entwicklung der Technologie für künstliche Intelligenz ist die Integration von Vision- und Textdaten zu einer komplexen Herausforderung geworden. Traditionelle Modelle haben häufig Schwierigkeiten, strukturierte visuelle Dokumente wie Tabellen, Diagramme, Infografiken und Illustrationen zu analysieren. Angesichts dieser Nachfrage hat IBM kürzlich Granit-Vision-3.1-2B veröffentlicht, ein kleines Modell für visuelle Sprache, das für das Verständnis des Dokuments entwickelt wurde.
Granit-Vision-3.1-2B kann Inhalte aus einer Vielzahl von visuellen Formaten extrahieren, einschließlich Tabellen, Diagrammen und Abbildungen. Das Modell wird in einem sorgfältig ausgewählten Datensatz mit Datenquellen einschließlich öffentlicher und synthetischer Quellen geschult, die in der Lage sind, eine Vielzahl von dokumentbezogenen Aufgaben zu erledigen. Als verbesserte Version von Granites großer Sprachmodell integriert es die beiden Modalitäten von Bild und Text, wodurch die Interpretationsfähigkeit des Modells verbessert wird und für eine Vielzahl praktischer Anwendungsszenarien geeignet ist.
Das Modell besteht aus drei Schlüsselkomponenten: Erstens das visuelle Encoder, der visuelle Daten mithilfe von Siglip verarbeitet und codiert. Visuelle Informationen mit Textinformationen;
Während des Trainings stützt sich Granit-Vision-3.1-2B auf LLAVA und kombiniert die Eigenschaften von Multilayer-Encodern sowie eine dichtere Gitterauflösung in beliebigen Rücken. Diese Verbesserungen verbessern die Fähigkeit des Modells, detaillierte visuelle Inhalte zu verstehen, sodass es genauer visuelle Dokumentenaufgaben ausführen kann, z. B. die Analyse von Tabellen und Diagrammen, die Ausführung der optischen Charaktererkennung (OCR) und die Beantwortung dokumentbasierter Abfragen.
Die Evaluierungsergebnisse zeigen, dass Granit-Vision-3.1-2B in mehreren Benchmarks, insbesondere im Dokumentenverständnis, gut abgeschnitten hat. In der ChartQA-Benchmark erzielte das Modell 0,86 und übertraf andere Modelle mit Parametern im 1B-4b-Bereich. In der TextVQA -Benchmark beträgt die Punktzahl 0,76 und zeigt eine starke Fähigkeit, Textinformationen in Bildern zu analysieren und zu beantworten. Diese Ergebnisse unterstreichen das Potenzial des Modells für eine präzise visuelle und Textdatenverarbeitung in Unternehmensanwendungen.
IBMs Granit-Vision-3.1-2B stellt einen wichtigen Fortschritt im visuellen Sprachmodell dar und bietet eine ausgewogene Lösung zum Verständnis der visuellen Dokumente. Mit seinen Architektur- und Trainingsmethoden können komplexe visuelle und Textdaten effizient analysiert und analysiert werden. Dank seiner nativen Unterstützung für Transformers und VLLM kann das Modell an eine Vielzahl von Anwendungsfällen angepasst und in Cloud-Umgebungen wie Colab T4 eingesetzt werden, um Forschern und Fachleuten ein praktisches Instrument zur Verbesserung der KI-gesteuerten Dokumentenverarbeitungsfähigkeiten zu bieten.
Modell: https://huggingface.co/ibm-granite/granite-vision-3.1-2b-preview
Schlüsselpunkte:
Granit-Vision-3.1-2B ist ein kleines visuelles Sprachmodell, das speziell für das Verständnis von Dokumenten durch IBM entwickelt wurde und die Inhaltsextraktion in mehreren visuellen Formaten verarbeiten kann.
Das Modell besteht aus drei Teilen: visueller Encoder, visueller Sprachanschluss und großes Sprachmodell, das das Verständnis komplexer Eingaben verbessert.
Hervorragend in mehreren Benchmarks, insbesondere im Bereich des Dokumentverständnisses und zeigt ein starkes Unternehmenspotential.
IBMs Granit-Vision-3.1-2B verbessert nicht nur die Fähigkeit, visuelle und textdaten zu integrieren, sondern bietet Unternehmen auch leistungsstarke Tools zur Verarbeitung von Dokumenten, wodurch das enorme Potenzial der AI-Technologie in praktischen Anwendungen demonstriert.