NVIDIA arbeitet mit den Forschungsteams von Georgia Tech, UMD und HKPU zusammen, um ein neues visuelles Sprachmodell NVEagle auf den Markt zu bringen. Dieses multimodale Large Language Model (MLLM) kann Bilder verstehen und Gespräche in natürlicher Sprache führen, was es zu einem hervorragenden Assistenten macht, der „sehen und sprechen“ kann. Es verbessert das Verständnis visueller Informationen erheblich, indem es Bilder in visuelle Markups umwandelt und sie mit Texteinbettungen kombiniert. Es schneidet bei mehreren Benchmarks gut ab und erreicht beispielsweise eine durchschnittliche Punktzahl von 85,9 bei OCRBench, womit es viele führende Modelle übertrifft. NVEagle bietet drei Versionen, um unterschiedliche Aufgabenanforderungen zu erfüllen, darunter die 13B-Chat-Version, die speziell für Konversations-KI optimiert ist.
Es kann beispielsweise Personen auf Bildern genau identifizieren und Fragen wie „Huang Renxun“ beantworten. Der Aufbau eines so leistungsstarken Modells bringt jedoch auch Herausforderungen mit sich, wie zum Beispiel das Phänomen der „Halluzination“ bei der hochauflösenden Bildverarbeitung. Das Forschungsteam überwand diese Schwierigkeiten erfolgreich und erreichte eine genaue Verarbeitung komplexer visueller Informationen, indem es verschiedene visuelle Encoder und Fusionsstrategien untersuchte, insbesondere mithilfe des Mixed Expert (MoE)-Mechanismus. NVEagle wurde zur Erleichterung von Forschern und Entwicklern auf der Hugging Face-Plattform veröffentlicht. Seine hervorragende Leistung bei Aufgaben wie OCR, TextVQA und GQA demonstriert sein leistungsstarkes visuelles Verständnis und seine Fähigkeiten zur Sprachgenerierung und setzt neue Maßstäbe für die Entwicklung visueller Sprachmodelle.
Projekteingang: https://top.aibase.com/tool/eagle
Demo: https://huggingface.co/spaces/NVEagle/Eagle-X5-13B-Chat
Highlight:
NVEagle ist ein von NVIDIA eingeführtes visuelles Sprachmodell der neuen Generation, das das Verständnis komplexer visueller Informationen verbessern soll.
Das Modell enthält drei Versionen, die für unterschiedliche Aufgaben geeignet sind. Die 13B-Chat-Version konzentriert sich auf Konversations-KI.
„In mehreren Benchmarks übertrifft das Eagle-Modell viele bestehende Spitzenmodelle und zeigt eine überlegene Leistung.
Alles in allem stellt die Einführung von NVEagle einen großen Durchbruch in der visuellen Sprachmodelltechnologie dar. Seine leistungsstarke Leistung und Benutzerfreundlichkeit werden Innovationen in viele Anwendungsszenarien bringen und die Weiterentwicklung der Technologie der künstlichen Intelligenz fördern. Wir freuen uns auf breitere Anwendungen und eingehendere Forschung zu NVEagle in der Zukunft.