NVIDIA bekerja sama dengan tim peneliti Georgia Tech, UMD, dan HKPU untuk meluncurkan model bahasa visual baru NVEagle. Model bahasa besar multi-modal (MLLM) ini dapat memahami gambar dan melakukan percakapan bahasa alami, menjadikannya asisten super yang dapat "melihat dan berbicara". Ini secara signifikan meningkatkan pemahaman informasi visual dengan mengubah gambar menjadi markup visual dan menggabungkannya dengan penyematan teks, dan berkinerja baik pada berbagai tolok ukur, seperti mencapai skor rata-rata 85,9 di OCRBench, melampaui banyak Model terkemuka. NVEagle menyediakan tiga versi untuk memenuhi persyaratan tugas yang berbeda, di antaranya versi 13B-Chat dioptimalkan secara khusus untuk AI percakapan.
Misalnya, ia dapat secara akurat mengidentifikasi orang dalam gambar dan menjawab pertanyaan seperti "Huang Renxun". Namun, membangun model yang kuat juga memiliki tantangan, seperti fenomena “halusinasi” dalam pemrosesan gambar resolusi tinggi. Tim peneliti berhasil mengatasi kesulitan ini dan mencapai pemrosesan informasi visual kompleks yang akurat dengan mengeksplorasi berbagai encoder visual dan strategi fusi, terutama menggunakan mekanisme Mixed Expert (MoE). NVEagle telah dirilis pada platform Hugging Face untuk kenyamanan para peneliti dan pengembang. Performanya yang luar biasa dalam tugas-tugas seperti OCR, TextVQA, dan GQA menunjukkan kemampuan pemahaman visual dan pembuatan bahasanya yang kuat, sehingga menetapkan tolok ukur baru untuk pengembangan model bahasa visual.
Pintu masuk proyek: https://top.aibase.com/tool/eagle
demo: https://huggingface.co/spaces/NVEagle/Eagle-X5-13B-Chat
Menyorot:
NVEagle adalah model bahasa visual generasi baru yang diluncurkan oleh NVIDIA, dirancang untuk meningkatkan pemahaman informasi visual yang kompleks.
Model ini berisi tiga versi, yang cocok untuk tugas berbeda. Versi 13B-Chat berfokus pada AI percakapan.
?Di berbagai tolok ukur, model Eagle mengungguli banyak model terkemuka yang ada, sehingga menunjukkan kinerja yang unggul.
Secara keseluruhan, kemunculan NVEagle menandai terobosan besar dalam teknologi model bahasa visual. Kinerjanya yang kuat dan kemudahan penggunaannya akan membawa inovasi pada banyak skenario aplikasi dan mendorong pengembangan lebih lanjut dari teknologi kecerdasan buatan. Kami menantikan penerapan yang lebih luas dan penelitian yang lebih mendalam tentang NVEagle di masa depan.