NVIDIA ร่วมมือกับทีมวิจัยของ Georgia Tech, UMD และ HKPU เพื่อเปิดตัวโมเดลภาษาภาพใหม่ NVEagle โมเดลภาษาขนาดใหญ่หลายรูปแบบ (MLLM) นี้สามารถเข้าใจรูปภาพและดำเนินการสนทนาด้วยภาษาธรรมชาติ ทำให้เป็นผู้ช่วยขั้นสูงที่สามารถ "มองเห็นและพูด" ได้ ช่วยปรับปรุงความเข้าใจเกี่ยวกับข้อมูลภาพอย่างมีนัยสำคัญโดยการแปลงรูปภาพเป็นมาร์กอัปภาพและรวมเข้ากับการฝังข้อความ และทำงานได้ดีกับการวัดประสิทธิภาพหลายรายการ เช่น ได้คะแนนเฉลี่ย 85.9 บน OCRBench ซึ่งเหนือกว่า Model ชั้นนำหลายตัว NVEagle มีสามเวอร์ชันเพื่อตอบสนองความต้องการงานที่แตกต่างกัน โดยในเวอร์ชัน 13B-Chat ได้รับการปรับให้เหมาะสมเป็นพิเศษสำหรับ AI การสนทนา
ตัวอย่างเช่น สามารถระบุบุคคลในภาพได้อย่างถูกต้องและตอบคำถามเช่น "Huang Renxun" อย่างไรก็ตาม การสร้างโมเดลที่ทรงพลังเช่นนี้ยังมาพร้อมกับความท้าทาย เช่น ปรากฏการณ์ “ภาพหลอน” ในการประมวลผลภาพที่มีความละเอียดสูง ทีมวิจัยเอาชนะปัญหาเหล่านี้ได้สำเร็จและประมวลผลข้อมูลภาพที่ซับซ้อนได้อย่างแม่นยำด้วยการสำรวจเครื่องเข้ารหัสภาพและกลยุทธ์การผสมภาพต่างๆ โดยเฉพาะอย่างยิ่งการใช้กลไก Mixed Expert (MoE) NVEagle ได้รับการเผยแพร่บนแพลตฟอร์ม Hugging Face เพื่อความสะดวกของนักวิจัยและนักพัฒนา ประสิทธิภาพที่ยอดเยี่ยมในงานต่างๆ เช่น OCR, TextVQA และ GQA แสดงให้เห็นถึงความเข้าใจด้านภาพและความสามารถในการสร้างภาษาอันทรงพลัง ซึ่งสร้างมาตรฐานใหม่สำหรับการพัฒนาโมเดลภาษาภาพ
ทางเข้าโครงการ: https://top.aibase.com/tool/eagle
สาธิต:https://huggingface.co/spaces/NVEagle/Eagle-X5-13B-Chat
ไฮไลท์:
NVEagle คือโมเดลภาษาภาพรุ่นใหม่ที่เปิดตัวโดย NVIDIA ซึ่งได้รับการออกแบบมาเพื่อปรับปรุงความเข้าใจในข้อมูลภาพที่ซับซ้อน
โมเดลนี้มีสามเวอร์ชันซึ่งเหมาะสำหรับงานที่แตกต่างกัน เวอร์ชัน 13B-Chat เน้นที่การสนทนา AI
?จากเกณฑ์มาตรฐานต่างๆ โมเดล Eagle มีประสิทธิภาพเหนือกว่ารุ่นชั้นนำที่มีอยู่มากมาย ซึ่งแสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่า
โดยรวมแล้ว การเกิดขึ้นของ NVEagle ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีโมเดลภาษาภาพ ประสิทธิภาพอันทรงพลังและความสะดวกในการใช้งานของ NVEagle จะนำนวัตกรรมมาสู่สถานการณ์การใช้งานต่างๆ มากมาย และส่งเสริมการพัฒนาเทคโนโลยีปัญญาประดิษฐ์เพิ่มเติม เราหวังว่าจะมีการใช้งานที่กว้างขึ้นและการวิจัยเชิงลึกเพิ่มเติมเกี่ยวกับ NVEagle ในอนาคต