นักวิจัยจาก Chinese University of Hong Kong และ SmartMore ได้ร่วมกันพัฒนากรอบงาน Visual Language Model (VLM) ที่เป็นนวัตกรรมใหม่ที่เรียกว่า Mini-Gemini เฟรมเวิร์กนี้ให้ผลลัพธ์ที่ยอดเยี่ยมนอกเหนือจากรุ่นที่มีอยู่ในการวัดประสิทธิภาพแบบ Zero-shot หลายรายการผ่านระบบตัวเข้ารหัสคู่และเทคโนโลยีการขุดข้อมูลแพตช์ Mini-Gemini แสดงให้เห็นถึงประสิทธิภาพและความแม่นยำสูงในการประมวลผลงานภาพและข้อความที่ซับซ้อน ซึ่งบ่งชี้ว่าเทคโนโลยี VLM มีความก้าวหน้าอย่างมากในการประมวลผลงานที่ซับซ้อน และยังให้ทิศทางใหม่สำหรับการพัฒนาด้าน AI ในอนาคต สถาปัตยกรรมที่มีประสิทธิภาพและประสิทธิภาพอันทรงพลังทำให้เป็นเหตุการณ์สำคัญในด้าน VLM
นักวิจัยจากมหาวิทยาลัยจีนแห่งฮ่องกงและ SmartMore ได้เปิดตัวกรอบงานใหม่ที่เรียกว่า Mini-Gemini เพื่อพัฒนาการพัฒนา VLM ผ่านระบบตัวเข้ารหัสคู่และเทคโนโลยีการทำเหมืองข้อมูลแบบแพตช์ Mini-Gemini ทำงานได้ดีกับการวัดประสิทธิภาพแบบ Zero-shot หลายแบบ ซึ่งมีประสิทธิภาพเหนือกว่ารุ่นที่มีอยู่ เฟรมเวิร์กนี้ใช้ระบบตัวเข้ารหัสคู่ การขุดข้อมูลแพตช์ และชุดข้อมูลคุณภาพสูงเพื่อส่งเสริมการพัฒนา VLM Mini-Gemini แสดงให้เห็นถึงประสิทธิภาพและความแม่นยำในการจัดการงานภาพและข้อความที่ซับซ้อน ขอบเขตการใช้งานและประสิทธิภาพของรุ่น Gemini ได้รับการขยายอย่างต่อเนื่อง แสดงให้เห็นศักยภาพที่ยอดเยี่ยมในด้าน AI
การเกิดขึ้นของกรอบงาน Mini-Gemini ถือเป็นความก้าวหน้าครั้งใหม่ในเทคโนโลยีแบบจำลองภาษาภาพ สถาปัตยกรรมที่มีประสิทธิภาพและประสิทธิภาพที่ยอดเยี่ยมในการทดสอบเกณฑ์มาตรฐานได้วางรากฐานที่มั่นคงสำหรับการประยุกต์ใช้ VLM ในอนาคตในสาขาต่างๆ มากขึ้น และยังเป็นแรงผลักดันใหม่สำหรับการพัฒนาเทคโนโลยีปัญญาประดิษฐ์อย่างต่อเนื่อง เชื่อกันว่า Mini-Gemini และเวอร์ชันที่ได้รับการปรับปรุงในภายหลังจะมีบทบาทสำคัญในการใช้งานจริงมากขึ้นในอนาคต