Vary-toy: โมเดลภาษาขนาดใหญ่ขนาดกะทัดรัดสำหรับคำศัพท์ภาพระดับสูงเพื่อระบุวัตถุเป้าหมายได้อย่างง่ายดาย

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-01 02:48:02

เทคโนโลยี MEGVII เปิดตัวโมเดลภาษาขนาดใหญ่ที่มีคำศัพท์ภาพใหม่ที่เรียกว่า Vary-toy ซึ่งเป็นโมเดลขั้นสูงที่สามารถทำงานบน GPU มาตรฐานได้ โมเดลนี้ปรับปรุงความสามารถในการรับรู้ภาพอย่างมีนัยสำคัญโดยการปรับการสร้างคำศัพท์ด้วยภาพให้เหมาะสม และได้รับผลลัพธ์ที่ยอดเยี่ยมในการทดสอบเกณฑ์มาตรฐานหลายรายการ เช่น DocVQA, ChartQA และ RefCOCO ขนาดที่เล็กของ Vary-toy ทำให้เหมาะสำหรับนักวิจัยที่มีทรัพยากรจำกัด โดยให้แบบจำลองพื้นฐานที่มีประสิทธิภาพและใช้งานง่าย

เทคโนโลยี MEGVII เปิดตัว Vary-toy โมเดลภาษาคำศัพท์ภาพขั้นสูงขนาดใหญ่ที่เหมาะสำหรับ GPU มาตรฐาน มุ่งหวังที่จะปรับปรุงการรับรู้ภาพโดยเพิ่มประสิทธิภาพการสร้างคำศัพท์ด้วยภาพ Vary-toy ได้รับผลลัพธ์ที่น่าทึ่งในการทดสอบเกณฑ์มาตรฐานหลายรายการ รวมถึง DocVQA, ChartQA, RefCOCO เป็นต้น ขนาดที่เล็กทำให้เป็นมาตรฐานในทางปฏิบัติสำหรับนักวิจัยที่มีทรัพยากรจำกัด นักวิจัยวางแผนที่จะเผยแพร่โค้ดต่อสาธารณะเพื่อขับเคลื่อนการวิจัยและการนำไปใช้เพิ่มเติม

การเปิดตัว Vary-toy ไม่เพียงแต่แสดงให้เห็นถึงความแข็งแกร่งทางเทคนิคขั้นสูงของเทคโนโลยี MEGVII ในด้านคอมพิวเตอร์วิทัศน์เท่านั้น แต่ยังมอบทรัพยากรที่มีคุณค่าให้กับแวดวงวิชาการและอุตสาหกรรมอีกด้วย รหัสที่ปล่อยออกมาในอนาคตจะส่งเสริมความก้าวหน้าและการใช้งานในด้านนี้ต่อไป ซึ่งคุ้มค่ากับการรอคอย