Vary-toy: Model bahasa skala besar yang ringkas untuk kosakata visual tingkat tinggi agar mudah mengidentifikasi objek target

Penulis：Eve Cole Waktu Pembaruan：2025-02-01 02:48:02

Teknologi MEGVII meluncurkan model bahasa skala besar kosakata visual baru yang disebut Vary-toy, yang merupakan model canggih yang dapat berjalan pada GPU standar. Model ini secara signifikan meningkatkan kemampuan persepsi gambar dengan mengoptimalkan penciptaan kosakata visual, dan telah mencapai hasil yang sangat baik dalam berbagai pengujian benchmark seperti DocVQA, ChartQA, dan RefCOCO. Ukuran Vary-toy yang kecil menjadikannya ideal bagi para peneliti yang memiliki sumber daya terbatas, sehingga memberi mereka model dasar yang efisien dan mudah digunakan.

Teknologi MEGVII merilis Vary-toy, model bahasa skala besar kosakata visual canggih yang cocok untuk GPU standar. Bertujuan untuk meningkatkan persepsi gambar dengan mengoptimalkan penciptaan kosakata visual. Vary-toy telah mencapai hasil luar biasa dalam berbagai pengujian benchmark, termasuk DocVQA, ChartQA, RefCOCO, dll. Ukurannya yang kecil menjadikannya tolak ukur praktis bagi para peneliti dengan sumber daya terbatas. Para peneliti berencana untuk merilis kode tersebut secara publik untuk mendorong penelitian dan adopsi lebih lanjut.

Peluncuran Vary-toy tidak hanya menunjukkan kekuatan teknis canggih MEGVII Technology di bidang visi komputer, namun juga menyediakan sumber daya berharga bagi akademisi dan industri. Kode yang dirilis di masa mendatang akan semakin mendorong kemajuan dan penerapan di bidang ini, yang patut dinantikan.