Alibaba Damo Academy merilis Valley2, model bahasa multi-modal berskala besar berdasarkan skenario e-commerce. Model ini menggabungkan Qwen2.5, encoder visual SigLIP-384 dan modul Eagle yang inovatif serta adaptor konvolusi untuk meningkatkan kinerja e-commerce dan aplikasi di bidang video pendek. Kumpulan data Valley2 mencakup data gaya OneVision, data lapangan e-niaga dan video pendek, serta data pemikiran rantai. Setelah pelatihan multi-tahap, ia telah mencapai hasil yang sangat baik dalam berbagai uji benchmark publik, terutama dalam evaluasi terkait e-niaga. Optimalisasi desain arsitektur dan strategi pelatihannya memberikan ide-ide baru untuk meningkatkan kinerja model multimodal besar.
Alibaba Damo Academy baru-baru ini meluncurkan model bahasa multi-modal berskala besar yang disebut Valley2. Model ini dirancang berdasarkan skenario e-commerce dan bertujuan untuk meningkatkan kinerja di berbagai bidang dan memperluas e-commerce dan penggunaan jangka pendek melalui visual yang terukur. arsitektur bahasa. Batasan aplikasi adegan video. Valley2 menggunakan Qwen2.5 sebagai tulang punggung LLM, dipasangkan dengan encoder visual SigLIP-384, dan menggabungkan lapisan dan konvolusi MLP untuk konversi fitur yang efisien. Inovasinya terletak pada pengenalan kosakata visual yang besar, adaptor konvolusi (ConvAdapter) dan modul Eagle, yang meningkatkan fleksibilitas pemrosesan beragam masukan dunia nyata dan efisiensi inferensi pelatihan.
Data Valley2 terdiri dari data gaya OneVision, data untuk e-commerce dan bidang video pendek, serta data Chain of Thinking (CoT) untuk pemecahan masalah yang kompleks. Proses pelatihan dibagi menjadi empat tahap: penyelarasan teks-visual, pembelajaran pengetahuan berkualitas tinggi, penyempurnaan instruksi, dan pemikiran berantai pasca pelatihan. Dalam eksperimen, Valley2 berkinerja baik dalam beberapa pengujian benchmark publik, terutama dengan skor tinggi pada MMBench, MMStar, MathVista, dan benchmark lainnya, dan juga mengungguli model lain dengan ukuran yang sama dalam pengujian benchmark Ecom-VQA.
Di masa depan, Alibaba DAMO Academy berencana untuk merilis model komprehensif termasuk modalitas teks, gambar, video dan audio, dan memperkenalkan metode pelatihan penyematan multi-modal berbasis Valley untuk mendukung aplikasi pengambilan dan deteksi hilir.
Peluncuran Valley2 menandai kemajuan penting di bidang model bahasa multi-modal berskala besar, yang menunjukkan kemungkinan peningkatan kinerja model melalui perbaikan struktural, konstruksi kumpulan data, dan optimalisasi strategi pelatihan.
Tautan model:
https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B
Tautan kode:
https://github.com/bytedance/Valley
Tautan kertas:
https://arxiv.org/abs/2501.05901
Peluncuran Valley2 tidak hanya menunjukkan kecanggihan teknologi Alibaba Damo Academy di bidang model multi-modal besar, namun juga menunjukkan bahwa bidang e-commerce dan video pendek akan menghasilkan aplikasi yang lebih inovatif berdasarkan AI di masa depan. Kami berharap Valley2 dapat lebih meningkatkan dan memperluas skenario penerapannya di masa depan, menghadirkan layanan yang lebih nyaman dan cerdas bagi pengguna.