Alibaba Cloud baru -baru ini merilis model visual barunya dari Tongyi Qianwen Big Model - Qwen2.5 -VL, dan telah dibuka dengan sumber tiga versi ukuran berbeda dari 3B, 7B dan 72B. Langkah ini menandai terobosan yang signifikan di bidang AI Vision . QWEN2.5-VL tidak hanya memiliki kemampuan pemahaman gambar yang kuat, tetapi juga mendukung lebih dari satu jam pemahaman video. Berlangganan.
Alibaba Cloud Tongyi Qianwen telah membuka sumber model visual baru QWEN2.5-VL, dan meluncurkan tiga versi ukuran dalam 3B, 7B dan 72B.
Di antara mereka, unggulan Qwen2.5-VL-72B memenangkan kejuaraan pemahaman visual dalam 13 ulasan otoritatif, melampaui GPT-4O dan Claude3.5. Alibaba Cloud secara resmi memperkenalkan bahwa QWEN2.5-VL yang baru dapat lebih akurat menguraikan konten gambar dan mendukung lebih dari 1 jam pemahaman video. Model ini dapat mencari acara tertentu dalam video dan merangkum poin -poin penting dari periode waktu yang berbeda dari video, sehingga dengan cepat dan efisien membantu pengguna mengekstrak informasi kunci dari video.
Selain itu, QWEN2.5-VL dapat diubah menjadi agen visual yang dapat mengontrol ponsel dan komputer tanpa penyesuaian, mencapai operasi multi-langkah dan kompleks, seperti mengirimkan berkah kepada teman yang ditunjuk, pengeditan foto komputer, dan tiket seluler Pemesanan Tunggu. QWEN2.5-VL tidak hanya pandai mengidentifikasi objek umum, seperti bunga, burung, ikan dan serangga, tetapi juga menganalisis teks, grafik, ikon, grafik, dan tata letak dalam gambar. Alibaba Cloud juga telah meningkatkan kemampuan pengenalan OCR QWEN2.5-VL, dan meningkatkan multi-adegan, multi-bahasa dan pengenalan teks multi-directional dan kemampuan penentuan posisi teks.
Pada saat yang sama, kemampuan ekstraksi informasi telah sangat ditingkatkan untuk memenuhi kebutuhan digital dan cerdas dari tinjauan kualifikasi, keuangan, dan perdagangan.
Poin:
Alibaba Cloud Tongyi Qianwen Open Source Qwen2.5-VL, Meluncurkan tiga versi 3B, 7B dan 72B.
QWEN2.5-VL-72B melampaui GPT-4O dan Claude3.5 dalam evaluasi pemahaman visual.
QWEN2.5-VL mendukung pemahaman video lebih dari 1 jam dan meningkatkan kemampuan pengakuan OCR.
Sumber terbuka QWEN2.5-VL akan sangat mempromosikan pengembangan visi AI dan membawa lebih banyak kemungkinan untuk aplikasi inovatif untuk semua lapisan masyarakat. Kinerja yang kuat dan prospek aplikasi yang luas tidak diragukan lagi akan mempromosikan pengembangan lebih lanjut dan mempopulerkan teknologi kecerdasan buatan.