Universitas Teknik Anhui, Universitas Teknologi Nanyang, dan Universitas Lehigh bersama-sama meluncurkan model besar multi-modal yang menarik - TinyGPT-V. Fitur penting dari model ini adalah efektivitas biayanya yang luar biasa: kinerjanya sebanding dengan model dengan puluhan miliar parameter, namun hanya memerlukan GPU 24G untuk menyelesaikan pelatihan, sehingga sangat menurunkan ambang batas sumber daya. Tidak diragukan lagi, hal ini merupakan keuntungan besar bagi individu dan institusi yang ingin melakukan penelitian dan penerapan model berskala besar dengan sumber daya terbatas. Arsitektur TinyGPT-V sebagian besar terdiri dari model bahasa besar Phi-2, encoder visual, dan lapisan proyeksi linier. Hasil evaluasi kinerja multi-sudutnya juga menunjukkan kekuatannya yang kuat dalam berbagai tugas bahasa visual.
Para peneliti dari Anhui Engineering University, Nanyang Technological University, dan Lehigh University telah membuat model multi-modal besar menjadi sumber terbuka - TinyGPT-V. Performanya sebanding dengan model dengan puluhan miliar parameter, dan pelatihan hanya memerlukan GPU 24G untuk menyelesaikannya. TinyGPT-V terutama terdiri dari tiga blok utama: model bahasa besar Phi-2, encoder visual, dan lapisan proyeksi linier. Para peneliti melakukan evaluasi multi-sudut terhadap kinerja TinyGPT-V, menunjukkan kinerjanya yang kuat pada berbagai tugas bahasa visual.
TinyGPT-V sumber terbuka memberikan ide dan kemungkinan baru untuk penelitian dan penerapan model besar multi-modal, dan juga menandai kemajuan signifikan dalam menurunkan ambang batas untuk pelatihan model besar. Di masa depan, kita dapat mengharapkan lebih banyak model besar serupa yang berefisiensi tinggi dan berbiaya rendah akan muncul, yang selanjutnya mendorong pemasyarakatan dan pengembangan teknologi kecerdasan buatan. Kinerjanya yang efisien dalam lingkungan dengan sumber daya terbatas telah membawa kabar baik bagi akademisi dan industri.