Unduhan PALM E - Unduhan kode sumber PALM E

PALM E

Kode Sumber AI

0.0.4

Unduh

Multi-Modalitas

? PALM-E: Model AI Multi-Modal

arsitektur model

Ini adalah implementasi open source dari model dasar multi-modalitas SOTA "PALM-E: An Embodied Multimodal Language Model" dari Google, PALM-E adalah model multimodal tunggal yang besar, yang dapat menangani berbagai tugas penalaran yang diwujudkan, mulai dari berbagai modalitas observasi, pada berbagai perwujudan, dan lebih jauh lagi, menunjukkan transfer positif: model ini mendapat manfaat dari beragam pelatihan bersama di domain bahasa, visi, dan bahasa visual berskala internet.

PAPER LINK: PaLM-E: Model Bahasa Multimodal yang Terwujud

Catatan

Ini hanyalah arsitektur model, tidak ada bobot yang telah dilatih sebelumnya, tidak ada tokenizer
Untuk benar-benar melakukan inferensi, Anda perlu -> menyiapkan tokenizer untuk teks dan gambar -> melatih -> inferensi
Jika Anda melakukan penelitian terhadap model multimodal dan ingin melatih model ini dan merilisnya secara open source, bergabunglah dengan lab agora dengan mengklik banner!

Apresiasi

Semua pencipta di Agora, Bergabunglah dengan Agora, komunitas insinyur AI yang mengubah dunia dengan kreasi mereka.
LucidRains yang telah menginspirasi saya untuk mengabdikan diri pada AI open source

Mulai Cepat

Instalasi?

pip install palme

Penggunaan ?

 import torch
from palme . model import PalmE

#usage
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))

model = PalmE ()
output = model ( img , caption )
print ( output . shape ) # (1, 1024, 20000)

Strategi Kumpulan Data

Berikut adalah tabel ringkasan kumpulan data utama yang disebutkan dalam makalah:

Kumpulan data	Tugas	Ukuran	Link
MEMADATKAN	Perencanaan manipulasi robot, VQA	96.000 adegan	Kumpulan data khusus
Tabel Bahasa	Perencanaan manipulasi robot	Kumpulan data khusus	Link
Manipulasi Seluler	Navigasi robot dan perencanaan manipulasi, VQA	2912 urutan	Berdasarkan kumpulan data SayCan
WebLI	Pengambilan gambar-teks	66 juta pasangan keterangan gambar	Link
VQAv2	Menjawab pertanyaan visual	1,1 juta pertanyaan tentang gambar COCO	Link
Oke-VQA	Menjawab pertanyaan visual membutuhkan pengetahuan eksternal	14.031 pertanyaan tentang gambar COCO	Link
KELAPA	Keterangan gambar	330 ribu gambar dengan teks	Link
Wikipedia	Korpus teks	T/A	Link

Kumpulan data robotika utama dikumpulkan secara khusus untuk pekerjaan ini, sedangkan kumpulan data bahasa visi yang lebih besar (WebLI, VQAv2, OK-VQA, COCO) adalah tolok ukur standar di bidang tersebut. Kumpulan datanya berkisar dari puluhan ribu contoh untuk domain robotika hingga puluhan juta untuk data bahasa visi berskala internet.

Berkontribusi || Menjadi Bagian dari Petualangan PALM-E?

Kecemerlangan Anda dibutuhkan! Bergabunglah bersama kami, dan bersama-sama, mari jadikan PALM-E lebih menakjubkan:

Dapatkan Salinan Anda : Garpu repo PALM-E.
Jadikan Lokal : Kloning garpu Anda.
Siapkan Peralatan Anda : Instal kebutuhannya.
Temukan & Inovasi : Selami kodenya.
Ciptakan Keajaiban Anda : Cabang dan kode.
Tunjukkan & Beritahu : Dorong perubahan Anda dan buat permintaan tarik.

? Perbaikan,? penyempurnaan, dokumen, atau ide – semuanya diterima! Mari kita bersama-sama membentuk masa depan AI.

Kutipan

@article{driess2023palme,
  title={PALM-E: An Embodied Multimodal Language Model},
  author={Driess, Danny and Xia, Fei and Sajjadi, Mehdi S. M. and Lynch, Corey and Chowdhery, Aakanksha and Ichter, Brian and Wahid, Ayzaan and Tompson, Jonathan and Vuong, Quan and Yu, Tianhe and Huang, Wenlong and Chebotar, Yevgen and Sermanet, Pierre and Duckworth, Daniel and Levine, Sergey and Vanhoucke, Vincent and Hausman, Karol and Toussaint, Marc and Greff, Klaus and Zeng, Andy and Mordatch, Igor and Florence, Pete},
  journal={arXiv preprint arXiv:2303.03378},
  year={2023},
  url={https://doi.org/10.48550/arXiv.2303.03378}
}