PALM E下載 - PALM E原始碼下載

PALM E

Ai源碼

0.0.4

下載

多模態

？ PALM-E：多模態人工智慧模型

模型架構

這是 Google 的 SOTA 多模態基礎模型「PALM-E：An Embodied Multimodal Language Model」的開源實現，PALM-E 是一個單一的大型體現多模態模型，可以解決各種體現推理任務，從在多個實施例上的各種觀察模式，並且進一步表現出正遷移：該模型受益於跨互聯網規模語言、視覺和視覺語言領域的多樣化聯合訓練。

論文連結：PaLM-E：一種體現的多模態語言模型

筆記

這只是模型架構，沒有預訓練權重，沒有分詞器
要實際進行推理，您需要 --> 為文字和圖像設定分詞器 -> 訓練 -> 推理
如果您正在研究多模態模型，並希望訓練該模型並將其開源，請點擊橫幅加入 agora 實驗室！

欣賞

Agora 的所有創作者，加入 Agora 人工智慧工程師社區，用他們的創作改變世界。
LucidRains 激勵我投入開源 AI

快速入門

安裝？

pip install palme

用法？

 import torch
from palme . model import PalmE

#usage
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))

model = PalmE ()
output = model ( img , caption )
print ( output . shape ) # (1, 1024, 20000)

資料集策略

以下是論文中提到的關鍵資料集的總結表：

數據集	任務	尺寸	關聯
夯	機器人操縱規劃，VQA	96,000 個場景	自訂資料集
語言表	機器人操縱規劃	自訂資料集	關聯
移動操控	機器人導航與操縱規劃，VQA	2912 序列	基於 SayCan 資料集
網路LI	圖文檢索	66M 圖像標題對	關聯
VQAv2	視覺問答	關於 COCO 影像的 110 萬個問題	關聯
OK-VQA	需要外在知識的視覺問答	關於 COCO 影像的 14,031 個問題	關聯
可可	圖片字幕	330K 帶字幕的圖像	關聯
維基百科	文字語料庫	不適用	關聯

關鍵的機器人資料集是專門為這項工作收集的，而更大的視覺語言資料集（WebLI、VQAv2、OK-VQA、COCO）是該領域的標準基準。資料集範圍從機器人領域的數萬個範例到網路規模視覺語言資料的數千萬個。

貢獻 ||成為 PALM-E 冒險的一部分嗎？

需要你的才華！加入我們，讓我們一起讓 PALM-E 更令人驚嘆：

取得您的副本：分叉 PALM-E 儲存庫。
使其本地化：克隆你的叉子。
準備工具：安裝必需品。
發現與創新：深入研究程式碼。
創造你的魔法：分支和代碼。
展示與講述：推送您的變更並製作拉取請求。

？修復，？增強功能、文件或想法 – 歡迎所有人！讓我們攜手共創人工智慧的未來。

引文

@article{driess2023palme,
  title={PALM-E: An Embodied Multimodal Language Model},
  author={Driess, Danny and Xia, Fei and Sajjadi, Mehdi S. M. and Lynch, Corey and Chowdhery, Aakanksha and Ichter, Brian and Wahid, Ayzaan and Tompson, Jonathan and Vuong, Quan and Yu, Tianhe and Huang, Wenlong and Chebotar, Yevgen and Sermanet, Pierre and Duckworth, Daniel and Levine, Sergey and Vanhoucke, Vincent and Hausman, Karol and Toussaint, Marc and Greff, Klaus and Zeng, Andy and Mordatch, Igor and Florence, Pete},
  journal={arXiv preprint arXiv:2303.03378},
  year={2023},
  url={https://doi.org/10.48550/arXiv.2303.03378}
}