Awesome Multimodal Assistant عبارة عن قائمة منسقة من روبوتات الدردشة/مساعدي المحادثة متعددة الوسائط التي تستخدم أوضاعًا مختلفة للتفاعل، مثل النص والكلام والصور ومقاطع الفيديو، لتوفير تجربة مستخدم سلسة ومتعددة الاستخدامات. وهو مصمم لمساعدة المستخدمين في أداء المهام المختلفة، بدءًا من استرجاع المعلومات البسيطة وحتى التفكير المعقد في الوسائط المتعددة.
MultiInstruct: تحسين التعلم الصفري متعدد الوسائط من خلال ضبط التعليمات
arXiv 2022/12
[ورقة]
جي بي تي-4
arXiv 2023/03
[ورقة] [مدونة]
ضبط التعليمات البصرية
arXiv 2023/04
[ورقة] [كود] [صفحة المشروع] [عرض توضيحي]
MiniGPT-4: تعزيز فهم الرؤية واللغة باستخدام نماذج اللغات الكبيرة المتقدمة
arXiv 2023/04
[ورقة] [كود] [صفحة المشروع] [عرض توضيحي]
mPLUG-Owl: تعمل الوحدة النمطية على تمكين نماذج اللغات الكبيرة باستخدام الوسائط المتعددة
arXiv 2023/04
[ورقة] [كود] [تجريبي]
LLaMA-Adapter V2: نموذج تعليمات مرئي ذو كفاءة في المعلمات
arXiv 2023/04
[ورقة] [كود] [تجريبي]
Video-LLaMA: نموذج لغة مرئية مضبوط للتعليمات لفهم الفيديو
[شفرة]
LMEye: شبكة إدراك تفاعلية لنماذج اللغات الكبيرة
arXiv 2023/05
[ورقة] [كود]
MultiModal-GPT: نموذج الرؤية واللغة للحوار مع البشر
arXiv 2023/05
[ورقة] [كود] [تجريبي]
X-LLM: تمهيد نماذج اللغات الكبيرة المتقدمة من خلال التعامل مع الوسائط المتعددة باعتبارها لغات أجنبية
arXiv 2023/05
[ورقة] [كود] [صفحة المشروع]
قضاعة: نموذج متعدد الوسائط مع ضبط التعليمات في السياق
arXiv 2023/05
[ورقة] [كود] [تجريبي]
InstructBLIP: نحو نماذج الرؤية واللغة للأغراض العامة مع ضبط التعليمات
arXiv 2023/05
[ورقة] [كود]
InternGPT: حل المهام التي تتمحور حول الرؤية من خلال التفاعل مع ChatGPT خارج نطاق اللغة
arXiv 2023/05
[ورقة] [كود] [تجريبي]
VisionLLM: نموذج اللغة الكبير هو أيضًا وحدة فك ترميز مفتوحة للمهام التي تتمحور حول الرؤية
arXiv 2023/05
[ورقة] [كود]
رخيصة وسريعة: ضبط تعليمات الرؤية واللغة بكفاءة لنماذج اللغات الكبيرة
arXiv 2023/05
[ورقة] [كود] [صفحة المشروع]
EmbodiedGPT: التدريب المسبق على لغة الرؤية عبر سلسلة الفكر المتجسدة
arXiv 2023/05
[ورقة] [كود] [صفحة المشروع]
DetGPT: اكتشف ما تحتاجه من خلال الاستدلال
arXiv 2023/05
[ورقة] [كود] [صفحة المشروع]
PathAsst: إعادة تعريف علم الأمراض من خلال مساعد الذكاء الاصطناعي للمؤسسة التوليدية لعلم الأمراض
arXiv 2023/05
[ورقة] [كود]
ChatBridge: طرق الربط مع نموذج اللغة الكبير كمحفز للغة
arXiv 2023/05
[ورقة] [كود] [صفحة المشروع]
Video-ChatGPT: نحو فهم مفصل للفيديو عبر نماذج الرؤية واللغة الكبيرة
arXiv 2023/06
[ورقة] [كود]
LAMM: مجموعة بيانات ضبط التعليمات متعددة الوسائط المدعومة باللغة، وإطار العمل، والمعيار
arXiv 2023/06
[ورقة]
تتعلم الدردشة النصية والمرئية المسؤولة رفض التعليمات البشرية في إعادة إنشاء الصور
arXiv 2023/06
[ورقة] [صفحة المشروع]
VALLEY: مساعد الفيديو مع قدرة محسنة لنموذج اللغة الكبيرة
arXiv 2023/06
[ورقة] [كود]
الدردشة المرئية GPT: التحدث والرسم والتحرير باستخدام نماذج الأساس المرئي
arXiv 2023/03
[ورقة] [كود] [تجريبي]
ViperGPT: الاستدلال البصري عبر تنفيذ بايثون للاستدلال
arXiv 2023/03
[ورقة] [كود] [صفحة المشروع]
TaskMatrix.AI: إكمال المهام عن طريق ربط النماذج الأساسية بملايين واجهات برمجة التطبيقات
arXiv 2023/03
[ورقة] [كود]
يسأل Chatgpt، إجابات blip-2: استجواب تلقائي نحو الأوصاف المرئية الغنية
arXiv 2023/03
[ورقة] [كود]
MM-REACT: مطالبة ChatGPT بالاستدلال والعمل متعدد الوسائط
arXiv 2023/03
[ورقة] [كود] [صفحة المشروع] [عرض توضيحي]
Hugginggpt: حل مهام الذكاء الاصطناعي باستخدام chatgpt وأصدقائه في عناق الوجه
arXiv 2023/03
[ورقة] [كود] [تجريبي]
VLog: الفيديو كمستند طويل
[الكود] [التجريبي]
Video ChatCaptioner: نحو أوصاف زمانية مكانية غنية
arXiv 2023/04
[ورقة] [كود]
ChatVideo: نظام فهم فيديو متعدد الوسائط ومتعدد الاستخدامات يتمحور حول Tracklet
arXiv 2023/04
[ورقة] [صفحة المشروع]
VideoChat: فهم الفيديو المتمحور حول الدردشة
arXiv 2023/05
[ورقة] [كود] [تجريبي]