Awesome Multimodal Assistant คือรายการแชทบอท/ผู้ช่วยสนทนาหลายรูปแบบที่คัดสรรมาเป็นอย่างดี ซึ่งใช้โหมดการโต้ตอบที่หลากหลาย เช่น ข้อความ คำพูด รูปภาพ และวิดีโอ เพื่อมอบประสบการณ์ผู้ใช้ที่ราบรื่นและหลากหลาย ได้รับการออกแบบมาเพื่อช่วยเหลือผู้ใช้ในการดำเนินงานต่างๆ ตั้งแต่การดึงข้อมูลอย่างง่ายไปจนถึงการใช้เหตุผลมัลติมีเดียที่ซับซ้อน
MultiInstruct: การปรับปรุงการเรียนรู้ Zero-Shot แบบ Multi-Modal ผ่านการปรับแต่งคำสั่ง
arXiv 2022/12
[กระดาษ]
GPT-4
arXiv 2023/03
[กระดาษ] [บล็อก]
การปรับแต่งคำสั่งด้วยภาพ
arXiv 2023/04
[กระดาษ] [รหัส] [หน้าโครงการ] [สาธิต]
MiniGPT-4: ปรับปรุงความเข้าใจภาษาการมองเห็นด้วยโมเดลภาษาขนาดใหญ่ขั้นสูง
arXiv 2023/04
[กระดาษ] [รหัส] [หน้าโครงการ] [สาธิต]
mPLUG-Owl: การทำให้เป็นโมดูลช่วยเพิ่มพลังให้กับโมเดลภาษาขนาดใหญ่พร้อมความหลากหลาย
arXiv 2023/04
[กระดาษ] [รหัส] [สาธิต]
LLaMA-Adapter V2: โมเดลคำสั่งด้วยภาพที่มีประสิทธิภาพตามพารามิเตอร์
arXiv 2023/04
[กระดาษ] [รหัส] [สาธิต]
Video-LLaMA: โมเดลภาษาภาพที่ได้รับการปรับแต่งคำสั่งเพื่อความเข้าใจในวิดีโอ
[รหัส]
LMEye: เครือข่ายการรับรู้เชิงโต้ตอบสำหรับโมเดลภาษาขนาดใหญ่
arXiv 2023/05
[กระดาษ] [รหัส]
MultiModal-GPT: แบบจำลองวิสัยทัศน์และภาษาสำหรับการสนทนากับมนุษย์
arXiv 2023/05
[กระดาษ] [รหัส] [สาธิต]
X-LLM: การบูตโมเดลภาษาขนาดใหญ่ขั้นสูงโดยถือว่าหลายภาษาเป็นภาษาต่างประเทศ
arXiv 2023/05
[กระดาษ] [รหัส] [หน้าโครงการ]
Otter: โมเดลหลายรูปแบบพร้อมการปรับแต่งคำสั่งในบริบท
arXiv 2023/05
[กระดาษ] [รหัส] [สาธิต]
InstructBLIP: สู่โมเดลภาษาวิชั่นสำหรับวัตถุประสงค์ทั่วไปพร้อมการปรับแต่งคำสั่ง
arXiv 2023/05
[กระดาษ] [รหัส]
InternGPT: การแก้ปัญหางานที่เน้นวิสัยทัศน์ด้วยการโต้ตอบกับ ChatGPT Beyond Language
arXiv 2023/05
[กระดาษ] [รหัส] [สาธิต]
VisionLLM: โมเดลภาษาขนาดใหญ่ยังเป็นตัวถอดรหัสแบบปลายเปิดสำหรับงานที่เน้นการมองเห็นเป็นหลัก
arXiv 2023/05
[กระดาษ] [รหัส]
ราคาถูกและรวดเร็ว: การปรับแต่งคำสั่งด้วยการมองเห็น-ภาษาที่มีประสิทธิภาพสำหรับโมเดลภาษาขนาดใหญ่
arXiv 2023/05
[กระดาษ] [รหัส] [หน้าโครงการ]
EmbodiedGPT: การฝึกอบรมล่วงหน้าภาษาวิสัยทัศน์ผ่านห่วงโซ่แห่งความคิดที่เป็นตัวเป็นตน
arXiv 2023/05
[กระดาษ] [รหัส] [หน้าโครงการ]
DetGPT: ตรวจจับสิ่งที่คุณต้องการผ่านการใช้เหตุผล
arXiv 2023/05
[กระดาษ] [รหัส] [หน้าโครงการ]
PathAsst: นิยามใหม่ของพยาธิวิทยาผ่านผู้ช่วย AI ของมูลนิธิ Generative สำหรับพยาธิวิทยา
arXiv 2023/05
[กระดาษ] [รหัส]
ChatBridge: การเชื่อมโยงรูปแบบต่างๆ ด้วยโมเดลภาษาขนาดใหญ่เป็นตัวเร่งภาษา
arXiv 2023/05
[กระดาษ] [รหัส] [หน้าโครงการ]
Video-ChatGPT: สู่ความเข้าใจวิดีโอโดยละเอียดผ่านโมเดลวิสัยทัศน์และภาษาขนาดใหญ่
arXiv 2023/06
[กระดาษ] [รหัส]
LAMM: ชุดข้อมูล เฟรมเวิร์ก และเกณฑ์มาตรฐานสำหรับการปรับแต่งคำสั่งหลายรูปแบบโดยใช้ภาษาช่วย
arXiv 2023/06
[กระดาษ]
การสนทนาด้วยภาพและข้อความที่มีความรับผิดชอบเรียนรู้ที่จะปฏิเสธคำสั่งของมนุษย์ในการสร้างภาพใหม่
arXiv 2023/06
[กระดาษ] [หน้าโครงการ]
VALLEY: ผู้ช่วยวิดีโอที่มีโมเดลภาษาขนาดใหญ่ที่ปรับปรุงความสามารถ
arXiv 2023/06
[กระดาษ] [รหัส]
Visual ChatGPT: การพูดคุย การวาดภาพ และการแก้ไขด้วย Visual Foundation Models
arXiv 2023/03
[กระดาษ] [รหัส] [สาธิต]
ViperGPT: การอนุมานด้วยภาพผ่านการดำเนินการ Python เพื่อการให้เหตุผล
arXiv 2023/03
[กระดาษ] [รหัส] [หน้าโครงการ]
TaskMatrix.AI: ทำงานให้เสร็จสิ้นโดยการเชื่อมต่อโมเดลพื้นฐานกับ API นับล้าน
arXiv 2023/03
[กระดาษ] [รหัส]
Chatgpt ถาม คำตอบ blip-2: การตั้งคำถามอัตโนมัติเกี่ยวกับคำอธิบายภาพที่สมบูรณ์ยิ่งขึ้น
arXiv 2023/03
[กระดาษ] [รหัส]
MM-REACT: การแจ้ง ChatGPT สำหรับการให้เหตุผลและการดำเนินการหลายรูปแบบ
arXiv 2023/03
[กระดาษ] [รหัส] [หน้าโครงการ] [สาธิต]
Hugginggpt: แก้ปัญหางาน ai ด้วย chatgpt และเพื่อนๆ ในหน้ากอด
arXiv 2023/03
[กระดาษ] [รหัส] [สาธิต]
VLog: วิดีโอเป็นเอกสารขนาดยาว
[รหัส] [สาธิต]
Video ChatCaptioner: สู่คำอธิบาย Spatiotemporal ที่ได้รับการเสริมคุณค่า
arXiv 2023/04
[กระดาษ] [รหัส]
ChatVideo: ระบบทำความเข้าใจวิดีโอหลายรูปแบบและอเนกประสงค์ที่เน้น Tracklet
arXiv 2023/04
[กระดาษ] [หน้าโครงการ]
VideoChat: ความเข้าใจเกี่ยวกับวิดีโอที่เน้นการแชท
arXiv 2023/05
[กระดาษ] [รหัส] [สาธิต]