Awesome Multimodal Assistant 는 텍스트, 음성, 이미지 및 비디오와 같은 다양한 상호 작용 모드를 활용하여 원활하고 다양한 사용자 경험을 제공하는 다중 모드 챗봇/대화 도우미의 선별된 목록입니다. 간단한 정보 검색부터 복잡한 멀티미디어 추론까지 다양한 작업을 수행하는 데 도움을 주기 위해 설계되었습니다.
MultiInstruct: 명령어 튜닝을 통한 다중 모드 제로샷 학습 개선
arXiv 2022/12
[논문]
GPT-4
arXiv 2023/03
[논문] [블로그]
시각적 지시 조정
arXiv 2023/04
[논문] [코드] [프로젝트 페이지] [데모]
MiniGPT-4: 고급 대형 언어 모델로 비전-언어 이해 향상
arXiv 2023/04
[논문] [코드] [프로젝트 페이지] [데모]
mPLUG-Owl: 모듈화로 다중 양식을 갖춘 대규모 언어 모델 강화
arXiv 2023/04
[논문] [코드] [데모]
LLaMA-Adapter V2: 매개변수 효율적인 시각적 교육 모델
arXiv 2023/04
[논문] [코드] [데모]
Video-LLaMA: 비디오 이해를 위한 정밀한 지시 시각적 언어 모델
[암호]
LMeye: 대규모 언어 모델을 위한 대화형 인식 네트워크
arXiv 2023/05
[논문] [코드]
MultiModal-GPT: 인간과의 대화를 위한 비전 및 언어 모델
arXiv 2023/05
[논문] [코드] [데모]
X-LLM: 다중 양식을 외국어로 처리하여 고급 대규모 언어 모델 부트스트래핑
arXiv 2023/05
[논문] [코드] [프로젝트 페이지]
Otter: 상황에 맞는 명령어 조정을 갖춘 다중 모드 모델
arXiv 2023/05
[논문] [코드] [데모]
InstructBLIP: 명령어 조정을 통한 범용 비전 언어 모델을 향하여
arXiv 2023/05
[논문] [코드]
InternGPT: 언어를 넘어 ChatGPT와 상호 작용하여 비전 중심 작업 해결
arXiv 2023/05
[논문] [코드] [데모]
VisionLLM: 대형 언어 모델은 비전 중심 작업을 위한 개방형 디코더이기도 합니다.
arXiv 2023/05
[논문] [코드]
저렴하고 빠릅니다: 대규모 언어 모델을 위한 효율적인 비전-언어 지침 조정
arXiv 2023/05
[논문] [코드] [프로젝트 페이지]
EmbodiedGPT: 구체화된 사고 사슬을 통한 비전 언어 사전 훈련
arXiv 2023/05
[논문] [코드] [프로젝트 페이지]
DetGPT: 추론을 통해 필요한 것을 감지
arXiv 2023/05
[논문] [코드] [프로젝트 페이지]
PathAsst: 병리학용 Generative Foundation AI 도우미를 통해 병리학 재정의
arXiv 2023/05
[논문] [코드]
ChatBridge: 언어 촉매제로서 대규모 언어 모델을 사용하여 양식 연결
arXiv 2023/05
[논문] [코드] [프로젝트 페이지]
Video-ChatGPT: 대규모 비전 및 언어 모델을 통한 상세한 영상 이해를 향하여
arXiv 2023/06
[논문] [코드]
LAMM: 언어 지원 다중 모드 명령 조정 데이터 세트, 프레임워크 및 벤치마크
arXiv 2023/06
[논문]
책임감 있는 텍스트-비주얼 채팅은 이미지 재생성에서 인간의 지시를 거부하는 방법을 배웁니다.
arXiv 2023/06
[논문] [프로젝트 페이지]
VALLEY: 대규모 언어 모델의 향상된 기능을 갖춘 비디오 어시스턴트
arXiv 2023/06
[논문] [코드]
Visual ChatGPT: Visual Foundation 모델을 사용하여 말하기, 그리기 및 편집
arXiv 2023/03
[논문] [코드] [데모]
ViperGPT: 추론을 위한 Python 실행을 통한 시각적 추론
arXiv 2023/03
[논문] [코드] [프로젝트 페이지]
TaskMatrix.AI: 수백만 개의 API와 기초 모델을 연결하여 작업 완료
arXiv 2023/03
[논문] [코드]
Chatgpt 질문, blip-2 답변: 풍부한 시각적 설명에 대한 자동 질문
arXiv 2023/03
[논문] [코드]
MM-REACT: 다중 모드 추론 및 작업을 위해 ChatGPT에 메시지 표시
arXiv 2023/03
[논문] [코드] [프로젝트 페이지] [데모]
Hugginggpt: chatgpt와 Huggingface의 친구들과 함께 AI 작업 해결
arXiv 2023/03
[논문] [코드] [데모]
VLog: 긴 문서로서의 비디오
[코드] [데모]
Video ChatCaptioner: 시공간적 설명 강화를 향하여
arXiv 2023/04
[논문] [코드]
ChatVideo: 트랙렛 중심의 다중 모드 및 다목적 비디오 이해 시스템
arXiv 2023/04
[논문] [프로젝트 페이지]
VideoChat: 채팅 중심의 비디오 이해
arXiv 2023/05
[논문] [코드] [데모]