Téléchargement Awesome Multimodal Chatbot - Téléchargement du code source Awesome Multimodal Chatbot

Awesome Multimodal Chatbot

Code Source AI

1.0.0

Télécharger

Chatbot multimodal génial

Awesome Multimodal Assistant est une liste organisée de chatbots/assistants conversationnels multimodaux qui utilisent divers modes d'interaction, tels que le texte, la parole, les images et les vidéos, pour offrir une expérience utilisateur transparente et polyvalente. Il est conçu pour aider les utilisateurs à effectuer diverses tâches, de la simple recherche d'informations au raisonnement multimédia complexe.

Optimisation des instructions multimodales

MultiInstruct : amélioration de l'apprentissage multimodal Zero-Shot via le réglage des instructions
arXiv 2022/12 [papier]
GPT-4
arXiv 2023/03 [article] [blog]
Réglage des instructions visuelles
arXiv 2023/04 [papier] [code] [page du projet] [démo]
MiniGPT-4 : amélioration de la compréhension vision-langage grâce à de grands modèles de langage avancés
arXiv 2023/04 [papier] [code] [page du projet] [démo]
mPLUG-Owl : la modularisation permet de développer de grands modèles de langage avec la multimodalité
arXiv 2023/04 [papier] [code] [démo]
LLaMA-Adapter V2 : modèle d'instruction visuelle efficace en termes de paramètres
arXiv 2023/04 [papier] [code] [démo]
Video-LLaMA : un modèle de langage visuel affiné par les instructions pour la compréhension de la vidéo
[code]
LMEye : un réseau de perception interactif pour les grands modèles de langage
arXiv 2023/05 [papier] [code]
MultiModal-GPT : une vision et un modèle linguistique pour le dialogue avec les humains
arXiv 2023/05 [papier] [code] [démo]
X-LLM : amorcer des modèles de langage étendus avancés en traitant les multimodalités comme des langues étrangères
arXiv 2023/05 [papier] [code] [page du projet]
Otter : un modèle multimodal avec réglage des instructions en contexte
arXiv 2023/05 [papier] [code] [démo]
InstructBLIP : vers des modèles de langage de vision à usage général avec réglage des instructions
arXiv 2023/05 [papier] [code]
InternGPT : résoudre des tâches centrées sur la vision en interagissant avec ChatGPT au-delà du langage
arXiv 2023/05 [papier] [code] [démo]
VisionLLM : Large Language Model est également un décodeur ouvert pour les tâches centrées sur la vision
arXiv 2023/05 [papier] [code]
Bon marché et rapide : réglage efficace des instructions de vision et de langage pour les grands modèles de langage
arXiv 2023/05 [papier] [code] [page du projet]
EmbodiedGPT : pré-formation vision-langage via une chaîne de pensée incarnée
arXiv 2023/05 [papier] [code] [page du projet]
DetGPT : détectez ce dont vous avez besoin via le raisonnement
arXiv 2023/05 [papier] [code] [page du projet]
PathAsst : redéfinir la pathologie grâce à l'assistant IA Generative Foundation pour la pathologie
arXiv 2023/05 [papier] [code]
ChatBridge : relier les modalités avec un grand modèle linguistique comme catalyseur linguistique
arXiv 2023/05 [papier] [code] [page du projet]
Video-ChatGPT : vers une compréhension détaillée de la vidéo via une vision large et des modèles linguistiques
arXiv 2023/06 [papier] [code]
LAMM : ensemble de données, cadre et référence de réglage des instructions multimodales assistées par le langage
arXiv 2023/06 [papier]
Un chat textuel-visuel responsable apprend à rejeter les instructions humaines dans la recréation d'images
arXiv 2023/06 [article] [page du projet]
VALLEY : ASSISTANT VIDÉO AVEC GRAND MODÈLE DE LANGAGE CAPACITÉ AMÉLIORÉE
arXiv 2023/06 [papier] [code]

Cadres modularisés basés sur LLM

Visual ChatGPT : parler, dessiner et éditer avec des modèles de base visuelle
arXiv 2023/03 [papier] [code] [démo]
ViperGPT : inférence visuelle via l'exécution de Python pour le raisonnement
arXiv 2023/03 [papier] [code] [page du projet]
TaskMatrix.AI : accomplir des tâches en connectant les modèles de base avec des millions d'API
arXiv 2023/03 [papier] [code]
Chatgpt demande, blip-2 répond : questionnement automatique vers des descriptions visuelles enrichies
arXiv 2023/03 [papier] [code]
MM-REACT : inciter ChatGPT à mener un raisonnement et une action multimodaux
arXiv 2023/03 [papier] [code] [page du projet] [démo]
Hugginggpt : Résoudre des tâches d'IA avec chatgpt et ses amis dans huggingface
arXiv 2023/03 [papier] [code] [démo]
VLog : la vidéo sous forme de document long
[code] [démo]
Video ChatCaptioner : vers des descriptions spatio-temporelles enrichies
arXiv 2023/04 [papier] [code]
ChatVideo : un système de compréhension vidéo multimodal et polyvalent centré sur Tracklet
arXiv 2023/04 [article] [page du projet]
VideoChat : compréhension vidéo centrée sur le chat
arXiv 2023/05 [papier] [code] [démo]

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-13
taille 3.06KB
Provenant de Github

Applications connexes

awesome citygml

2024-11-13
awesome generative ai guide

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
awesome swift

2024-11-03
Super jeu du diable

2023-04-16
La superbe publicité

2022-08-08

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout