Modèles de fondation impressionnants
Un modèle de fondation est un modèle prétrainé à grande échelle (par exemple, Bert, Dall-E, GPT-3) qui peut être adapté à un large éventail d'applications en aval. Ce terme a d'abord été popularisé par l'Institut Stanford pour l'intelligence artificielle centrée sur l'homme. Ce référentiel maintient une liste organisée de modèles de fondation pour les tâches de vision et de langue. Les articles de recherche sans code ne sont pas inclus.
Enquête
2024
- Agents linguistiques (de la thèse de doctorat de Princeton Shunyu Yao. Blog1, blog2)
- Une enquête systématique sur les modèles de grandes langues pour la conception d'algorithmes (de City Univ. De Hong Kong)
- Segmentation de l'image dans l'ère du modèle de fondation: une enquête (du Beijing Institute of Technology)
- Vers le modèle de géo-fondation en langue visuelle: une enquête (de Nanyang Technological University)
- Une introduction à la modélisation de la vision (de Meta)
- L'évolution des architectures de modèles multimodales (de l'Université Purdue)
- Modèles efficaces de grande langue multimodaux: une enquête (de Tencent)
- Modèles de fondation pour la compréhension vidéo: une enquête (de l'Université d'Aalborg)
- Sora est-il un simulateur mondial? Une enquête complète sur les modèles mondiaux généraux et au-delà (de Gigaai)
- Rôle potentiel des modèles de fondation dans la progression des véhicules autonomes (de l'Université Tongji)
- Fonction d'adaptation économe en paramètres pour les grands modèles: une enquête complète (de la Northeastern University)
- Une revue sur les antécédents, la technologie, les limitations et les opportunités de grands modèles de vision (de Lehigh)
- Grands agents multimodaux: une enquête (de CUHK)
- The Uncanny Valley: une analyse complète des modèles de diffusion (de Mila)
- Applications de robot du monde réel des modèles de fondation: une revue (de l'Université de Tokyo)
- De GPT-4 aux Gémeaux et au-delà: évaluer le paysage des MLLM sur la généralisation, la fiabilité et la causalité à travers quatre modalités (de Shanghai AI Lab)
- Vers l'unification du modèle de fondation visuelle générative et discriminatoire: une enquête (de JHU)
Avant 2024
- Modèles fondamentaux en imagerie médicale: une enquête complète et une vision future (de SDSU)
- Modèles de fondations multimodales: des spécialistes aux assistants à usage général (de Microsoft)
- Vers le modèle de fondation généraliste pour la radiologie (de SJTU)
- Modèles fondamentaux définissant une nouvelle ère dans la vision: une enquête et des perspectives (de l'Université MBZ de l'IA)
- Vers une IA biomédicale généraliste (de Google)
- Une étude systématique de l'ingénierie rapide sur les modèles de fondation en langue visuelle (d'Oxford)
- Grands modèles multimodaux: notes sur le tutoriel CVPR 2023 (de Chunyuan Li, Microsoft)
- Une enquête sur les modèles multimodaux de grande langue (de USTC et Tencent)
- Modèles de vision pour les tâches de vision: une enquête (de Nanyang Technological University)
- Modèles de fondation pour l'intelligence artificielle médicale généraliste (de Stanford)
- Une enquête complète sur les modèles de fondation pré-entraînés: une histoire de Bert à Chatgpt
- Une enquête complète du contenu généré par l'IA (AIGC): une histoire de l'IA générative de Gan à Chatgpt
- Pré-formation en langue visuelle: bases, avancées récentes et tendances futures
- Sur les opportunités et les risques des modèles de fondation (cette enquête popularise d'abord le concept du modèle de fondation; de Standford)
Papiers par date
2024
- [11/14] Lois de mise à l'échelle pour la précision (de Harvard)
- [11/13] Neuralfeels avec champs neuronaux: perception visuotactile pour la manipulation en main (de Meta)
- [11/07] Dino-WM: les modèles mondiaux sur les fonctionnalités visuelles pré-formées permettent une planification zéro-shot (de l'Université de New York)
- [10/31] Projet SID: Simulations de nombreux agents vers la civilisation de l'IA (d'Altera.al)
- [10/30] TokenFormer: Repenser la mise à l'échelle du transformateur avec des paramètres de modèle à tokenisés (du Max Planck Institute for Informatics)
- [10/30] Centering de récompense (de Richard Sutton, Université de l'Alberta)
- [10/21] Mémoire à long terme: le fondement de l'auto-évolution de l'IA (de l'Institut Tianqiao et Chrissy Chen)
- [10/10] Échec de vos noyaux: grande conception du noyau dans les convaintes vers les représentations universelles (de Cuhk)
- [10/04] Film Gen: A Cast of Media Foundation Models (de Meta)
- [10/02] Les RNN étaient-ils tout ce dont nous avions besoin? (de Mila)
- [10/01] NGPT: Transformateur normalisé avec une représentation apprenant sur l'hypersphere (de Nvidia)
- [09/30] MM1.5: Méthodes, analyse et perspectives de la dimension multimodale LLM (d'Apple)
- [09/27] EMU3: La prédiction suivante est tout ce dont vous avez besoin (de Baai)
- [09/25] Molmo et Pixmo: des poids ouverts et des données ouvertes pour les modèles multimodaux de pointe (de Allen AI)
- [09/18] Qwen2-vl: Améliorer la perception du modèle de la vision du monde à toute résolution (d'Alibaba)
- [09/18] Moshi: un modèle de fondation de texte de parole pour le dialogue en temps réel (de Kyutai)
- [08/27] Les modèles de diffusion sont des moteurs de jeu en temps réel (de Google)
- [08/22] SAPIENS: Fondation pour les modèles de vision humaine (de Meta)
- [08/14] Imagen 3 (de Google Deepmind)
- [07/31] Le troupeau de Llama 3 de modèles (de Meta)
- [07/29] Sam 2: segmenter n'importe quoi dans les images et les vidéos (de Meta)
- [07/24] Partglee: un modèle de fondation pour reconnaître et analyser tous les objets (de Hust et Bytedance)
- [07/17] Eve: dévoiler des modèles de langue de vision sans encodeur (de Baai)
- [07/12] Les couches du transformateur en tant que peintres (de Sakana Ai)
- [06/24] Cambrian-1: une exploration entièrement ouverte et centrée sur la vision des LLM multimodaux (de NYU)
- [06/13] 4m-21: un modèle de vision n'importe qui pour les dizaines de tâches et de modalités (d'EPFL et Apple)
- [06/10] Merlin: un modèle de fondation de la langue visuelle pour la tomodensitométrie 3D (de Stanford. Le code sera disponible.)
- [06/06] Vision-LSTM: XLSTM en tant que squelette de vision générique (des auteurs de LSTM)
- [05/31] Meshxl: champ de coordonnées neuronales pour les modèles génératifs de fondation 3D (de Fudan)
- [05/25] Moeu: mélange de transformateurs universels des experts (de Stanford)
- [05/22] Attention en tant que RNN (de Mila & Borealis ai)
- [05/22] Gigapath: un modèle de fondation à la glisse pour la pathologie numérique à partir de données réelles (de la nature)
- [05/21] BiomedParse: un modèle de fondation biomédical pour l'analyse biomédicale (de Microsoft. Version du journal)
- [05/20] Octo: une politique de robot généraliste open source (de UC Berkeley)
- [05/17] Lois de mise à l'échelle d'observation et prévisibilité de la performance du modèle linguistique (Fro Standford)
- [05/14] Comprendre l'écart de performance entre les algorithmes d'alignement en ligne et hors ligne (de Google)
- [05/09] Lumina-T2X: Transformer le texte en n'importe quelle modalité, résolution et durée via de grands transformateurs de diffusion basés sur le flux (de Shanghai AI Lab)
- [05/08] Vous ne cachez qu'une seule fois: des architectures de décodeur pour les modèles de langue
- [05/07] XLSTM: Mémoire à long terme étendue (de Sepp Hochreiter, l'auteur de LSTM.)
- [05/06] Avançant des capacités médicales multimodales des Gémeaux (de Google)
- [05/04] U-DITS: des jetons en panne dans les transformateurs de diffusion en forme de U (de l'Université de Pékin)
- [05/03] Vibe-Eval: une suite d'évaluation difficile pour mesurer les progrès des modèles de langage multimodal
- [04/30] Kan: Networks Kolmogorov-Arnold (alternatives prometteuses de MLPS. Du MIT)
- [04/26] Jusqu'où sommes-nous de GPT-4V? Contrôlant l'écart vers des modèles multimodaux commerciaux avec des suites open source (intervl 1.5. De Shanghai AI Lab)
- [04/14] Transformèrefam: l'attention de la rétroaction est la mémoire de travail (de Google. Aattenie efficace.)
- [04/10] Ne laissez aucun contexte derrière: Transformers de contexte infini efficace avec une infini-attention (de Google)
- [04/02] Octopus V2: modèle de langue sur dispositif pour Super Agent (de Stanford)
- [04/02] Mélange de dépassement: alloue dynamiquement en calcul dans les modèles de langage basés sur les transformateurs (de Google)
- [03/22] InternvideO2: Échelle des modèles de fondation vidéo pour la compréhension vidéo multimodale (de Shanghai AI Lab)
- [03/18] Arc2Face: un modèle de fondation des visages humains (de l'Imperial College London)
- [03/14] MM1: Méthodes, analyse et perspectives de la pré-formation multimodale LLM (paramètres 30B. D'Apple)
- [03/09] UniGradicon: un modèle de fondation pour l'enregistrement des images médicales (de UNC-Chapel Hill)
- [03/05] Échelle des transformateurs de débit rectifiés pour la synthèse d'image à haute résolution (diffusion stable 3. De stabilité AI)
- [03/01] Apprendre et tirer parti des modèles mondiaux dans l'apprentissage de la représentation visuelle (de Meta)
- [03/01] Visionllama: une interface de lama unifiée pour les tâches de vision (de Meituan)
- [02/28] CLLMS: cohérence Modèles de grande langue (de SJTU)
- [02/27] Diffusion transparente de la couche d'image en utilisant la transparence latente (de Standford)
- [02/22] MOBILELLM: Optimisation des modèles de langage des paramètres de substituts pour les cas d'utilisation sur disque (à partir de Meta)
- [02/21] Au-delà d'un ∗: meilleure planification avec Transformers via la dynamique de recherche Bootstrap (de Meta)
- [02/20] Diffusion du réseau neuronal (générer des paramètres de réseau via des modèles de diffusion. De NUS)
- [02/20] Videoprisme: un encodeur visuel fondamental pour la compréhension vidéo (de Google)
- [02/19] Ajustement: Transformateur de vision flexible pour le modèle de diffusion (de Shanghai AI Lab)
- [02/06] MobileVlm V2: Modèle de base plus rapide et plus fort pour le modèle de langue de vision (de Meituan)
- [01/30] YOLO-WORLD: Détection d'objets ouverts en temps réel (de Tencent et Hust)
- [01/23] Lumière: un modèle de diffusion spatio-temps pour la génération vidéo (de Google)
- [01/22] Chexagent: vers un modèle de fondation pour l'interprétation des rayons x (de Stanford)
- [01/19] De profondeur n'importe quoi: libérer la puissance des données non marquées à grande échelle (de Tiktok)
- [01/16] SIT: Exploration de modèles génératifs basés sur le flux et la diffusion avec des transformateurs interpolants évolutifs (de NYU)
- [01/15] Instantid: génération de préservation de l'identité zéro-shot en secondes (de Xiaohongshu)
2023
- BioClip: un modèle de fondation de la vision pour l'arbre de vie (CVPR 2024 Meilleur document étudiant)
- Mamba: modélisation de séquences linéaires avec des espaces d'état sélectifs (le mamba semble surpasser les transformateurs de taille similaire tout en évoluant linéairement avec une longueur de séquence. De CMU)
- FoundationPose: Estimation de la pose 6D unifiée et suivi de nouveaux objets (de NVIDIA)
- Suivre tout partout à la fois (de Cornell, ICCV 2023 Meilleur papier étudiant)
- Modèles de fondation pour l'intelligence artificielle géospatiale généraliste (d'IBM et de la NASA)
- LLAMA 2: Modèles de chat à fondation ouverte et à réglage fin (de Meta)
- Interlm-xcomposer: un grand modèle de vision en langue de vision pour la compréhension et la composition avancées du texte du texte (de Shanghai AI Lab)
- Le projet d'emboucheur: vers la reconnaissance visuelle panoptique et la compréhension du monde ouvert (de Shanghai AI Lab)
- Meta-transformateur: un cadre unifié pour l'apprentissage multimodal (de Cuhk et Shanghai AI Lab)
- Réseau de rétention: un successeur de Transformer pour les modèles de grands langues (de l'Université Microsoft et Tsinghua)
- Modèles du monde neural pour la vision par ordinateur (thèse de doctorat d'Anthony Hu de l'Université de Cambridge)
- Reconnaissez n'importe quoi: un modèle de balisage d'image fort (un modèle de fondation solide pour le taggage d'image. De OPPO)
- Vers des modèles de fondations visuelles de scènes physiques (décrit une première étape vers l'apprentissage des représentations visuelles à usage général des scènes physiques en utilisant uniquement la prédiction d'image comme critère de formation; de AWS)
- Lima: moins c'est plus pour l'alignement (65b paramètres, de Meta)
- Rapport technique de Palm 2 (de Google)
- ImageBind: un espace d'intégration pour les lier tous (de Meta)
- Tuning d'instructions visuels (llava, de l'U de Wisconsin-Madison et Microsoft)
- Semble: segmenter tout partout à la fois (de l'Université du Wisconsin-Madison, HKUST et Microsoft)
- SAM: Segment n'importe quoi (le premier modèle de fondation pour la segmentation de l'image; de Meta)
- Seggpt: segmenter tout dans le contexte (de Baai, Zju et PKU)
- Les images parlent en images: un peintre généraliste pour l'apprentissage visuel en contexte (de Baai, Zju et PKU)
- Unidector: détecter tout dans le monde ouvert: vers la détection d'objets universels (CVPR, de Tsinghua et Bnrist)
- Enseignant non masqué: vers des modèles de fondations vidéo éconergétiques (de l'Académie chinoise des sciences, Université de l'Académie chinoise des sciences, Shanghai AI Laboratory)
- Suivi multi-modal visuel rapide (du laboratoire Dalian University of Technology and Peng Cheng)
- Vers la construction de modèles de fondation générale pour les tâches de compréhension du langage, de la vision et de la vision (de ByTedance)
- EVA-CLIP: Techniques de formation améliorées pour Clip à grande échelle (de Baai et Hust)
- EVA-02: une représentation visuelle de la genèse néon (de Baai et Hust)
- EVA-01: Exploration des limites de l'apprentissage de la représentation visuelle masquée à l'échelle (CVPR, de Baai et Hust)
- LLAMA: Modèles de langue de base ouverts et efficaces (une collection de modèles de langue de base allant de 7B à 65B paramètres; de Meta)
- L'efficacité de MAE pré-prétraitement pour un milliard d'échelle de prélèvement (de Meta)
- Bloomberggpt: un modèle grand langage pour la finance (50 milliards de paramètres; de Bloomberg)
- Bloom: un modèle de langage multilingue à accès à accès ouvert de 176B (ce travail a été coordonné par BigScience dont le but est de démocratiser les LLMS.)
- Flip: mise à l'échelle de l'image linguistique pré-formation via le masquage (de Meta)
- BLIP-2: Bootstrapage-image-image pré-formation avec des encodeurs d'images congelés et des modèles de grands langues (à partir de la recherche de vente)
- Rapport technique GPT-4 (d'Openai)
- Visual Chatgpt: parler, dessin et édition avec des modèles de fondation visuelle (de Microsoft Research Asia)
- Unité: Perception d'instance universelle comme découverte et récupération d'objets (un modèle unifié pour 10 tâches de perception d'instance; CVPR, de ByTedance)
- Internvideo: Modèles généraux de la fondation vidéo via un apprentissage génératif et discriminant (de Shanghai AI Lab)
- Interne: explorer des modèles de fondation de vision à grande échelle avec des convolutions déformables (CVPR, de Shanghai AI Lab)
- Bridgetower: Construire des ponts entre les encodeurs dans l'apprentissage de la représentation de la vision (de l'Institut Harbin de la technologie et de Microsoft Research Asia)
2022
- Bevt: Bert Pre-Traqueur de transformateurs vidéo (CVPR, de Shanghai Key Lab of Intelligent Information Processing)
- Foundation Transformers (de Microsoft)
- Un agent généraliste (connu sous le nom de Gato, un agent généraliste multimodal, multi-tâches, multi-embodiments; de DeepMind)
- Fibre: pré-formation en langue visuelle grossière avec fusion dans l'épine dorsale (de Microsoft, UCLA et New York University)
- Flamingo: un modèle de langage visuel pour l'apprentissage à quelques coups (de DeepMind)
- MetalM: Les modèles de langue sont des interfaces à usage général (de Microsoft)
- Point-E: Un système de génération de nuages de points 3D à partir d'invites complexes (génération d'objets 3D efficace à l'aide d'un modèle de diffusion de texte à l'image; d'Openai)
- Segmentation d'image à l'aide de texte et d'invites d'image (CVPR, de l'Université de Göttingen)
- Estimation unificatrice de flux, stéréo et de profondeur (un modèle unifié pour trois tâches de perception de mouvement et 3D; de Eth Zurich)
- Pali: un modèle d'image linguistique multilingue à l'échelle conjointe (de Google)
- Videomae: les autoencoders masqués sont des apprenants économes en matière de données pour la pré-formation vidéo auto-supervisée (Neirips, de l'Université Nanjing, Tencent et Shanghai AI Lab)
- Slip: Self-Supervision rencontre la pré-formation d'image linguistique (ECCV, de UC Berkeley et Meta)
- GLIPV2: Localisation unificatrice et compréhension de VL (Neirips'22, de UW, Meta, Microsoft et UCLA)
- GLIP: pré-formation d'image linguistique ancrée (CVPR, de l'UCLA et Microsoft)
- BLIP: Bootstrap-Image du langage-image pré-formation pour la compréhension et la génération unifiées de la vision (à partir de Salesforce Research)
- Nuwa-Infinity: autorégressif sur la génération autorégressive pour la synthèse visuelle infinie (de Microsoft)
- PALM: Échelle de la modélisation du langage avec des voies (de Google)
- Coca: les légendes contrastives sont des modèles de fondation de texte d'image (de Google)
- Parti: mise à l'échelle des modèles autorégressifs pour la génération de texte à l'image riche en contenu (à partir de Google)
- Une interface de séquence unifiée pour les tâches de vision (de Google Research, Brain Team)
- Imagen: modèles de diffusion de texte à image photoréaliste avec une compréhension du langage profond (de Google)
- Diffusion stable: synthèse d'image à haute résolution avec des modèles de diffusion latente (CVPR, de stabilité et de piste)
- Au-delà du jeu d'imitation: quantifier et extrapoler les capacités des modèles de langue (Big Banc: une tâche de 204 tâches extrêmement difficile et diversifiée pour LLMS, 444 auteurs de 132 institutions)
- CRIS: Segmentation d'image référencée par les clips (de l'Université de Sydney et OPPO)
- Autoencoders masqués comme apprenants spatio-temporels (extension de MAE aux vidéos; nererips, de méta)
- Les autoencoders masqués sont des apprenants de vision évolutifs (CVPR 2022, de Fair)
- InstructGpt: Modèles de la langue de formation à suivre les instructions avec la rétroaction humaine (formé avec les humains dans la boucle; d'Openai)
- Une interface de séquence unifiée pour les tâches de vision (Neirips 2022, de Google)
- DALL-E2: Génération d'images de climatisation hiérarchique avec des lameurs de clip (d'Openai)
- Imagerie médicale robuste et efficace avec auto-supervision (de Google, Georgia Tech et Northwestern University)
- Video Swin Transformer (CVPR, de Microsoft Research Asia)
- OFA: architectures unificatrices, tâches et modalités à travers un cadre d'apprentissage simple à séquence à la séquence (ICML 2022. De Alibaba.)
- Mask2Former: Transformateur de masque masqué pour la segmentation universelle de l'image (CVPR 2022, de Fair et UIUC)
- Flava: un modèle de langue et d'alignement de la vision (CVPR, de Facebook AI Research)
- Vers l'intelligence générale artificielle via un modèle de fondation multimodal (communication de la nature, de l'Université de Chine de la Renmin)
- FILIP: pré-formation d'image linguistique interactive à grains fins (ICLR, de Huawei et HKUST)
- SIMVLM: modèle de langage visuel simple pré-formation avec une faible supervision (ICLR, de CMU et Google)
- GLIDE: Vers la génération et l'édition d'images photoréalistes avec des modèles de diffusion guidés par texte (d'OpenAI)
2021
- Unification des tâches de vision et de langue via la génération de texte (de UNC-Chapel Hill)
- Alignez: la mise à l'échelle de l'apprentissage de la représentation visuelle et visuelle avec une supervision de texte bruyante (PMLR, de Google)
- Unité: Apprentissage multimodal multitâche avec un transformateur unifié (ICCV, de Fair)
- Wenlan: Bridging Vision and Language par pré-formation multimodale à grande échelle (Cet article présente le premier modèle de pré-formation multimodal chinois à grande échelle appelée Brivl; de l'Université Renmin de Chine)
- Codex: Évaluation de modèles de grandes langues formés sur le code (un modèle de langue GPT finet sur le code public de GitHub, d'Openai et Anthropic AI)
- Florence: un nouveau modèle de fondation pour la vision par ordinateur (de Microsoft)
- Dall-E: génération de texte à l'image zéro (d'Openai)
- Clip: Apprentissage des modèles visuels transférables de la supervision du langage naturel (d'Openai)
- Apprentissage multimodal à quelques coups avec des modèles de langage congelé (Neirips, de DeepMind)
- Transformateur SWIN: Transformateur de vision hiérarchique utilisant des fenêtres décalées (ICCV, de Microsoft Research Asia)
- Une image vaut 16x16 mots: Transformers pour la reconnaissance d'image à grande échelle (le premier transfomer de vision avec des blocs d'auto-agences purs; ICLR, de Google)
Avant 2021
- GPT-3: Les modèles de langue sont des apprenants à quelques tirs (paramètres 175B; permet l'apprentissage en contexte par rapport à GPT-2; d'Openai)
- Uniter: Apprentissage universel de représentation de texte d'image (de Microsoft)
- T5: Explorer les limites de l'apprentissage du transfert avec un transformateur de texte à texte unifié (de Google)
- GPT-2: Les modèles de langue sont des apprenants multitâches non surveillés (paramètres 1,5b; d'Openai)
- LXMERT: Apprentissage des représentations d'encodeur croisée de transformateurs (EMNLP, de UNC-Chapel Hill)
- Bert: pré-formation des transformateurs bidirectionnels profonds pour la compréhension du langage (de la langue Google AI)
- GPT: Améliorer la compréhension du langage par la pré-formation générative (d'Openai)
- L'attention est tout ce dont vous avez besoin (Neirips, de Google et Uot)
Articles par sujet
Modèles de grande langue / multimodal
- Llava: Tuning de l'instruction visuelle (de l'Université du Wisconsin-Madison)
- MINIGPT-4: Améliorer la compréhension de la vision avec des modèles avancés de grande langue (de KAUST)
- Rapport technique GPT-4 (d'Openai)
- GPT-3: Les modèles de langue sont des apprenants à quelques tirs (paramètres 175B; permet l'apprentissage en contexte par rapport à GPT-2; d'Openai)
- GPT-2: Les modèles de langue sont des apprenants multitâches non surveillés (paramètres 1,5b; d'Openai)
- GPT: Améliorer la compréhension du langage par la pré-formation générative (d'Openai)
- LLAMA 2: Modèles de chat à fondation ouverte et à réglage fin (de Meta)
- LLAMA: Modèles de langue de base ouverts et efficaces (modèles allant de 7b à 65B paramètres; de Meta)
- T5: Explorer les limites de l'apprentissage du transfert avec un transformateur de texte à texte unifié (de Google)
Attention linéaire
- Flashattention-2: une attention plus rapide avec un meilleur parallélisme et un meilleur partitionnement de travail
- Flashattention: une attention exacte rapide et économe en mémoire avec Io-sensender
Gros benchmarks
- OPHNET: Une référence vidéo à grande échelle pour la compréhension du flux de travail chirurgical ophtalmique (référence vidéo annotée à grande échelle pour chirurgie ophtalmique. De Monash, 2024)
- MMT-Bench: une référence multimodale complète pour évaluer les grands modèles de langue de vision vers le multitâche AGI (de Shanghai AI Lab, 2024)
- BLINK: Les modèles multimodaux de grande langue peuvent voir mais pas percevoir (référence multimodale. De l'Université de Pennsylvanie, 2024)
- CAD-ESTATE: Annotation du modèle CAO à grande échelle dans les vidéos RVB (vidéos RVB avec annotation CAO. De Google 2023)
- ImageNet: une base de données d'images hiérarchiques à grande échelle (Vision Benchmark. De Stanford, 2009)
Pré-formation en langue de la vision
- Flip: mise à l'échelle de l'image linguistique pré-formation via le masquage (de Meta)
- BLIP-2: Bootstrapage de l'image linguistique pré-formation avec des encodeurs d'images congelés et de grands modèles de langage (propose une stratégie de VLP générique et efficace basée sur des modèles de vision et de langage congelés standard. À partir de la recherche Salesforce)
- BLIP: Bootstrap-Image du langage-image pré-formation pour la compréhension et la génération unifiées de la vision (à partir de Salesforce Research)
- Slip: Self-Supervision rencontre la pré-formation d'image linguistique (ECCV, de UC Berkeley et Meta)
- GLIP: pré-formation d'image linguistique ancrée (CVPR, de l'UCLA et Microsoft)
- Alignez: la mise à l'échelle de l'apprentissage de la représentation visuelle et visuelle avec une supervision de texte bruyante (PMLR, de Google)
- RegionClip: Image linguistique basé sur la région
- Clip: Apprentissage des modèles visuels transférables de la supervision du langage naturel (d'Openai)
Tâches de perception: détection, segmentation et estimation de la pose
- SAM 2: segmenter n'importe quoi dans les images et les vidéos (de Meta)
- FoundationPose: Estimation de la pose 6D unifiée et suivi de nouveaux objets (de NVIDIA)
- Semble: segmenter tout partout à la fois (de l'Université du Wisconsin-Madison, HKUST et Microsoft)
- SAM: Segment n'importe quoi (le premier modèle de fondation pour la segmentation de l'image; de Meta)
- Seggpt: segmenter tout dans le contexte (de Baai, Zju et PKU)
Efficacité de formation
- Green AI (introduit le concept de rouge AI vs Green Ai)
- L'hypothèse de ticket de loterie: trouver des réseaux de neurones rares et entraînables (l'hypothèse de ticket de loterie, du MIT)
Vers l'intelligence générale artificielle (AGI)
- Vers AGI dans la vision informatique: leçons apprises de GPT et de grands modèles de langage (de Huawei)
Sécurité et responsabilité de l'IA
- Délimiter la probabilité de mal d'une IA pour créer un garde-corps (blog de Yoshua Bengio)
- Gérer les risques de l'IA extrêmes au milieu des progrès rapides (de la science, mai 2024)
Relatement impressionnants des référentiels
- Modèle de diffusion génial
- Modèle génial-vidéo-diffusion-modèles
- Méthodes d'édition d'image de modèle de diffusion impressionnante
- Modèles de finardation génial-cv
- Awesome-Healthcare-Foundation-Models
- Aménageux-agents-multimodaux géniaux
- Vision informatique dans la nature (Cvinw)