Modelos impressionantes
Um modelo de fundação é um modelo pré-terenciado em larga escala (por exemplo, Bert, Dall-E, GPT-3) que pode ser adaptado a uma ampla gama de aplicações a jusante. Este termo foi popularizado pela primeira vez pelo Instituto Stanford para inteligência artificial centrada em humanos. Este repositório mantém uma lista com curadoria de modelos de fundação para tarefas de visão e idioma. Documentos de pesquisa sem código não estão incluídos.
Enquete
2024
- Agentes de idiomas (de Princeton Shunyu Yao, tese de doutorado. Blog1, blog2)
- Uma pesquisa sistemática sobre grandes modelos de idiomas para design de algoritmo (da cidade de Hong Kong)
- Segmentação de imagens na Era do Modelo de Fundação: Uma Pesquisa (do Instituto de Tecnologia de Pequim)
- Rumo ao modelo de geo-fundamento da linguagem da visão: uma pesquisa (da Universidade Tecnológica de Nanyang)
- Uma introdução à modelagem da linguagem da visão (da meta)
- A evolução das arquiteturas de modelos multimodais (da Universidade de Purdue)
- Modelos de linguagem grande e eficiente multimodal: uma pesquisa (da Tencent)
- Modelos de Fundação para Entendimento de Vídeo: Uma Pesquisa (da Universidade Aalborg)
- Sora é um simulador mundial? Uma pesquisa abrangente sobre modelos mundiais em geral e além (da Gigaai)
- Papel prospectivo dos modelos de fundação no avanço de veículos autônomos (da Universidade Tongji)
- Ajuste fino com eficiência de parâmetro para grandes modelos: uma pesquisa abrangente (da Northeastern University)
- Uma revisão sobre antecedentes, tecnologia, limitações e oportunidades de grandes modelos de visão (de Lehigh)
- Grandes agentes multimodais: uma pesquisa (da CUHK)
- The Uncanny Valley: uma análise abrangente de modelos de difusão (de Mila)
- Robôs do mundo real Aplicações de modelos de fundação: uma revisão (da Universidade de Tóquio)
- Do GPT-4 a Gêmeos e além: Avaliando o cenário de MLLMs sobre generalização, confiabilidade e causalidade por meio de quatro modalidades (do laboratório de Xangai ai)
- Para a unificação do modelo de fundação visual generativa e discriminativa: uma pesquisa (da JHU)
Antes de 2024
- Modelos fundamentais em imagem médica: uma pesquisa abrangente e visão futura (da SDSU)
- Modelos de fundação multimodal: de especialistas a assistentes de uso geral (da Microsoft)
- Rumo ao Modelo da Fundação Generalista para Radiologia (da SJTU)
- Modelos fundamentais que definem uma nova era em visão: uma pesquisa e perspectiva (da Universidade MBZ da IA)
- Em direção à IA biomédica generalista (do Google)
- Uma pesquisa sistemática de engenharia imediata nos modelos de fundação em linguagem da visão (de Oxford)
- Grandes modelos multimodais: Notas no tutorial do CVPR 2023 (de Chunyuan Li, Microsoft)
- Uma pesquisa sobre modelos de idiomas grandes multimodais (da USTC e Tencent)
- Modelos de visão de visão para tarefas de visão: uma pesquisa (da Universidade Tecnológica de Nanyang)
- Modelos de fundação para inteligência artificial médica generalista (de Stanford)
- Uma pesquisa abrangente sobre modelos de fundação pré -traida: uma história de Bert para Chatgpt
- Uma pesquisa abrangente do conteúdo gerado pela IA (AIGC): uma história de IA generativa de GaN para ChatGPT
- PRÉ-TREINAM
- Sobre as oportunidades e riscos dos modelos de fundação (esta pesquisa populariza primeiro o conceito de modelo de fundação; de Standford)
Documentos por data
2024
- [11/14] Leis de escala para precisão (de Harvard)
- [11/13] Neurais com campos neurais: percepção visuotátil para manipulação na mão (da meta)
- [11/07] DINO-WM: Modelos mundiais em recursos visuais pré-treinados permitem o planejamento zero-tiro (da Universidade de Nova York)
- [10/31] Projeto SID: Muitas simulações de agentes em direção à civilização da IA (de Altera.al)
- [10/30] Tokenformer: repensando o escalonamento do transformador com parâmetros de modelo tokenizados (do Instituto Max Planck for Informatics)
- [10/30] Centralização de recompensa (de Richard Sutton, Universidade de Alberta)
- [10/21] Memória de longo prazo: a base da auto-evolução da IA (de Tianqiao e Chrissy Chen Institute)
- [10/10] Escalando seus grãos: grande design do kernel em Convnets em direção a representações universais (da CUHK)
- [10/04] Filme Gen: um elenco de modelos de fundação de mídia (da meta)
- [10/02] RNNs eram tudo o que precisávamos? (de Mila)
- [10/01] NGPT: Transformador normalizado com aprendizado de representação no hiperesfera (da NVIDIA)
- [30/09/30] MM1.5: Métodos, Análise e Insights do ajuste fino multimodal LLM (da Apple)
- [27/09/27] Emu3: a previsão da próxima token é tudo o que você precisa (de Baai)
- [09/09/25] Molmo e Pixmo: pesos abertos e dados abertos para modelos multimodais de última geração (de Allen AI)
- [09/18] QWEN2-VL: Aprimorando a percepção do mundo do mundo da visão da visão do mundo em qualquer resolução (do Alibaba)
- [09/18] Moshi: um modelo de fundação de texto de fala para diálogo em tempo real (de Kyutai)
- [08/27] Os modelos de difusão são motores de jogo em tempo real (do Google)
- [08/22] Sapiens: Fundação para modelos de visão humana (da meta)
- [08/14] Imagen 3 (do Google Deepmind)
- [07/31] O llama 3 rebanho de modelos (da meta)
- [07/29] SAM 2: Segmento de qualquer coisa em imagens e vídeos (da meta)
- [07/07/24] Partglee: um modelo de fundação para reconhecer e analisar quaisquer objetos (da Hust e Bytedance)
- [07/17] EVE: Desaviando modelos de linguagem de visão sem codificadores (de Baai)
- [07/12] Camadas de transformador como pintores (de Sakana AI)
- [06/24] Cambrian-1: Uma exploração totalmente aberta e centrada na visão de LLMs multimodais (da NYU)
- [06/13] 4M-21: Um modelo de visão de qualquer coisa para dezenas de tarefas e modalidades (da EPFL e da Apple)
- [06/10] Merlin: Um modelo de Fundação de Vision Language para tomografia computadorizada 3D (do código Stanford. Estará disponível.)
- [06/06] Vision-LSTM: XLSTM como backbone genérico da visão (dos autores LSTM)
- [05/31] Meshxl: campo de coordenadas neurais para modelos generativos de fundação 3D (do Fudan)
- [05/25] Moeut: Mixture-of-Experts Universal Transformers (de Stanford)
- [05/22] Atenção como um RNN (de Mila & Borealis AI)
- [05/22] GIGAPATH: um modelo de fundação de slide inteiro para patologia digital a partir de dados do mundo real (da natureza)
- [05/21] BiomedParse: um modelo de fundação biomédica para análise de imagem biomédica (da Microsoft. Versão do diário)
- [20/05] OCTO: Uma política de robô generalista de código aberto (da UC Berkeley)
- [05/17] Leis de escala observacional e a previsibilidade do desempenho do modelo de linguagem (FRO Standford)
- [05/14] Compreendendo a lacuna de desempenho entre algoritmos de alinhamento online e offline (do Google)
- [05/09] Lumina-T2X: transformando o texto em qualquer modalidade, resolução e duração através de grandes transformadores de difusão baseados em fluxo (do laboratório de Xangai AI)
- [05/08] Você só cache uma vez: arquiteturas decodificadores-decodificadores para modelos de idiomas
- [05/07] XLSTM: Memória prolongada de longo prazo (de Sepp Hochreiter, autor de Lstm.)
- [05/06] Avançando as capacidades médicas multimodais de Gemini (do Google)
- [05/04] U-DITS: Tokens Downsample em transformadores de difusão em forma de U (da Universidade de Pequim)
- [05/03] VIBE-EVAL: um conjunto de avaliação difícil para medir o progresso dos modelos de linguagem multimodal
- [04/30] KAN: Kolmogorov-Networks (alternativas promissoras de MLPs. Do MIT)
- [04/04/26] Até onde estamos o GPT-4V? Fechando a lacuna para modelos multimodais comerciais com suítes de código aberto (Internvl 1.5. De Shanghai Ai Lab)
- [04/14] Transformerfam: Atenção de feedback é a memória de trabalho (do Google. Atenção eficiente.)
- [04/10] Não deixa o contexto para trás: transformadores de contexto infinitos eficientes com infini-attention (do Google)
- [04/02] Octopus v2: Modelo de linguagem no device para super agente (de Stanford)
- [04/02] Mistura-de-profundidade: alocando dinamicamente computação em modelos de idiomas baseados em transformadores (do Google)
- [03/22] Internvideo2: Modelos de Fundação de Vídeo de Video para Compreensão de Vídeo Multimodal (do Laboratório de Xangai AI)
- [03/18] Arc2face: Um modelo de fundação de rostos humanos (do Imperial College London)
- [03/14] MM1: Métodos, Análise e Insights da Multimodal LLM Pré-treinamento (Parâmetros 30b. Da Apple)
- [03/09] Unigradicon: um modelo de fundação para o registro de imagem médica (da UNC-Chapel Hill)
- [03/05] Transformadores de fluxo retificado da escala para síntese de imagem de alta resolução (difusão estável 3. Da estabilidade AI)
- [03/01] Aprendendo e alavancando modelos mundiais em aprendizado de representação visual (da meta)
- [03/01] Visionllama: uma interface lhama unificada para tarefas de visão (de Meituan)
- [02/28] CLLMS: Modelos de linguagem grande de consistência (da SJTU)
- Difusão da camada de imagem transparente usando transparência latente (de Standford)
- [02/22] MOBILELLM: Otimizando os modelos de linguagem de parâmetros de sub-bilhões para casos de uso no dispositivo (da meta)
- [02/21] Além de ∗: Melhor planejamento com transformadores via Bootstrapping Bootstrapping (da Meta)
- [02/20] Difusão da rede neural (gerando parâmetros de rede por meio de modelos de difusão. De NUS)
- [20/02] Videoprism: um codificador visual fundamental para entendimento em vídeo (do Google)
- [02/19] FIT: Transformador de visão flexível para modelo de difusão (do laboratório de Xangai AI)
- [02/06] MobileVLM v2: linha de base mais rápida e mais forte para o modelo de linguagem de visão (do Meituan)
- [01/30] YOLO-WORLD: Detecção de objetos-vocabulares abertos em tempo real (de Tencent e Hust)
- [01/23] Lumiere: um modelo de difusão espaço-tempo para geração de vídeo (do Google)
- [01/22] CHEXAGENT: Rumo a um modelo de fundação para a interpretação de raios-X de tórax (de Stanford)
- [01/19] De profundidade: libertar o poder dos dados não marcados em larga escala (da Tiktok)
- [01/16] SIT: Explorando modelos generativos baseados em fluxo e difusão com transformadores interpolantes escaláveis (da NYU)
- [01/15] InstantId: Geração de Preservação de Identidade Zero-Shot em segundos (de Xiaohongshu)
2023
- Bioclip: um modelo de Fundação Vision para a Árvore da Vida (CVPR 2024 Melhor papel para estudantes)
- Mamba: modelagem de sequência de tempo linear com espaços de estado seletivos (Mamba parece superar os transformadores de tamanho semelhante enquanto escalam linearmente com o comprimento da sequência. Da CMU)
- Foundationpose: Estimativa unificada de pose 6D e rastreamento de novos objetos (da NVIDIA)
- Rastreando tudo em todos os lugares de uma só vez (de Cornell, ICCV 2023 Melhor papel para estudantes)
- Modelos de fundação para inteligência artificial geoespacial generalista (da IBM e NASA)
- LLAMA 2: Fundação aberta e modelos de bate-papo ajustados (da meta)
- InternLM-Xcomposer: Um modelo grande em linguagem de visão para compreensão e composição avançada da imagem de texto (do laboratório de Xangai AI)
- O Projeto de All-Seeing: Rumo ao reconhecimento visual panóptico e compreensão do mundo aberto (do laboratório de Xangai ai)
- Meta-Transformer: Uma estrutura unificada para aprendizado multimodal (do laboratório de CUHK e Shanghai AI)
- Rede retentiva: um sucessor de transformadores para grandes modelos de idiomas (da Microsoft e da Universidade Tsinghua)
- Modelos mundiais neurais para visão computacional (tese de doutorado de Anthony Hu da Universidade de Cambridge)
- Reconheça qualquer coisa: um modelo de marcação de imagem forte (um modelo de fundação forte para marcação de imagem. De Oppo)
- Em direção a modelos visuais de fundação de cenas físicas (descreve um primeiro passo para aprender representações visuais de uso geral de cenas físicas usando apenas a previsão de imagem como critério de treinamento; da AWS)
- LIMA: Menos é mais para o alinhamento (parâmetros 65b, da meta)
- Palm 2 Relatório Técnico (do Google)
- ImageBind: um espaço de incorporação para vincular todos eles (da meta)
- Ajuste de instrução visual (llava, da U de Wisconsin-Madison e Microsoft)
- Parece: segmentar tudo em todos os lugares de uma só vez (da Universidade de Wisconsin-Madison, Hkust e Microsoft)
- SAM: Segmento de qualquer coisa (o primeiro modelo de fundação para segmentação de imagem; da meta)
- Seggpt: segmentar tudo em contexto (de Baai, Zju e PKU)
- As imagens falam em imagens: um pintor generalista para aprendizado visual no contexto (de Baai, Zju e PKU)
- UNIDECTOR: Detectando tudo no mundo aberto: em direção à detecção de objetos universais (CVPR, de Tsinghua e Bnrist)
- Professor desmascarado: para modelos de fundação em vídeo com eficiência de treinamento (da Academia Chinesa de Ciências, Academia de Ciências da Universidade de Chinesa, Laboratório de Xangai AI)
- Rastreamento multimodal de prompt visual (da Dalian University of Technology e Peng Cheng Laboratory)
- Para construir modelos gerais de fundação para tarefas de entendimento em linguagem, visão e linguagem da visão (da bytedance)
- EVA-CLIP: Técnicas de treinamento aprimoradas para clipe em escala (de Baai e Hust)
- EVA-02: Uma representação visual para o neon Gênesis (de Baai e Hust)
- EVA-01: Explorando os limites do aprendizado de representação visual mascarada em escala (CVPR, de Baai e Hust)
- LLAMA: Modelos de linguagem de fundação abertos e eficientes (uma coleção de modelos de linguagem de fundação que variam de 7b a 65b parâmetros; da Meta)
- A eficácia do MAE pré-contratando para pré-treinamento em escala (da meta)
- Bloomberggpt: um grande modelo de linguagem para finanças (50 bilhões de parâmetros; da Bloomberg)
- Bloom: Um modelo de linguagem multilíngue de acesso aberto de 176b-parâmetros (este trabalho foi coordenado pela Bigscience cujo objetivo é democratizar o LLMS.)
- Flip: escala de pré-treinamento de imagem de linguagem via mascaramento (da meta)
- BLIP-2: Pré-treinamento de imagem de linguagem de inicialização com codificadores de imagem congelada e grandes modelos de linguagem (da Saleforce Research)
- Relatório Técnico GPT-4 (do OpenAI)
- Visual Chatgpt: conversando, desenhando e editando com modelos visuais de fundação (da Microsoft Research Asia)
- Uninxt: percepção universal de instância como descoberta e recuperação de objetos (um modelo unificado para 10 tarefas de percepção de instância; CVPR, da Bytedance)
- Internvideo: Modelos de fundação em vídeo geral via aprendizado generativo e discriminativo (do laboratório de Xangai AI)
- Internimagem: Explorando modelos de fundação em larga escala com convoluções deformáveis (CVPR, do Shanghai AI Lab)
- Bridgetower: Construindo pontes entre os codificadores no aprendizado de representação em linguagem da visão (do Harbin Institute of Technology e da Microsoft Research Asia)
2022
- Bevt: Bert pré -treinamento de transformadores de vídeo (CVPR, do Shanghai Key Lab of Intelligent Information Processing)
- Transformadores da fundação (da Microsoft)
- Um agente generalista (conhecido como Gato, um agente generalista multi-modal, multitarefa e multi-embodes
- Fibra: pré-treinamento em linguagem de visão grossa para Fine com fusão na espinha dorsal (da Microsoft, UCLA e Universidade de Nova York)
- Flamingo: um modelo de linguagem visual para aprendizado de poucos tiros (de DeepMind)
- Metalm: Modelos de idiomas são interfaces de uso geral (da Microsoft)
- Point-E: um sistema para gerar nuvens de ponto 3D a partir de avisos complexos (geração de objetos 3D eficiente usando um modelo de difusão de texto para imagem; do OpenAI)
- Segmentação de imagens usando os prompts de texto e imagem (CVPR, da Universidade de Göttingen)
- Fluxo unificador, estimativa estéreo e profundidade (um modelo unificado para três tarefas de movimento e 3D de percepção; da ETH Zurique)
- Pali: Um modelo de imagem de linguagem multilíngue em escala conjunta (do Google)
- Videomae: os autoencodentes mascarados são alunos com eficiência de dados para pré-treinamento em vídeo auto-supervisionado (Neurips, da Universidade Nanjing, Tencent e Shanghai AI Lab)
- Slip: Auto-supervisão atende ao pré-treinamento de imagem de linguagem (ECCV, da UC Berkeley e Meta)
- GLIPV2: Unificação de localização e compreensão do VL (Neurips'22, de UW, Meta, Microsoft e UCLA)
- Glip: pré-treinamento de imagem de linguagem aterrada (CVPR, da UCLA e Microsoft)
- Blip: Bootstrapping Language-Image pré-treinamento para compreensão e geração unificada da linguagem da visão (da Salesforce Research)
- Nuwa-Infinity: Autorregressivo sobre a geração autoregressiva para síntese visual infinita (da Microsoft)
- Palm: escala de modelagem de linguagem com caminhos (do Google)
- Coca: Legendadores contrastantes são modelos de fundação de texto de imagem (do Google)
- Parti: Modelos autoregressivos de dimensionamento para geração de texto para imagem rica em conteúdo (do Google)
- Uma interface de sequência unificada para tarefas de visão (do Google Research, Team Brain)
- Imagen: modelos de difusão de texto para imagem fotorrealista com compreensão profunda da linguagem (do Google)
- Difusão estável: síntese de imagem de alta resolução com modelos de difusão latente (CVPR, de estabilidade e pista)
- Além do jogo de imitação: quantificando e extrapolando as capacidades dos modelos de idiomas (benchmark de 204 tarefas de 204 tarefas para LLMS, 444 autores de 132 instituições)
- Cris: segmentação de imagens de referência acionada por clipes (da Universidade de Sydney e Oppo)
- AutoEncoders mascarados como aprendizes espaço -temporais (Extensão do MAE para Vídeos; Neurips, da Meta)
- AutoEncoders mascarados são alunos de visão escalável (CVPR 2022, da Fair)
- InstructGPT: Treinando modelos de idiomas para seguir as instruções com feedback humano (treinado com humanos no loop; do OpenAI)
- Uma interface de sequência unificada para tarefas de visão (Neurips 2022, do Google)
- Dall-e2: geração de imagem condicional hierárquica com latentes de clipes (do OpenAI)
- Imagens médicas robustas e eficientes com auto-supervisão (do Google, Georgia Tech e Northwestern University)
- Video Swin Transformer (CVPR, da Microsoft Research Asia)
- OFA: unificar arquiteturas, tarefas e modalidades por meio de uma estrutura de aprendizado de sequência para sequência simples (ICML 2022. De Alibaba.)
- Mask2Former: Transformador de máscara de atendimento mascarado para segmentação de imagem universal (CVPR 2022, da Fair and Uiuc)
- Flava: um modelo de alinhamento de linguagem e visão fundamental (CVPR, da pesquisa da IA do Facebook)
- Rumo à inteligência geral artificial por meio de um modelo de fundação multimodal (Nature Communication, da Universidade Renmin da China)
- FILIP: pré-treinamento de linguagem interativa de granulação fina (ICLR, da Huawei e Hkust)
- SimVLM: Modelo de linguagem visual simples, pré -treinamento com supervisão fraca (ICLR, da CMU e Google)
- Glide: em direção à geração de imagens fotorrealistas e edição com modelos de difusão guiada por texto (do OpenAI)
2021
- Unificar tarefas de visão e linguagem via geração de texto (da UNC-Chapel Hill)
- Alinhe: ampliando a representação visual e de visão de visão Aprendizagem com supervisão de texto barulhenta (PMLR, do Google)
- Unidade: Aprendizagem multimodal multitarefa com um transformador unificado (ICCV, da Fair)
- Wenlan: Visão e linguagem em ponte por pré-treinamento multimodal em larga escala (este artigo apresenta o primeiro modelo de pré-treinamento multimodal chinês em larga escala chamado BRIVL; da Universidade Renmin da China)
- Codex: Avaliando grandes modelos de idiomas treinados no código (um modelo de idioma GPT FinetUned no Código Público do GitHub, do OpenAI e AI Antrópico)
- Florence: Um novo modelo de fundação para visão computacional (da Microsoft)
- Dall-e: geração de texto para imagem Zero-Shot (do OpenAI)
- Clipe: Aprendendo modelos visuais transferíveis da supervisão da linguagem natural (do OpenAI)
- Aprendizagem multimodal de poucos tiros com modelos de idiomas congelados (Neurips, da DeepMind)
- Transformador Swin: Transformador de visão hierárquica usando janelas deslocadas (ICCV, da Microsoft Research Asia)
- Uma imagem vale 16x16 palavras: transformadores para reconhecimento de imagem em escala (o primeiro transfômero de visão com blocos de autotenção pura; ICLR, do google)
Antes de 2021
- GPT-3: Modelos de idiomas são poucos alunos (parâmetros de 175b; permite a aprendizagem no contexto em comparação com o GPT-2; do OpenAI)
- Uniter: Learning de representação de texto de imagem universal (da Microsoft)
- T5: Explorando os limites do aprendizado de transferência com um transformador de texto em texto unificado (do Google)
- GPT-2: Modelos de idiomas são alunos de várias tarefas não supervisionados (parâmetros de 1,5b; do OpenAI)
- LXMERT: Aprendendo representações de codificadores de modalidade cruzada da Transformers (EMNLP, da UNC-Chapel Hill)
- Bert: pré-treinamento de transformadores bidirecionais profundos para o entendimento do idioma (do idioma do Google AI)
- GPT: Melhorando a compreensão da linguagem por pré-treinamento generativo (do OpenAI)
- Atenção é tudo o que você precisa (Neurips, do Google e UOT)
Artigos por tópico
Linguagem grande/modelos multimodais
- Llava: Ajuste de Instrução Visual (da Universidade de Wisconsin-Madison)
- Minigpt-4: Aprimorando o entendimento da linguagem da visão com modelos avançados de idiomas (da Kaust)
- Relatório Técnico GPT-4 (do OpenAI)
- GPT-3: Modelos de idiomas são poucos alunos (parâmetros de 175b; permite a aprendizagem no contexto em comparação com o GPT-2; do OpenAI)
- GPT-2: Modelos de idiomas são alunos de várias tarefas não supervisionados (parâmetros de 1,5b; do OpenAI)
- GPT: Melhorando a compreensão da linguagem por pré-treinamento generativo (do OpenAI)
- LLAMA 2: Fundação aberta e modelos de bate-papo ajustados (da meta)
- LLAMA: Modelos de linguagem de fundação abertos e eficientes (modelos que variam de 7b a 65b parâmetros; da meta)
- T5: Explorando os limites do aprendizado de transferência com um transformador de texto em texto unificado (do Google)
Atenção linear
- Flashattion-2: atenção mais rápida com melhor paralelismo e partição de trabalho
- Flashattion: atenção exata rápida e com eficiência de memória com a consciência de IO
Grandes benchmarks
- OpHnet: Uma referência de vídeo em larga escala para o entendimento do fluxo de trabalho cirúrgico oftálmico (referência de vídeo anotada em larga escala para cirurgia oftálmica. De Monash, 2024)
- MMT-BANCE: Um benchmark multimodal abrangente para avaliar grandes modelos de linguagem de visão em relação à AGI multitarefa (do laboratório de Xangai Ai, 2024)
- Blink: Modelos de grandes idiomas multimodais podem ver, mas não percebem (benchmark multimodal. Da Universidade da Pensilvânia, 2024)
- CAD-ESTATE: Anotação de modelo CAD em larga escala em vídeos RGB (Vídeos RGB com anotação CAD. Do Google 2023)
- ImageNet: um banco de dados de imagem hierárquica em larga escala (benchmark de visão. De Stanford, 2009)
Pré-treinamento em linguagem da visão
- Flip: escala de pré-treinamento de imagem de linguagem via mascaramento (da meta)
- BLIP-2: PRÉ-TREINAMENTO DE AMAGEM DE LANGUANDA DE LANGUANDA com codificadores de imagens congeladas e modelos de linguagem grandes (propõe uma estratégia genérica e eficiente de VLP baseada em modelos de visão e idioma congelados prontos para uso.
- Blip: Bootstrapping Language-Image pré-treinamento para compreensão e geração unificada da linguagem da visão (da Salesforce Research)
- Slip: Auto-supervisão atende ao pré-treinamento de imagem de linguagem (ECCV, da UC Berkeley e Meta)
- Glip: pré-treinamento de imagem de linguagem aterrada (CVPR, da UCLA e Microsoft)
- Alinhe: ampliando a representação visual e de visão de visão Aprendizagem com supervisão de texto barulhenta (PMLR, do Google)
- RegionClip: pré-treinamento de imagem baseada na região
- Clipe: Aprendendo modelos visuais transferíveis da supervisão da linguagem natural (do OpenAI)
Tarefas de percepção: detecção, segmentação e estimativa de pose
- Sam 2: Segmento qualquer coisa em imagens e vídeos (da meta)
- Foundationpose: Estimativa unificada de pose 6D e rastreamento de novos objetos (da NVIDIA)
- Parece: segmentar tudo em todos os lugares de uma só vez (da Universidade de Wisconsin-Madison, Hkust e Microsoft)
- SAM: Segmento de qualquer coisa (o primeiro modelo de fundação para segmentação de imagem; da meta)
- Seggpt: segmentar tudo em contexto (de Baai, Zju e PKU)
Eficiência de treinamento
- Ai verde (apresenta o conceito de AI vermelho vs verde ai)
- A hipótese do ingresso da loteria: encontrando redes neurais escassas e treináveis (a hipótese do ingresso da loteria, do MIT)
Rumo à inteligência geral artificial (AGI)
- Em direção à AGI em visão computacional: lições aprendidas com GPT e grandes modelos de idiomas (da Huawei)
Segurança e responsabilidade da IA
- Delimitando a probabilidade de danos de uma IA para criar um corrimão (blog de Yoshua bengo)
- Gerenciando os riscos extremos de IA em meio a um progresso rápido (da ciência, maio de 2024)
Repositórios incríveis relacionados
- Modelos de difusão impressionante
- Modelos impressionantes-video-difusão
- Métodos de edição de imagens impressionantes-difusão
- Modelos impressionantes-cv-fundacionais
- Modelos de fuga de saúde impressionantes
- Antes de agentes impressionantes e multimodais
- Visão computacional em estado selvagem (CVINW)