awesome colab notebooks
1.0.0
A página pode não ser renderizada corretamente. Abra o arquivo README.md diretamente
repositórios | papéis |
---|---|
|
|
nome | descrição | autores | links | colaborativo | atualizar |
---|---|---|---|---|---|
CoTracker | Arquitetura que rastreia em conjunto vários pontos ao longo de um vídeo inteiro |
outros |
| 16.10.2024 | |
PI Fu | Função implícita alinhada a pixels para digitalização humana vestida de alta resolução |
| 08.10.2024 | ||
DifFace | Método que é capaz de lidar com degradações invisíveis e complexas de maneira mais elegante, sem projetos complicados de perda |
|
| 05.10.2024 | |
Segmentar qualquer coisa 2 | Modelo básico para resolver segmentação visual imediata em imagens e vídeos |
outros |
| 01.10.2024 | |
Abrir-Desmixar | Uma implementação de referência de rede neural profunda para separação de fontes musicais, aplicável para pesquisadores, engenheiros de áudio e artistas |
|
| 25.09.2024 | |
Harmonização pictórica profunda | O algoritmo produz resultados significativamente melhores do que a composição de fotos ou técnicas de estilização global e permite edições pictóricas criativas que de outra forma seriam difíceis de alcançar |
|
| 23.09.2024 | |
áudio2fotoreal | Estrutura para geração de avatares fotorrealistas encorpados que gesticulam de acordo com a dinâmica conversacional de uma interação diádica |
outros |
| 13.09.2024 | |
Segmente rapidamente qualquer coisa | Modelo CNN Segment Anything treinado usando apenas 2% do conjunto de dados SA-1B publicado pelos autores do SAM |
outros |
| 10.09.2024 | |
Neuralângelo | Estrutura para reconstrução de superfície 3D de alta fidelidade a partir de capturas de vídeo RGB |
outros |
| 02.09.2024 | |
BiRefNet | Quadro de referência bilateral para segmentação dicotômica de imagens de alta resolução |
outros |
| 23.08.2024 | |
RODAR | Aprendendo a reconstruir a postura e a forma humana em 3D por meio do ajuste do modelo no loop |
|
| 21.08.2024 | |
YOLOv10 | Objetivo de avançar ainda mais o limite de eficiência de desempenho dos YOLOs tanto do pós-processamento quanto da arquitetura do modelo |
outros |
| 20.08.2024 | |
EspecificaçãoVQGAN | Dominar a geração de som guiada visualmente, reduzindo um conjunto de dados de treinamento a um conjunto de vetores representativos |
|
| 12.07.2024 | |
Retrato ao vivo | Estrutura de animação de retratos baseada em vídeo com foco em melhor generalização, controlabilidade e eficiência para uso prático |
outros |
| 10.07.2024 | |
ANTA | Rastreando qualquer ponto com inicialização por quadro e refinamento temporal |
outros |
| 05.07.2024 | |
Wav2Lip | Um especialista em sincronização labial é tudo que você precisa para gerar fala em lábios na natureza |
|
| 27.06.2024 | |
DeepLab Cut | Método eficiente para estimativa de pose sem marcadores baseado em aprendizagem por transferência com redes neurais profundas que alcança excelentes resultados com dados de treinamento mínimos |
outros |
| 05.06.2024 | |
PoolFormer | MetaFormer é realmente o que você precisa para ter visão |
outros |
| 01.06.2024 | |
Difusão de história | Forma de cálculo de autoatenção, denominada Autoatenção Consistente, que aumenta significativamente a consistência entre as imagens geradas e aumenta os modelos de texto para imagem baseados em difusão pré-treinados predominantes de maneira zero-shot |
|
| 04.05.2024 | |
PuLID | Personalização Pure e Lightning ID, um método de personalização de ID sem ajuste para geração de texto para imagem |
|
| 03.05.2024 | |
FILME | Um algoritmo de interpolação de quadros que sintetiza vários quadros intermediários a partir de duas imagens de entrada com grande movimento intermediário |
outros |
| 03.05.2024 | |
VoiceCraft | modelo de linguagem de codec neural com preenchimento de token, que alcança desempenho de última geração tanto na edição de fala quanto na conversão de texto em fala de disparo zero em audiolivros, vídeos da Internet e podcasts |
|
| 21.04.2024 | |
ZeST | Método para transferência de material de disparo zero para um objeto na imagem de entrada, dada uma imagem exemplar de material |
|
| 16.04.2024 | |
Malha Instantânea | Estrutura feedforward para geração instantânea de malha 3D a partir de uma única imagem, apresentando qualidade de geração de última geração e escalabilidade de treinamento significativa |
outros |
| 16.04.2024 | |
AlfaFold | Previsão altamente precisa da estrutura proteica |
outros |
| 15.04.2024 | |
Würstchen | Arquitetura para síntese de texto para imagem que combina desempenho competitivo com custo-benefício sem precedentes para modelos de difusão de texto para imagem em larga escala |
| 06.04.2024 | ||
AQLM | Compressão Extrema de Grandes Modelos de Linguagem via Quantização Aditiva |
outros |
| 08.03.2024 | |
YOLOv9 | Aprendendo o que você deseja aprender usando informações de gradiente programável |
|
| 05.03.2024 | |
Composição Multi-LoRA | LoRA Switch e LoRA Composite, abordagens que visam superar as técnicas tradicionais em termos de precisão e qualidade de imagem, especialmente em composições complexas |
outros |
| 03.03.2024 | |
AMARETTO | Inferência multiescala e multimodal de redes reguladoras para identificar circuitos celulares e seus impulsionadores compartilhados e distintos dentro e entre sistemas biológicos de doenças humanas |
outros |
| 28.02.2024 | |
LIDA | Ferramenta para gerar visualizações e infográficos independentes de gramática | Victor Dibia |
| 06.02.2024 | |
ViT | Arquiteturas Vision Transformer e MLP-Mixer |
outros |
| 06.02.2024 | |
Ken Burns Modelo 3D | Uma implementação de referência do efeito 3D Ken Burns a partir de uma única imagem usando PyTorch - dada uma única imagem de entrada, ele anima esta imagem estática com uma varredura de câmera virtual e zoom sujeito a paralaxe de movimento | Manuel Romero | 24.01.2024 | ||
VALL-E X | Modelo de linguagem de codec neural multilíngue para síntese de fala multilíngue |
outros |
| 19.01.2024 | |
FotoMaker | Método eficiente de geração de texto para imagem personalizado, que codifica principalmente um número arbitrário de imagens de ID de entrada em uma incorporação de ID de pilha para preservar informações de ID |
outros |
| 18.01.2024 | |
DDCor | Método ponta a ponta com decodificadores duplos para colorização de imagens |
outros |
| 15.01.2024 | |
PASD | Rede de difusão estável com reconhecimento de pixel para obter Real-ISR robusto, bem como estilização personalizada |
|
| 12.01.2024 | |
HandRefiner | Refinando mãos malformadas em imagens geradas por pintura condicional baseada em difusão |
|
| 08.01.2024 | |
GráficoCast | Aprendendo previsões meteorológicas globais de médio alcance hábeis |
outros |
| 04.01.2024 | |
MEE | Modelagem em escala evolutiva: modelos de linguagem pré-treinados para proteínas |
outros |
| 28.12.2023 | |
LLaVA | Large Language and Vision Assistant, um grande modelo multimodal treinado de ponta a ponta que conecta um codificador de visão e LLM para compreensão visual e de linguagem de uso geral |
|
| 22.12.2023 | |
Tapete de fundo V2 | Técnica de substituição de fundo de alta resolução em tempo real que opera a 30 fps em resolução 4K e 60 fps para HD em uma GPU moderna |
outros |
| 22.12.2023 | |
Respingos Gaussianos | Qualidade visual de última geração, mantendo tempos de treinamento competitivos e, o que é mais importante, permite uma síntese de visualização inovadora de alta qualidade em tempo real (≥ 100 fps) com resolução de 1080p |
|
| 19.12.2023 | |
SMPLer-X | Ampliando o EHPS para o primeiro modelo de base generalista, com até ViT-Huge como backbone e treinamento com até 4,5 milhões de instâncias de diversas fontes de dados |
outros |
| 18.12.2023 | |
DeepCache | Paradigma livre de treinamento que acelera modelos de difusão na perspectiva da arquitetura de modelos |
|
| 18.12.2023 | |
MagicAnimate | Estrutura baseada em difusão que visa melhorar a consistência temporal, preservar fielmente a imagem de referência e melhorar a fidelidade da animação |
outros |
| 18.12.2023 | |
DifBIR | Rumo à restauração cega de imagens com difusão generativa prévia |
outros |
| 18.12.2023 | |
ÁudioLDM | Sistema de texto para áudio construído em um espaço latente para aprender as representações contínuas de áudio a partir de latentes contrastantes de pré-treinamento de áudio-linguagem |
outros |
| 12.02.2023 | |
TabPFN | Rede neural que aprendeu a fazer previsão de dados tabulares |
|
| 29.11.2023 | |
Controles deslizantes de conceito | Adaptadores plug-and-play de baixa classificação aplicados em modelos pré-treinados |
|
| 26.11.2023 | |
Qwen-VL | Conjunto de modelos de linguagem visual em grande escala projetados para perceber e compreender textos e imagens |
outros |
| 24.11.2023 | |
AnimeGANv3 | Rede adversária generativa de cauda dupla para animação fotográfica rápida |
|
| 23.11.2023 | |
Ítaca | Primeira Rede Neural Profunda para restauração textual, atribuição geográfica e cronológica de inscrições gregas antigas |
outros |
| 21.11.2023 | |
PixArt-Σ | Treinamento fraco a forte de transformador de difusão para geração de texto para imagem em 4K |
outros |
| 07.11.2023 | |
Zero123++ | Modelo de difusão condicionada por imagem para gerar imagens multivisualização consistentes em 3D a partir de uma única visualização de entrada |
outros |
| 26.10.2023 | |
UniFormerV2 | Transformador Unificado para Aprendizagem Eficiente de Representação Espaçotemporal |
outros |
| 20.10.2023 | |
Mostrar-1 | Modelo híbrido, apelidado de Show-1, que combina VDMs baseados em pixels e baseados em latentes para geração de texto para vídeo |
outros |
| 15.10.2023 | |
ÁudioSep | Modelo básico para separação de fontes de áudio de domínio aberto com consultas em linguagem natural |
outros |
| 12.10.2023 | |
DA-CLIP | Modelo de linguagem de visão com reconhecimento de degradação para melhor transferir modelos de linguagem de visão pré-treinados para tarefas de visão de baixo nível como uma estrutura universal para restauração de imagens |
|
| 11.10.2023 | |
SadTalker | Gera coeficientes de movimento 3D do 3DMM a partir de áudio e modula implicitamente uma nova renderização facial compatível com 3D para geração de falantes |
outros |
| 10.10.2023 | |
Música | Sistema de geração de música que pode ser treinado em centenas de horas de música usando uma única GPU de consumidor e que permite uma geração de música de duração arbitrária muito mais rápida do que em tempo real em uma CPU de consumidor |
|
| 09.10.2023 | |
YOLOv6 | Estrutura de detecção de objetos de estágio único dedicada a aplicações industriais |
|
| 08.10.2023 | |
DreamGaussian | Algoritmo para converter gaussianas 3D em malhas texturizadas e aplicar um estágio de ajuste fino para refinar os detalhes |
|
| 04.10.2023 | |
ÍCONE | Dado um conjunto de imagens, o método estima uma superfície 3D detalhada de cada imagem e depois as combina em um avatar animável |
|
| 31.08.2023 | |
DINov2 | Produza recursos visuais de alto desempenho que podem ser empregados diretamente com classificadores tão simples quanto camadas lineares em uma variedade de tarefas de visão computacional; esses recursos visuais são robustos e funcionam bem em todos os domínios, sem qualquer necessidade de ajuste fino |
outros |
| 31.08.2023 | |
OWL-ViT | Detecção simples de objetos de vocabulário aberto com transformadores de visão |
outros | 21.08.2023 | ||
EstiloGAN3 | Redes Adversariais Gerativas Livres de Alias |
outros |
| 13.08.2023 | |
DestinoZero | Método de edição zero-shot baseado em texto em vídeos do mundo real, sem treinamento por solicitação ou máscara específica de uso |
outros |
| 13.08.2023 | |
Grande GAN | Treinamento GAN em grande escala para síntese de imagens naturais de alta fidelidade |
| 03.08.2023 | ||
Lama | Pintura de máscara grande com resolução robusta e convoluções de Fourier |
outros |
| 02.08.2023 | |
MakeItTalk | Um método que gera vídeos expressivos de falantes a partir de uma única imagem facial com áudio como única entrada |
outros |
| 27.07.2023 | |
HiDT | Um modelo generativo de imagem para imagem e um novo esquema de upsampling que permite aplicar tradução de imagens em alta resolução |
|
| 24.07.2023 | |
CutLER | Abordagem simples para treinar modelos não supervisionados de detecção e segmentação de objetos |
|
| 24.07.2023 | |
Reconhecer qualquer coisa e Tag2Text | Estrutura de pré-treinamento de linguagem de visão, que introduz marcação de imagens em modelos de linguagem de visão para orientar o aprendizado de recursos de linguagem visual |
outros |
| 09.07.2023 | |
Modelo de movimento spline de placa fina | Estrutura de transferência de movimento não supervisionada de ponta a ponta |
|
| 07.07.2023 | |
ArrastarGAN | Arraste seu GAN: manipulação interativa baseada em pontos no coletor de imagens generativas |
outros |
| 03.07.2023 | |
MóvelSAM | Rumo ao SAM leve para aplicações móveis |
outros |
| 30.06.2023 | |
Aterramento DINO | Casando DINO com pré-treinamento fundamentado para detecção de objetos em conjunto aberto |
outros |
| 28.06.2023 | |
T5X | Estrutura modular, combinável e fácil de pesquisar para treinamento, avaliação e inferência de alto desempenho, configurável e de autoatendimento de modelos de sequência em muitas escalas |
outros |
| 27.06.2023 | |
Code Talker | Transmitir animação facial orientada por fala como uma tarefa de consulta de código em um espaço proxy finito do livro de códigos aprendido, o que promove efetivamente a vivacidade dos movimentos gerados, reduzindo a incerteza do mapeamento intermodal |
outros |
| 16.06.2023 | |
Modelo de movimento de primeira ordem para animação de imagens | Transferindo movimentos faciais de vídeo para imagem | Aliaksander Siarohin |
| 04.06.2023 | |
Onda ParalelaGAN | Modelos não autorregressivos de última geração para construir seu próprio excelente vocoder | Tomoki Hayashi |
| 01.06.2023 | |
ECONOMIA | projetado para "Digitalização humana a partir de uma imagem colorida", que combina as melhores propriedades de representações implícitas e explícitas, para inferir humanos vestidos em 3D de alta fidelidade a partir de imagens selvagens, mesmo com roupas largas ou em poses desafiadoras |
|
| 31.05.2023 | |
MMS | O projeto Massively Multilingual Speech expande a tecnologia de fala de cerca de 100 idiomas para mais de 1.000, construindo um único modelo de reconhecimento de fala multilíngue que suporta mais de 1.100 idiomas, modelos de identificação de idioma capazes de identificar mais de 4.000 idiomas, modelos pré-treinados que suportam mais de 1.400 idiomas e conversão de texto em modelos de fala para mais de 1100 idiomas |
outros |
| 26.05.2023 | |
FABULOSO | Flow AIS Bootstrap usa AIS para gerar amostras em regiões onde o fluxo é uma aproximação pobre do alvo, facilitando a descoberta de novos modos |
|
| 29.04.2023 | |
CodeFormer | Rede de predição baseada em transformador para modelar a composição global e o contexto das faces de baixa qualidade para predição de código, permitindo a descoberta de faces naturais que se aproximam das faces alvo mesmo quando as entradas estão severamente degradadas |
|
| 21.04.2023 | |
Text2Video-Zero | Modelos de difusão de texto para imagem são geradores de vídeo Zero-Shot |
outros |
| 11.04.2023 | |
Segmente qualquer coisa | O modelo Segment Anything produz máscaras de objetos de alta qualidade a partir de prompts de entrada, como pontos ou caixas, e pode ser usado para gerar máscaras para todos os objetos em uma imagem |
outros |
| 10.04.2023 | |
Siga sua pose | Esquema de treinamento de dois estágios que pode utilizar pares de pose de imagem e conjuntos de dados de vídeo sem pose e o modelo de texto para imagem pré-treinado para obter vídeos de personagens controláveis por pose |
outros |
| 07.04.2023 | |
EVA3D | Modelo generativo humano 3D incondicional de alta qualidade que requer apenas coleções de imagens 2D para treinamento |
|
| 06.04.2023 | |
Dreamfusion estável | Usando um modelo de difusão de texto para imagem 2D pré-treinado para realizar a síntese de texto para 3D |
|
| 04.04.2023 | |
PIFUHD | Função implícita alinhada a pixels multinível para digitalização humana 3D de alta resolução |
|
| 26.03.2023 | |
VídeoReTalking | Sistema para editar os rostos de um vídeo falante do mundo real de acordo com o áudio de entrada, produzindo um vídeo de saída de alta qualidade e sincronização labial, mesmo com uma emoção diferente |
outros |
| 19.03.2023 | |
Bate-papo visualGPT | Conecta ChatGPT e uma série de Visual Foundation Models para permitir o envio e recebimento de imagens durante o bate-papo |
outros |
| 15.03.2023 | |
Sintonize um vídeo | Ajuste único de modelos de difusão de imagem para geração de texto para vídeo |
outros |
| 23.02.2023 | |
GPEN | Rede incorporada anterior GAN para restauração de rostos cegos na natureza |
|
| 15.02.2023 | |
PyMAF-X | Abordagem baseada em regressão para recuperação de modelos paramétricos de corpo inteiro a partir de imagens monoculares |
outros |
| 14.02.2023 | |
Difusão Discoteca | Um amálgama frankensteiniano de cadernos, modelos e técnicas para a geração de arte e animações de IA |
|
| 11.02.2023 | |
GrooVAE | Algumas aplicações de aprendizado de máquina para geração e manipulação de batidas e performances de bateria |
|
| 02.02.2023 | |
Música multifaixa VAE | Os modelos deste notebook são capazes de codificar e decodificar compassos únicos de até 8 trilhas, opcionalmente condicionados a um acorde subjacente |
outros |
| 02.02.2023 | |
MúsicaVAE | Um modelo hierárquico de vetor latente para aprendizagem de estrutura de longo prazo em música |
|
| 02.02.2023 | |
Aprendendo a pintar | Aprendendo a pintar com aprendizado por reforço profundo baseado em modelo | Manuel Romero | 01.02.2023 | ||
NGP instantâneo | Primitivos gráficos neurais instantâneos com codificação hash multiresolução |
|
| 18.01.2023 | |
Redes de recursos de Fourier | Os recursos de Fourier permitem que as redes aprendam funções de alta frequência em domínios de baixa dimensão |
outros |
| 17.01.2023 | |
AlfaPose | Estimativa e rastreamento regional de pose multipessoal de corpo inteiro em tempo real |
outros |
| 07.01.2023 | |
HybrIK | Solução híbrida de cinemática inversa analítica-neural para estimativa de pose e forma humana em 3D |
outros |
| 01.01.2023 | |
Pontuação do encadeamento jacobiano | Aplicar a regra da cadeia nos gradientes aprendidos e propagar retroativamente a pontuação de um modelo de difusão através do Jacobiano de um renderizador diferenciável, que instanciamos como um campo de radiância de voxel |
|
| 12/05/2022 | |
Democs | Espectrograma Híbrido e Separação de Fonte de Forma de Onda | Alexandre Défossez |
| 21.11.2022 | |
EstiloCLIP | Manipulação baseada em texto do StyleGAN Imager |
|
| 30.10.2022 | |
Movimento Difuso | A primeira estrutura de geração de movimento orientada por texto baseada em modelo de difusão, que demonstra várias propriedades desejadas em relação aos métodos existentes |
outros |
| 13.10.2022 | |
VToonify | Aproveita as camadas de média e alta resolução do StyleGAN para renderizar retratos artísticos de alta qualidade com base nos recursos de conteúdo em várias escalas extraídos por um codificador para preservar melhor os detalhes do quadro |
|
| 07.10.2022 | |
PyMAF | Loop de feedback de alinhamento de malha piramidal em rede de regressão para recuperação de malha corporal bem alinhada e estendê-lo para a recuperação de modelos expressivos de corpo inteiro |
outros |
| 06.10.2022 | |
Alfa Tensor | Descobrindo algoritmos de multiplicação de matrizes mais rápidos com aprendizagem por reforço |
outros |
| 04.10.2022 | |
Swin2SR | Novel Swin Transformer V2, para melhorar o SwinIR para super-resolução de imagem e, em particular, o cenário de entrada compactada |
|
| 03.10.2022 | |
Função | Dos dados à função: seu ponto de dados é uma função e você pode tratá-lo como tal |
|
| 24.09.2022 | |
Sussurrar | Sistema automático de reconhecimento de fala treinado em 680.000 horas de dados supervisionados multilíngues e multitarefa coletados da web |
outros |
| 21.09.2022 | |
DeOldify (vídeo) | Colorir seus próprios vídeos! | Jason Antic |
| 19.09.2022 | |
DeOldify (foto) | Colorir suas próprias fotos! |
|
| 19.09.2022 | |
Real-ESRGAN | Estenda o poderoso ESRGAN para uma aplicação prática de restauração, que é treinada com dados sintéticos puros |
|
| 18.09.2022 | |
IDE-3D | Edição interativa desembaraçada para síntese de retratos com reconhecimento de 3D de alta resolução |
outros |
| 08.09.2022 | |
Transformadores de decisão | Uma arquitetura que lança o problema de RL como modelo de sequência condicional
Expandir
Informações adicionais
Aplicativos Relacionados
Recomendado para você
Informações Relacionadas
Todos
|