awesome colab notebooks
1.0.0
La page pourrait ne pas être rendue correctement. Veuillez ouvrir directement le fichier README.md
référentiels | papiers |
---|---|
|
|
nom | description | auteurs | links | colaboratoire | mise à jour |
---|---|---|---|---|---|
CoTracker | Architecture qui suit conjointement plusieurs points tout au long d'une vidéo entière |
autres |
| 16.10.2024 | |
PIFu | Fonction implicite alignée sur les pixels pour la numérisation humaine habillée haute résolution |
| 08.10.2024 | ||
DifFace | Méthode capable de gérer plus gracieusement des dégradations invisibles et complexes, sans conception de perte compliquée |
|
| 05.10.2024 | |
Segmenter n'importe quoi 2 | Modèle de base pour résoudre la segmentation visuelle rapide dans les images et les vidéos |
autres |
| 01.10.2024 | |
Ouvrir-Démixer | Une implémentation de référence de réseau neuronal profond pour la séparation des sources musicales, applicable aux chercheurs, ingénieurs du son et artistes |
|
| 25.09.2024 | |
Harmonisation picturale profonde | L'algorithme produit des résultats nettement meilleurs que les techniques de composition photo ou de stylisation globale et permet des modifications picturales créatives qui seraient autrement difficiles à réaliser. |
|
| 23.09.2024 | |
audio2photoréal | Cadre permettant de générer des avatars photoréalistes corsés qui gèrent selon la dynamique conversationnelle d'une interaction dyadique |
autres |
| 13.09.2024 | |
Segment rapide n'importe quoi | CNN Segment Anything Model formé en utilisant seulement 2 % de l'ensemble de données SA-1B publié par les auteurs de SAM |
autres |
| 10.09.2024 | |
Neuralangelo | Cadre pour la reconstruction de surfaces 3D haute fidélité à partir de captures vidéo RVB |
autres |
| 02.09.2024 | |
BiRefNet | Cadre de référence bilatéral pour la segmentation d'images dichotomiques haute résolution |
autres |
| 23.08.2024 | |
ROTATION | Apprendre à reconstruire la pose et la forme humaine en 3D via l'ajustement du modèle dans la boucle |
|
| 21.08.2024 | |
YOLOv10 | Viser à faire progresser davantage la limite performance-efficacité des YOLO à la fois du post-traitement et de l'architecture du modèle |
autres |
| 20.08.2024 | |
SpecVQGAN | Apprivoiser la génération sonore guidée visuellement en réduisant un ensemble de données d'entraînement à un ensemble de vecteurs représentatifs |
|
| 12.07.2024 | |
Portrait en direct | Cadre d'animation de portraits vidéo axé sur une meilleure généralisation, contrôlabilité et efficacité pour une utilisation pratique |
autres |
| 10.07.2024 | |
TAPIR | Suivi de n'importe quel point avec initialisation par image et raffinement temporel |
autres |
| 05.07.2024 | |
Wav2Lip | Un expert en synchronisation labiale est tout ce dont vous avez besoin pour la génération parole-lèvre dans la nature |
|
| 27.06.2024 | |
DeepLabCut | Méthode efficace d'estimation de pose sans marqueur basée sur l'apprentissage par transfert avec des réseaux neuronaux profonds qui permet d'obtenir d'excellents résultats avec un minimum de données d'entraînement |
autres |
| 05.06.2024 | |
PiscineAncienne | MetaFormer est en fait ce dont vous avez besoin pour la vision |
autres |
| 01.06.2024 | |
HistoireDiffusion | Méthode de calcul de l'auto-attention, appelée Consistent Self-Attention, qui améliore considérablement la cohérence entre les images générées et augmente les modèles texte-image pré-entraînés pré-entraînés basés sur la diffusion de manière zéro-shot |
|
| 04.05.2024 | |
PuLID | Personnalisation Pure et Lightning ID, une méthode de personnalisation d'ID sans réglage pour la génération de texte en image |
|
| 03.05.2024 | |
FILM | Un algorithme d'interpolation d'images qui synthétise plusieurs images intermédiaires à partir de deux images d'entrée avec un grand mouvement intermédiaire |
autres |
| 03.05.2024 | |
VoixCraft | Modèle de langage de codec neuronal à remplissage de jetons, qui atteint des performances de pointe en matière d'édition vocale et de synthèse vocale sans prise de vue sur les livres audio, les vidéos Internet et les podcasts. |
|
| 21.04.2024 | |
Zeste | Procédé de transfert de matériau sans prise de vue vers un objet dans l'image d'entrée à partir d'une image exemplaire de matériau |
|
| 16.04.2024 | |
Maille instantanée | Cadre de rétroaction pour la génération instantanée de maillage 3D à partir d'une seule image, offrant une qualité de génération de pointe et une évolutivité significative de la formation |
autres |
| 16.04.2024 | |
AlphaFold | Prédiction très précise de la structure des protéines |
autres |
| 15.04.2024 | |
Würstchen | Architecture de synthèse texte-image qui combine des performances compétitives avec une rentabilité sans précédent pour les modèles de diffusion texte-image à grande échelle |
| 06.04.2024 | ||
LQA | Compression extrême de grands modèles de langage via la quantification additive |
autres |
| 08.03.2024 | |
YOLOv9 | Apprendre ce que vous voulez apprendre à l'aide des informations de dégradé programmables |
|
| 05.03.2024 | |
Composition multi-LoRA | LoRA Switch et LoRA Composite, des approches qui visent à surpasser les techniques traditionnelles en termes de précision et de qualité d'image, notamment dans les compositions complexes |
autres |
| 03.03.2024 | |
AMARETTO | Inférence multiéchelle et multimodale de réseaux de régulation pour identifier les circuits cellulaires et leurs moteurs partagés et distincts au sein et entre les systèmes biologiques des maladies humaines |
autres |
| 28.02.2024 | |
LIDA | Outil pour générer des visualisations et des infographies indépendantes de la grammaire | Victor Dibia |
| 06.02.2024 | |
ViT | Architectures de transformateur de vision et de mélangeur MLP |
autres |
| 06.02.2024 | |
Ken Burns modèle 3D | Une implémentation de référence de l'effet 3D Ken Burns à partir d'une seule image à l'aide de PyTorch : étant donné une seule image d'entrée, elle anime cette image fixe avec un balayage et un zoom de caméra virtuelle soumis à la parallaxe de mouvement. | Manuel Romero | 24.01.2024 | ||
VALL-E X | Modèle de langage de codec neuronal multilingue pour la synthèse vocale multilingue |
autres |
| 19.01.2024 | |
Créateur de photos | Méthode de génération de texte en image personnalisée et efficace, qui code principalement un nombre arbitraire d'images d'identification d'entrée dans une intégration d'ID de pile pour préserver les informations d'identification |
autres |
| 18.01.2024 | |
DDCouleur | Méthode de bout en bout avec deux décodeurs pour la colorisation des images |
autres |
| 15.01.2024 | |
PASD | Réseau de diffusion stable prenant en compte les pixels pour obtenir un Real-ISR robuste ainsi qu'une stylisation personnalisée |
|
| 12.01.2024 | |
Raffineur à main | Affiner les mains mal formées dans les images générées par l'inpainting conditionnel basé sur la diffusion |
|
| 08.01.2024 | |
GraphCast | Apprendre des prévisions météorologiques mondiales à moyen terme |
autres |
| 04.01.2024 | |
MES | Modélisation à l'échelle évolutive : modèles de langage pré-entraînés pour les protéines |
autres |
| 28.12.2023 | |
LLaVA | Large Language and Vision Assistant, un grand modèle multimodal formé de bout en bout qui connecte un encodeur de vision et un LLM pour une compréhension visuelle et linguistique générale |
|
| 22.12.2023 | |
Tapis de fond V2 | Technique de remplacement d'arrière-plan en temps réel et haute résolution qui fonctionne à 30 ips en résolution 4K et à 60 ips en HD sur un GPU moderne |
autres |
| 22.12.2023 | |
Éclaboussures gaussiennes | Qualité visuelle de pointe tout en maintenant des temps d'entraînement compétitifs et, surtout, en permettant une synthèse de nouvelle vue de haute qualité en temps réel (≥ 100 ips) à une résolution de 1080p |
|
| 19.12.2023 | |
SMPLer-X | Faire évoluer l'EHPS vers le premier modèle de base généraliste, avec jusqu'à ViT-Huge comme épine dorsale et une formation avec jusqu'à 4,5 millions d'instances provenant de diverses sources de données |
autres |
| 18.12.2023 | |
Cache profond | Paradigme sans formation qui accélère les modèles de diffusion du point de vue de l'architecture des modèles |
|
| 18.12.2023 | |
MagieAnimer | Cadre basé sur la diffusion qui vise à améliorer la cohérence temporelle, à préserver fidèlement l'image de référence et à améliorer la fidélité de l'animation |
autres |
| 18.12.2023 | |
DiffBIR | Vers la restauration d’images aveugles avec diffusion générative préalable |
autres |
| 18.12.2023 | |
AudioLDM | Système texte-audio construit sur un espace latent pour apprendre les représentations audio continues à partir de latents de pré-entraînement contrastés langue-audio |
autres |
| 02.12.2023 | |
OngletPFN | Réseau neuronal qui a appris à faire des prédictions de données tabulaires |
|
| 29.11.2023 | |
Curseurs de concepts | Adaptateurs plug-and-play de bas rang appliqués au-dessus des modèles pré-entraînés |
|
| 26.11.2023 | |
Qwen-VL | Ensemble de modèles de langage visuel à grande échelle conçus pour percevoir et comprendre à la fois le texte et les images |
autres |
| 24.11.2023 | |
AnimeGANv3 | Réseau contradictoire génératif à double queue pour une animation photo rapide |
|
| 23.11.2023 | |
Ithaque | Premier réseau de neurones profonds pour la restauration textuelle, l'attribution géographique et chronologique des inscriptions grecques anciennes |
autres |
| 21.11.2023 | |
PixArt-Σ | Formation faible à forte du transformateur de diffusion pour la génération de texte en image 4K |
autres |
| 07.11.2023 | |
Zéro123++ | Modèle de diffusion conditionné par l'image pour générer des images multi-vues cohérentes en 3D à partir d'une seule vue d'entrée |
autres |
| 26.10.2023 | |
UniFormerV2 | Transformateur unifié pour un apprentissage efficace de la représentation spatio-temporelle |
autres |
| 20.10.2023 | |
Afficher-1 | Modèle hybride, baptisé Show-1, qui associe des VDM basés sur les pixels et latents pour la génération de texte en vidéo |
autres |
| 15.10.2023 | |
AudioSep | Modèle de base pour la séparation des sources audio en domaine ouvert avec des requêtes en langage naturel |
autres |
| 12.10.2023 | |
DA-CLIP | Modèle de langage de vision sensible à la dégradation pour mieux transférer les modèles de langage de vision pré-entraînés vers des tâches de vision de bas niveau en tant que cadre universel pour la restauration d'images |
|
| 11.10.2023 | |
TristeTarker | Génère des coefficients de mouvement 3D du 3DMM à partir de l'audio et module implicitement un nouveau rendu de visage compatible 3D pour la génération de têtes parlantes. |
autres |
| 10.10.2023 | |
Musique | Système de génération de musique pouvant être entraîné sur des centaines d'heures de musique à l'aide d'un seul GPU grand public, et permettant une génération beaucoup plus rapide que la génération en temps réel de musique de longueur arbitraire sur un processeur grand public |
|
| 09.10.2023 | |
YOLOv6 | Cadre de détection d'objets en une seule étape dédié aux applications industrielles |
|
| 08.10.2023 | |
RêveGaussien | Algorithme pour convertir les Gaussiennes 3D en maillages texturés et appliquer une étape de réglage fin pour affiner les détails |
|
| 04.10.2023 | |
ICÔNE | À partir d'un ensemble d'images, la méthode estime une surface 3D détaillée à partir de chaque image, puis les combine en un avatar animable. |
|
| 31.08.2023 | |
DINov2 | Produisez des fonctionnalités visuelles hautes performances qui peuvent être directement utilisées avec des classificateurs aussi simples que des couches linéaires sur une variété de tâches de vision par ordinateur ; ces fonctionnalités visuelles sont robustes et fonctionnent bien dans tous les domaines sans aucune nécessité de réglage fin |
autres |
| 31.08.2023 | |
OWL-ViT | Détection d'objets simple à vocabulaire ouvert avec des transformateurs de vision |
autres | 21.08.2023 | ||
StyleGAN3 | Réseaux contradictoires génératifs sans alias |
autres |
| 13.08.2023 | |
DestinZéro | Méthode d'édition de texte sans prise de vue sur des vidéos du monde réel sans formation préalable ni masque spécifique à l'utilisation |
autres |
| 13.08.2023 | |
Gros GAN | Formation GAN à grande échelle pour la synthèse d'images naturelles haute fidélité |
| 03.08.2023 | ||
Lama | Inpainting de grands masques à résolution robuste avec convolutions de Fourier |
autres |
| 02.08.2023 | |
Faites-en parler | Une méthode qui génère des vidéos expressives de têtes parlantes à partir d'une seule image faciale avec l'audio comme seule entrée |
autres |
| 27.07.2023 | |
HiDT | Un modèle génératif d'image à image et un nouveau schéma de suréchantillonnage qui permet d'appliquer une traduction d'image à haute résolution |
|
| 24.07.2023 | |
Coutelier | Approche simple pour former des modèles de détection et de segmentation d'objets non supervisés |
|
| 24.07.2023 | |
Reconnaître n'importe quoi et Tag2Text | Cadre de pré-formation en langage visuel, qui introduit le marquage d'images dans les modèles de langage visuel pour guider l'apprentissage des caractéristiques visuo-linguistiques |
autres |
| 09.07.2023 | |
Modèle de mouvement spline à plaque mince | Cadre de transfert de mouvement non supervisé de bout en bout |
|
| 07.07.2023 | |
Faites glisserGAN | Faites glisser votre GAN : manipulation interactive basée sur des points sur le collecteur d'images génératives |
autres |
| 03.07.2023 | |
MobileSAM | Vers un SAM léger pour les applications mobiles |
autres |
| 30.06.2023 | |
Mise à la terre de DINO | Marier DINO avec une pré-formation ancrée pour la détection d'objets en espace ouvert |
autres |
| 28.06.2023 | |
T5X | Cadre modulaire, composable et convivial pour la recherche pour une formation, une évaluation et une inférence hautes performances, configurables et en libre-service de modèles de séquence à de nombreuses échelles |
autres |
| 27.06.2023 | |
CodeTalker | Caster une animation faciale pilotée par la parole en tant que tâche de requête de code dans un espace proxy fini du livre de codes appris, ce qui favorise efficacement la vivacité des mouvements générés en réduisant l'incertitude de cartographie intermodale |
autres |
| 16.06.2023 | |
Modèle de mouvement du premier ordre pour l’animation d’images | Transférer les mouvements du visage de la vidéo à l'image | Aliaksandr Siarohin |
| 04.06.2023 | |
WaveGAN parallèle | Modèles non autorégressifs de pointe pour créer votre propre vocodeur | Tomoki Hayashi |
| 01.06.2023 | |
ÉCONOMIQUE | conçu pour la "numérisation humaine à partir d'une image couleur", qui combine les meilleures propriétés des représentations implicites et explicites, pour déduire des humains habillés en 3D haute fidélité à partir d'images sauvages, même avec des vêtements amples ou dans des poses difficiles |
|
| 31.05.2023 | |
MMS | Le projet Massively Multilingual Speech étend la technologie vocale d'environ 100 langues à plus de 1 000 en créant un modèle unique de reconnaissance vocale multilingue prenant en charge plus de 1 100 langues, des modèles d'identification de langue capables d'identifier plus de 4 000 langues, des modèles pré-entraînés prenant en charge plus de 1 400 langues et des outils de conversion texte-to-langue. modèles vocaux pour plus de 1 100 langues |
autres |
| 26.05.2023 | |
FAB | Flow AIS Bootstrap utilise l'AIS pour générer des échantillons dans les régions où le flux est une mauvaise approximation de la cible, facilitant ainsi la découverte de nouveaux modes. |
|
| 29.04.2023 | |
CodeFormer | Réseau de prédiction basé sur un transformateur pour modéliser la composition globale et le contexte des faces de faible qualité pour la prédiction de code, permettant la découverte de faces naturelles qui se rapprochent étroitement des faces cibles même lorsque les entrées sont gravement dégradées |
|
| 21.04.2023 | |
Text2Video-Zéro | Les modèles de diffusion texte-image sont des générateurs vidéo Zero-Shot |
autres |
| 11.04.2023 | |
Segmenter n'importe quoi | Le modèle Segment Anything produit des masques d'objets de haute qualité à partir d'invites de saisie telles que des points ou des cases, et il peut être utilisé pour générer des masques pour tous les objets d'une image. |
autres |
| 10.04.2023 | |
Suivez votre pose | Schéma de formation en deux étapes qui peut utiliser des paires de poses d'images et des ensembles de données vidéo sans pose ainsi que le modèle texte-image pré-entraîné pour obtenir les vidéos de personnages contrôlables par la pose |
autres |
| 07.04.2023 | |
EVA3D | Modèle génératif humain 3D inconditionnel de haute qualité qui ne nécessite que des collections d'images 2D pour la formation |
|
| 06.04.2023 | |
Fusion de rêve stable | Utilisation d'un modèle de diffusion texte-image 2D pré-entraîné pour effectuer une synthèse texte-3D |
|
| 04.04.2023 | |
PIFuHD | Fonction implicite d'alignement de pixels à plusieurs niveaux pour la numérisation humaine 3D haute résolution |
|
| 26.03.2023 | |
VidéoReTalking | Système permettant d'éditer les visages d'une vidéo de tête parlante du monde réel en fonction de l'audio d'entrée, produisant une vidéo de sortie de haute qualité et synchronisée sur les lèvres, même avec une émotion différente |
autres |
| 19.03.2023 | |
Chat visuelGPT | Connecte ChatGPT et une série de modèles Visual Foundation pour permettre l'envoi et la réception d'images pendant le chat |
autres |
| 15.03.2023 | |
Régler une vidéo | Réglage en une seule fois des modèles de diffusion d'images pour la génération de texte en vidéo |
autres |
| 23.02.2023 | |
GPEN | Réseau intégré GAN Prior pour la restauration des visages aveugles dans la nature |
|
| 15.02.2023 | |
PyMAF-X | Approche basée sur la régression pour récupérer des modèles paramétriques du corps entier à partir d'images monoculaires |
autres |
| 14.02.2023 | |
Diffusion Disco | Un amalgame frankensteinien de cahiers, de modèles et de techniques pour la génération d'art et d'animations IA |
|
| 11.02.2023 | |
GrooVAE | Quelques applications de l'apprentissage automatique pour générer et manipuler des rythmes et des performances de batterie |
|
| 02.02.2023 | |
Musique multipisteVAE | Les modèles de ce cahier sont capables d'encoder et de décoder des mesures uniques allant jusqu'à 8 pistes, éventuellement conditionnées sur un accord sous-jacent. |
autres |
| 02.02.2023 | |
MusiqueVAE | Un modèle vectoriel latent hiérarchique pour l'apprentissage de la structure à long terme de la musique |
|
| 02.02.2023 | |
Apprendre à peindre | Apprendre à peindre avec l'apprentissage par renforcement profond basé sur des modèles | Manuel Romero | 01.02.2023 | ||
NGP instantané | Primitives graphiques neuronales instantanées avec un codage de hachage multirésolution |
|
| 18.01.2023 | |
Réseaux de fonctionnalités de Fourier | Les fonctionnalités de Fourier permettent aux réseaux d'apprendre des fonctions haute fréquence dans des domaines de faible dimension |
autres |
| 17.01.2023 | |
AlphaPose | Estimation et suivi des poses multi-personnes régionales du corps entier en temps réel |
autres |
| 07.01.2023 | |
HybrIK | Solution hybride de cinématique inverse analytique et neuronale pour l'estimation de la pose et de la forme humaine en 3D |
autres |
| 01.01.2023 | |
Score du chaînage jacobien | Appliquez la règle de chaîne sur les gradients appris et rétro-propagez le score d'un modèle de diffusion à travers le jacobien d'un moteur de rendu différentiable, que nous instancions pour être un champ de radiance voxel. |
|
| 05.12.2022 | |
Démocrates | Spectrogramme hybride et séparation de source de forme d'onde | Alexandre Défossez |
| 21.11.2022 | |
StyleCLIP | Manipulation pilotée par texte de StyleGAN Imager |
|
| 30.10.2022 | |
MouvementDiffuse | Le premier cadre de génération de mouvement basé sur un modèle de diffusion et piloté par du texte, qui démontre plusieurs propriétés souhaitées par rapport aux méthodes existantes |
autres |
| 13.10.2022 | |
VToonifier | Exploite les couches moyenne et haute résolution de StyleGAN pour restituer des portraits artistiques de haute qualité basés sur les fonctionnalités de contenu multi-échelle extraites par un encodeur afin de mieux préserver les détails du cadre |
|
| 07.10.2022 | |
PyMAF | Alignement du maillage pyramidal Boucle de rétroaction dans le réseau de régression pour une récupération du maillage corporel bien aligné et extension pour la récupération de modèles expressifs du corps entier |
autres |
| 06.10.2022 | |
AlphaTenseur | Découvrir des algorithmes de multiplication matricielle plus rapides avec l'apprentissage par renforcement |
autres |
| 04.10.2022 | |
Swin2SR | Nouveau Swin Transformer V2, pour améliorer SwinIR pour la super-résolution d'image, et en particulier le scénario d'entrée compressé |
|
| 03.10.2022 | |
Fonction | Des données à la fonction : votre point de données est une fonction et vous pouvez le traiter comme telle. |
|
| 24.09.2022 | |
Chuchoter | Système de reconnaissance vocale automatique formé sur 680 000 heures de données supervisées multilingues et multitâches collectées sur le Web |
autres |
| 21.09.2022 | |
DeOldify (vidéo) | Colorisez vos propres vidéos ! | Jason Antic |
| 19.09.2022 | |
DeOldify (photo) | Colorisez vos propres photos ! |
|
| 19.09.2022 | |
Réel-ESRGAN | Étendez le puissant ESRGAN à une application de restauration pratique, formée avec des données synthétiques pures. |
|
| 18.09.2022 | |
IDE-3D | Édition interactive démêlée pour une synthèse de portrait haute résolution compatible 3D |
autres |
| 08.09.2022 | |
Transformateurs de décision | Une architecture qui présente le problème de RL comme modèle de séquence conditionnelle
Développer
Informations supplémentaires
Applications connexes
Recommandé pour vous
Actualités connexes
Tout
|