best_AI_papers_2021 Téléchargement - best_AI_papers_2021 Téléchargement du code source

best_AI_papers_2021

Autre code source

1.0.0

Télécharger

2021: Une année pleine de papiers AI incroyables - une revue?

Une liste organisée des dernières percées dans l'IA par date de sortie avec une explication vidéo claire, un lien vers un article plus approfondi et du code.

Alors que le monde se rétablit toujours, la recherche n'a pas ralenti son rythme frénétique, en particulier dans le domaine de l'intelligence artificielle. De plus, de nombreux aspects importants ont été mis en évidence cette année, comme les aspects éthiques, les biais importants, la gouvernance, la transparence et bien plus encore. L'intelligence artificielle et notre compréhension du cerveau humain et de son lien avec l'IA évoluent constamment, montrant des applications prometteuses améliorant la qualité de notre vie dans un avenir proche. Pourtant, nous devons être prudents avec la technologie que nous choisissons d'appliquer.

"La science ne peut pas nous dire ce que nous devons faire, seulement ce que nous pouvons faire."
- Jean-Paul Sartre, être et néant

Voici les articles de recherche les plus intéressants de l'année, au cas où vous auriez manqué l'un d'eux. En bref, il s'agit de la liste organisée des dernières percées dans l'IA et la science des données par date de sortie avec une explication vidéo claire, un lien vers un article plus approfondi et du code (le cas échéant). Profitez de la lecture!

La référence complète à chaque article est répertoriée à la fin de ce référentiel. Star ce référentiel pour rester à jour! ️

HEUPTENER: Louisfb01

Abonnez-vous à ma newsletter - les dernières mises à jour de l'IA expliquées chaque semaine.

N'hésitez pas à m'envoyer un message intéressant que j'ai peut-être manqué pour ajouter à ce référentiel.

Tagez-moi sur Twitter @Whats_ai ou LinkedIn @Louis (What's Ai) Bouchard si vous partagez la liste!

Regardez un rembobinage complet en 2021 en 15 minutes

Si vous êtes intéressé par la recherche sur la vision par ordinateur, voici un autre excellent référentiel pour vous:

Une liste organisée des 10 principales publications CV en 2021 avec une explication vidéo claire, un lien vers un article plus approfondi et du code.

Les 10 meilleurs papiers de vision informatique de 2021

? Si vous souhaitez soutenir mon travail et utiliser W&B (gratuitement) pour suivre vos expériences ML et rendre votre travail reproductible ou collaborer avec une équipe, vous pouvez l'essayer en suivant ce guide! Étant donné que la majeure partie du code ici est basée sur Pytorch, nous avons pensé qu'un guide QuickStart pour l'utilisation de W&B sur Pytorch serait le plus intéressant à partager.

Suivez ce guide rapide, utilisez les mêmes lignes W&B dans votre code ou l'un des références ci-dessous, et faites suivre toutes vos expériences automatiquement dans votre compte W&B! Il ne faut pas plus de 5 minutes pour s'installer et changera votre vie comme elle l'a fait pour moi! Voici un guide plus avancé pour utiliser des balayages hyperparamètres si vous êtes intéressé :)

? Merci à des poids et des préjugés pour avoir parrainé ce référentiel et le travail que j'ai fait, et merci à chacun d'entre vous en utilisant ce lien et en essayant W&B!

La liste complète

Dall · E: génération de texte à l'image à tirs zéro à partir d'Openai [1]
Vogue: Try-On par Stylegan Interpolation Optimization [2]
Taming Transformers pour la synthèse d'images à haute résolution [3]
Penser vite et lent dans l'IA [4]
Détection et quantification automatique du macro-macro-macro-macro-cavalier dans des images aériennes [5]
Sharf: champs de rayonnement conditionné en forme à partir d'une seule vue [6]
Transformers adversaires génératifs [7]
Nous avons demandé à l'intelligence artificielle de créer des profils de rencontres. Souhaitez-vous glisser? [8]
Transformer Swin: Transformateur de vision hiérarchique utilisant des fenêtres décalées [9]
Les Gans d'image rencontrent un rendu différenciable pour les graphiques inverses et le rendu neuronal 3D interprétable [10]
Nets Deep: Qu'ont-ils jamais fait pour la vision? [11]
Nature infinie: vue perpétuelle Génération de scènes naturelles à partir d'une seule image [12]
Main neuroprosthétique portable et autonome avec contrôle des doigts basé sur l'apprentissage en profondeur [13]
RETOURS TOTAL: Apprendre à éliminer les portraits pour le remplacement des antécédents [14]
LASR: Apprendre la reconstruction de forme articulée à partir d'une vidéo monoculaire [15]
Amélioration de l'amélioration du photoréalisme [16]
Defakehop: un détecteur Deepfake à haute performance à haute performance [17] [17]
Traduction d'images photoréalistes haute résolution en temps réel: un réseau de traduction pyramide laplacien [18]
Barbershop: compositing d'images basé sur Gan à l'aide de masques de segmentation [19]
TextStylebrush: transfert de l'esthétique du texte à partir d'un seul exemple [20]
Animer des images avec des champs de mouvement eulériens [21]
CVPR 2021 Best Paper Award: Girafe - Génération d'images contrôlables [22]
GitHub Copilot & Codex: évaluation de modèles de grande langue formés sur le code [23]
Apple: Reconnaître les gens sur des photos via l'apprentissage automatique privé sur les appareils [24]
Synthèse d'image et édition avec des équations différentielles stochastiques [25]
Esquissez votre propre gan [26]
Le pilote automatique de Tesla a expliqué [27]
StyleClip: Manipulation axée sur le texte de l'imagerie Stylegan [28]
Timelens: interpolation du cadre vidéo basé sur des événements [29]
Génération diversifiée à partir d'une seule vidéo rendue possible [30]
Précipitations habiles maintenant en utilisant des modèles de radar génératifs profonds [31]
Le problème de la fourche à cocktail: séparation audio à trois tiges pour les bandes sonores du monde réel [32]
Adopter: rendu approximatif de points à un pixel différenciable [33]
(Style) ClipDraw: Coupling Content and Style dans la synthèse de texto-dessin [34]
Swinir: Restauration d'image à l'aide de transformateur Swin [35]
Editgan: Édition d'image sémantique de haute précision [36]
Citynerf: Building Nerf à City Scale [37]
Clipcap: préfixe de clip pour le sous-titrage de l'image [38]
Références papier

Dall · E: génération de texte à l'image à tirs zéro à partir d'Openai [1]

OpenAI a réussi à former un réseau capable de générer des images à partir de légendes de texte. Il est très similaire à GPT-3 et à l'image GPT et produit des résultats incroyables.

Explication vidéo courte:
Brève lecture: Openai's Dall · E: génération de texte à l'image expliqué
Papier: génération de texte à l'image à tirs zéro
Code: Code et plus d'informations pour les Vae discrets utilisés pour Dall · E

Vogue: Try-On par Stylegan Interpolation Optimization [2]

Google a utilisé une architecture Modified Stylegan2 pour créer une salle de raccord en ligne où vous pouvez automatiquement essayer tous les pantalons ou chemises que vous souhaitez utiliser uniquement une image de vous-même.

Explication vidéo courte:
Courte lecture: la salle d'ajustement en ligne alimentée par AI: Vogue
Document: Vogue: Try-On par Stylegan Interpolation Optimization

Taming Transformers pour la synthèse d'images à haute résolution [3]

TL; DR: Ils ont combiné l'efficacité des Gans et des approches convolutionnelles avec l'expressivité des transformateurs pour produire une méthode puissante et économe en temps pour la synthèse d'image de haute qualité guidée par sémantiquement.

Explication vidéo courte:
Lire courte: combinant l'expressivité des transformateurs avec l'efficacité CNNS pour la synthèse d'image à haute résolution
Papier: Taming Transformers pour la synthèse d'image haute résolution
Code: Taming Transformers

Penser vite et lent dans l'IA [4]

S'inspirant des capacités humaines vers une question d'IA et 10 plus générale et digne de confiance pour la communauté de la recherche sur l'IA.

Explication vidéo courte:
LIRE COURT: TROISIÈME VAGUE D'AI | Penser vite et lent
Papier: penser rapidement et lent dans l'IA

Détection et quantification automatique du macro-macro-macro-macro-cavalier dans des images aériennes [5]

Odei Garcia-Garin et al. de l'Université de Barcelone a développé un algorithme basé sur l'apprentissage en profondeur capable de détecter et de quantifier les ordures flottantes à partir d'images aériennes. Ils ont également fait une application orientée vers le Web permettant aux utilisateurs d'identifier ces ordures, appelées macro-macro-liberes flottantes, ou FMML, dans les images de la surface de la mer.

Explication vidéo courte:
Lire courte: un logiciel d'IA capable de détecter et de compter les déchets plastiques dans l'océan
Document: Détection automatique et quantification du macro-macro-macro-macro-liteur dans les images aériennes: introduction d'une nouvelle approche d'apprentissage en profondeur connectée à une application Web dans R, Pollution de l'environnement
Cliquez ici pour le code

Sharf: champs de rayonnement conditionné en forme à partir d'une seule vue [6]

Imaginez à quel point ce serait cool de prendre une image d'un objet et de le faire en 3D pour insérer dans le film ou le jeu vidéo que vous créez ou dans une scène 3D pour une illustration.

Explication vidéo courte:
Lire courte: Sharf: Prenez une image d'un objet réel et créez un modèle 3D
Papier: Sharf: champs de radiance conditionnés par la forme à partir d'une seule vue
Cliquez ici pour le code

Transformers adversaires génératifs [7]

Ils exploitent essentiellement le mécanisme d'attention des Transformers dans la puissante architecture Stylegan2 pour la rendre encore plus puissante!

Explication vidéo courte:
LIRE COURT: Gansformateurs: Génération de scène avec des transformateurs contradictoires génératifs
Papier: transformateurs adversaires génératifs
Cliquez ici pour le code

Abonnez-vous à ma newsletter hebdomadaire et restez à jour avec de nouvelles publications en IA pour 2022!

Nous avons demandé à l'intelligence artificielle de créer des profils de rencontres. Souhaitez-vous glisser? [8]

Souhaitez-vous glisser directement sur un profil IA? Pouvez-vous distinguer un véritable humain d'une machine? C'est ce que cette étude révèle en utilisant des personnes faites sur l'IA sur les applications de rencontres.

Explication vidéo courte:
Courte lecture: Souhaitez-vous glisser directement sur un profil d'IA?
Document: Nous avons demandé à l'intelligence artificielle de créer des profils de rencontres. Souhaitez-vous glisser?
Cliquez ici pour le code

Transformer Swin: Transformateur de vision hiérarchique utilisant des fenêtres décalées [9]

Les transformateurs remplaceront-ils CNNS dans la vision par ordinateur? En moins de 5 minutes, vous saurez comment l'architecture du transformateur peut être appliquée à la vision par ordinateur avec un nouveau papier appelé Swin Transformer.

Explication vidéo courte:
Lire courte: Transformers remplacera-t-il les CNN dans la vision par ordinateur?
Papier: Swin Transformer: Transformateur de vision hiérarchique à l'aide de fenêtres décalées
Cliquez ici pour le code

Les Gans d'image rencontrent un rendu différenciable pour les graphiques inverses et le rendu neuronal 3D interprétable [10]

Ce modèle prometteur appelé Ganverse3d n'a besoin que d'une image pour créer une figure 3D qui peut être personnalisée et animée!

Explication vidéo courte:
Courte lecture: Créez des modèles 3D à partir d'images! Ganverse3d & nvidia omniverse
Document: Image Gans rencontre un rendu différenciable pour les graphiques inverses et le rendu neuronal 3D interprétable

Nets Deep: Qu'ont-ils jamais fait pour la vision? [11]

"Je vais tout partager ouvertement sur les réseaux profonds pour les applications de vision, leurs succès et les limitations que nous devons aborder."

Explication vidéo courte:
Lire courte: Quel est l'état de l'IA dans la vision par ordinateur?
Papier: Nets Deep: Qu'ont-ils jamais fait pour la vision?

Nature infinie: vue perpétuelle Génération de scènes naturelles à partir d'une seule image [12]

La prochaine étape de la synthèse de la vue: la génération de vue perpétuelle, où l'objectif est de prendre une image pour y voler et d'explorer le paysage!

Explication vidéo courte:
Courte lecture: Nature infinie: volez dans une image et explorez le paysage
Papier: Nature infinie: vue perpétuelle Génération de scènes naturelles à partir d'une seule image
Cliquez ici pour le code
Démo colab

Main neuroprosthétique portable et autonome avec contrôle des doigts basé sur l'apprentissage en profondeur [13]

Avec cette interface nerveuse alimentée par l'IA, l'amputé peut contrôler une main neuroprosthétique avec une dextérité et une intuitivité en forme de vie.

Explication vidéo courte:
Courte lecture: un amputé avec une main alimentée par AI! ?
Papier: main neuroprosthétique portable et autonome avec contrôle des doigts basé sur l'apprentissage en profondeur

RETOURS TOTAL: Apprendre à éliminer les portraits pour le remplacement des antécédents [14]

Refléchissez correctement tout portrait en fonction de l'éclairage du nouveau fond que vous ajoutez. Avez-vous déjà voulu changer l'arrière-plan d'une image mais l'a-t-il en train d'être réaliste? Si vous avez déjà essayé, vous savez déjà que ce n'est pas simple. Vous ne pouvez pas simplement prendre une photo de vous dans votre maison et changer l'arrière-plan pour une plage. Il a l'air mauvais et pas réaliste. N'importe qui dira simplement «c'est photoshoppé» dans une seconde. Pour les films et les vidéos professionnelles, vous avez besoin de l'éclairage parfait et des artistes pour reproduire une image de haute qualité, et c'est super cher. Il n'y a aucun moyen que vous puissiez le faire avec vos propres photos. Ou pouvez-vous?

Explication vidéo courte:
Lire courte: Éclairage réaliste sur différents arrière-plans
Document: Relatement total: Apprendre à éliminer les portraits pour le remplacement de fond

LASR: Apprendre la reconstruction de forme articulée à partir d'une vidéo monoculaire [15]

Générez des modèles 3D d'humains ou d'animaux se déplaçant à partir d'une courte vidéo en entrée. Il s'agit d'une nouvelle méthode pour générer des modèles 3D d'humains ou d'animaux se déplaçant d'une courte vidéo en entrée. En effet, il comprend en fait qu'il s'agit d'une forme étrange, qu'elle peut bouger, mais doit toujours rester attachée car il s'agit toujours d'un "objet" et pas seulement de nombreux objets ensemble ...

Explication vidéo courte:
LIRE COURT: Reconstruction 3D articulée à partir de vidéos
Document: LASR: Apprendre la reconstruction de forme articulée à partir d'une vidéo monoculaire
Cliquez ici pour le code

Amélioration de l'amélioration du photoréalisme [16]

Cette IA peut être appliquée en direct au jeu vidéo et transformer chaque cadre pour être beaucoup plus naturel. Les chercheurs d'Intel Labs viennent de publier cet article intitulé Amélioration de l'amélioration du photoréalisme. Et si vous pensez que cela peut être "juste un autre Gan", prenant une photo du jeu vidéo comme une entrée et le changeant en suivant le style du monde naturel, permettez-moi de changer d'avis. Ils ont travaillé sur ce modèle pendant deux ans pour le rendre extrêmement robuste. Il peut être appliqué en direct au jeu vidéo et transformer chaque cadre pour être beaucoup plus naturel. Imaginez simplement les possibilités où vous pouvez mettre beaucoup moins d'efforts dans le graphique du jeu, rendre la super stable et complète, puis améliorer le style en utilisant ce modèle ...

Explication vidéo courte:
LECTURE COURT: L'AI est-elle l'avenir de la conception de jeux vidéo? Amélioration de l'amélioration du photoréalisme
Document: Amélioration de l'amélioration du photoréalisme
Cliquez ici pour le code

Defakehop: un détecteur Deepfake à haute performance à haute performance [17] [17]

Comment repérer un faux profond en 2021. Breakthrough US Army Technology utilisant l'intelligence artificielle pour trouver Deepfakes.

Bien qu'ils semblent avoir toujours été là, le tout premier deepfake réaliste n'apparaissait pas avant 2017. Il est passé de la toute première ressemblant à de fausses images générées automatiquement à la copie identique d'aujourd'hui de quelqu'un sur des vidéos, avec du son.

La réalité est que nous ne pouvons plus voir la différence entre une vraie vidéo ou une image et unfake Deep. Comment pouvons-nous savoir ce qui est réel de ce qui ne l'est pas? Comment les fichiers audio ou les fichiers vidéo peuvent-ils être utilisés devant le tribunal comme preuve si une IA peut les générer entièrement? Eh bien, ce nouvel article peut fournir des réponses à ces questions. Et la réponse ici peut à nouveau être l'utilisation de l'intelligence artificielle. Le dicton «Je le croirai quand je le verrai» pourrait bientôt changer pour «Je le croirai quand l'IA me dira de le croire…»

Explication vidéo courte:
Courte lecture: Comment repérer un faux faux. Breakthrough US Army Technology (2021)
Papier: Defakehop: un détecteur Deepfake à haute performance de poids léger

Traduction d'images photoréalistes haute résolution en temps réel: un réseau de traduction pyramide laplacien [18]

Appliquez n'importe quel style à votre image 4K en temps réel en utilisant cette nouvelle approche basée sur l'apprentissage automatique!

Explication vidéo courte:
Lire courte: Traduction d'image photoréaliste à haute résolution en temps réel
Papier: traduction d'images photoréalistes haute résolution en temps réel: un réseau de traduction pyramide laplacien
Cliquez ici pour le code

Barbershop: compositing d'images basé sur Gan à l'aide de masques de segmentation [19]

Cet article ne concerne pas une nouvelle technologie en soi. Au lieu de cela, il s'agit d'une application nouvelle et passionnante de Gans. En effet, vous avez vu le titre, et ce n'était pas un clic. Cette IA peut transférer vos cheveux pour voir à quoi cela ressemblerait avant de s'engager dans le changement…

Explication vidéo courte:
Lire courte: Barbershop: Essayez différentes coiffures et couleurs de cheveux des images (Gans)
Papier: Barbershop: compositing d'images basé sur Gan à l'aide de masques de segmentation
Cliquez ici pour le code

TextStylebrush: transfert de l'esthétique du texte à partir d'un seul exemple [20]

Ce nouveau modèle Facebook AI peut traduire ou modifier le texte directement dans l'image dans votre propre langue, en suivant le même style!

Imaginez que vous êtes en vacances dans un autre pays où vous ne parlez pas la langue. Vous voulez essayer un restaurant local, mais leur menu est dans la langue que vous ne parlez pas. Je pense que ce ne sera pas trop difficile à imaginer car la plupart d'entre nous ont déjà fait face à cette situation, que vous voyiez des éléments ou des directions de menu et que vous ne pouvez pas comprendre ce qui est écrit. Eh bien, en 2020, vous retireriez votre téléphone et Google Translate ce que vous voyez. En 2021, vous n'avez même plus besoin d'ouvrir Google Translate et d'essayer d'écrire ce que vous voyez un par un pour le traduire. Au lieu de cela, vous pouvez simplement utiliser ce nouveau modèle par Facebook AI pour traduire chaque texte de l'image dans votre propre langue…

Explication vidéo courte:
LIRE COURT: traduire ou modifier le texte d'images émulant le style: TextStylebrush
Papier: TextStylebrush: transfert de l'esthétique du texte à partir d'un seul exemple
Cliquez ici pour le code

Si vous souhaitez également lire plus de documents de recherche, je vous recommande de lire mon article où je partage mes meilleurs conseils pour trouver et lire plus d'articles de recherche.

Animer des images avec des champs de mouvement eulériens [21]

Ce modèle prend une image, comprend quelles particules sont censées bouger et les anime de manière réaliste dans une boucle infinie tout en conservant le reste de l'image en créant entièrement des vidéos incroyables comme celle-ci ...

Explication vidéo courte:
Brève lecture: Créez des vidéos de boucle animée réaliste à partir de photos
Papier: Animer des images avec des champs de mouvement eulériens
Cliquez ici pour le code

CVPR 2021 Best Paper Award: Girafe - Génération d'images contrôlables [22]

À l'aide d'une architecture GAn modifiée, ils peuvent déplacer des objets dans l'image sans affecter l'arrière-plan ou les autres objets!

Explication vidéo courte:
Courte lecture: CVPR 2021 Best Paper Award: Girafe - Génération d'images contrôlables
Document: Girafe: Représenter des scènes comme des champs de fonctions neuronales génératrices de composition
Cliquez ici pour le code

GitHub Copilot & Codex: évaluation de modèles de grande langue formés sur le code [23]

Découvrez comment ce nouveau modèle d'Openai génère du code à partir de mots!

Explication vidéo courte:
Lire courte: Nouveau générateur de code d'Openai: Github Copilot (et Codex)
Document: Évaluation de modèles de grandes langues formés sur le code
Cliquez ici pour le code

Apple: Reconnaître les gens sur des photos via l'apprentissage automatique privé sur les appareils [24]

En utilisant plusieurs algorithmes basés sur l'apprentissage automatique fonctionnant en privé sur votre appareil, Apple vous permet de gérer et d'organiser avec précision vos images et vidéos sur iOS 15.

Explication vidéo courte:
Courte lecture: comment Apple Photos reconnaît les personnes sur des photos privées en utilisant l'apprentissage automatique
Document: Reconnaître les gens sur des photos via l'apprentissage automatique privé sur les appareils

Synthèse d'image et édition avec des équations différentielles stochastiques [25]

Dites adieu aux architectures complexes de Gan et de Transformateur pour la génération d'images! Cette nouvelle méthode de Chenling Meng et al. De l'Université de Stanford et de l'Université Carnegie Mellon peuvent générer de nouvelles images à partir de toute entrée basée sur l'utilisateur. Même les gens comme moi avec aucune compétence artistique peuvent désormais générer de belles images ou des modifications à partir de croquis rapides ...

Explication vidéo courte:
Lire courte: Synthèse d'image et édition à partir de croquis: sdedit. Plus de formation fastidieuse nécessaire!
Papier: synthèse d'image et édition avec des équations différentielles stochastiques
Cliquez ici pour le code
Démo colab

Esquissez votre propre gan [26]

Rendez la formation Gans plus facile pour tout le monde en générant des images après un croquis! En effet, avec cette nouvelle méthode, vous pouvez contrôler les sorties de votre GAN en fonction du type de connaissance le plus simple que vous puissiez lui fournir: des croquis dessinés à la main.

Explication vidéo courte:
LIRE COURT: Rendez la formation Gans plus facile pour tout le monde: générez des images après un croquis
Papier: esquissez votre propre gan
Cliquez ici pour le code

Le pilote automatique de Tesla a expliqué [27]

Si vous vous demandez comment une voiture Tesla peut non seulement voir mais naviguer sur les routes avec d'autres véhicules, c'est la vidéo que vous attendiez. Il y a quelques jours, il y a quelques jours a été la première journée de Tesla AI où Andrej Karpathy, directrice de l'IA à Tesla, et d'autres ont présenté comment le pilote automatique de Tesla fonctionne à partir de l'acquisition d'images à travers leurs huit caméras au processus de navigation sur les routes.

Explication vidéo courte:
Brève lecture: le pilote automatique de Tesla expliqué

StyleClip: Manipulation axée sur le texte de l'imagerie Stylegan [28]

L'IA pourrait générer des images, alors, en utilisant beaucoup de cerveaux et d'essais et d'erreurs, les chercheurs pourraient contrôler les résultats en suivant des styles spécifiques. Maintenant, avec ce nouveau modèle, vous pouvez le faire en utilisant uniquement du texte!

Explication vidéo courte:
Courte lecture: Manipulez de vraies images avec du texte - une IA pour les artistes créatifs! StyleClip expliqué
Papier: StyleClip: Manipulation axée sur le texte de l'imagerie Stylegan.
Cliquez ici pour le code
Démo colab

Timelens: interpolation du cadre vidéo basé sur des événements [29]

Les chronologies peuvent comprendre le mouvement des particules entre les cadres d'une vidéo pour reconstruire ce qui s'est réellement passé à une vitesse, même nos yeux ne peuvent pas voir. En fait, il obtient des résultats que nos téléphones intelligents et aucun autre modèle ne pourraient auparavant!

Explication vidéo courte:
Courte lecture: Comment faire des vidéos au ralenti avec l'IA!
Papier: Timelens: Interpolation du cadre vidéo basé sur des événements
Cliquez ici pour le code

Abonnez-vous à ma newsletter hebdomadaire et restez à jour avec de nouvelles publications en IA pour 2022!

Génération diversifiée à partir d'une seule vidéo rendue possible [30]

Avez-vous déjà voulu éditer une vidéo?

Supprimer ou ajouter quelqu'un, modifier l'arrière-plan, faire durer un peu plus longtemps ou modifier la résolution pour s'adapter à un rapport d'aspect spécifique sans le comprimer ou l'étirer. Pour ceux d'entre vous qui ont déjà mené des campagnes publicitaires, vous vouliez certainement avoir des variations de vos vidéos pour les tests AB et voir ce qui fonctionne le mieux. Eh bien, cette nouvelle recherche de Niv Haim et al. Peut vous aider à faire tout cela à partir d'une seule vidéo et en HD!

En effet, en utilisant une vidéo simple, vous pouvez effectuer toutes les tâches que je viens de mentionner en quelques secondes ou quelques minutes pour des vidéos de haute qualité. Vous pouvez essentiellement l'utiliser pour toute application de manipulation vidéo ou de génération de vidéos que vous avez en tête. Il surpasse même les Gans de toutes les manières et n'utilise aucune recherche fantaisie en profondeur ni nécessite un ensemble de données énorme et peu pratique! Et la meilleure chose est que cette technique est évolutive aux vidéos haute résolution.

Explication vidéo courte:
LECTURE COURT: Générez des variations vidéo - Aucun ensemble de données ou apprentissage en profondeur requis!
Document: une génération diversifiée à partir d'une seule vidéo rendue possible
Cliquez ici pour le code

Précipitations habiles maintenant en utilisant des modèles de radar génératifs profonds [31]

DeepMind vient de publier un modèle génératif capable de surpasser les méthodes de transaction largement utilisées dans 89% des situations pour sa précision et son utilité évaluées par plus de 50 météorologues experts! Leur modèle se concentre sur la prédiction des précipitations dans les 2 prochaines heures et y parvient étonnamment. Il s'agit d'un modèle génératif, ce qui signifie qu'il générera les prévisions au lieu de simplement les prédire. Il prend essentiellement des données radar du passé pour créer de futures données radar. Ainsi, en utilisant à la fois des composants de temps et spatiaux du passé, ils peuvent générer à quoi il ressemblera dans un avenir proche.

Vous pouvez voir cela comme le même que les filtres Snapchat, en prenant votre visage et en générant un nouveau visage avec des modifications dessus. Pour former un modèle aussi génératif, vous avez besoin d'un tas de données des visages humains et du type de visage que vous souhaitez générer. Ensuite, en utilisant un modèle très similaire formé pendant de nombreuses heures, vous aurez un puissant modèle génératif. Ce type de modèle utilise souvent des architectures Gans à des fins de formation, puis utilise le modèle de générateur indépendamment.

Explication vidéo courte:
Lire courte: DeepMind utilise l'IA pour prédire les prévisions météorologiques plus précises
Document: Précipitation habile Nourte
Cliquez ici pour le code

Le problème de la fourche à cocktail: séparation audio à trois tiges pour les bandes sonores du monde réel [32]

Avez-vous déjà à l'écoute d'une vidéo ou d'une émission de télévision et les acteurs étaient complètement inaudibles, ou la musique était beaucoup trop bruyante? Eh bien, ce problème, également appelé le problème du cocktail, peut ne plus jamais se reproduire. L'Université Mitsubishi et Indiana vient de publier un nouveau modèle ainsi qu'un nouvel ensemble de données s'attaquant à cette tâche d'identifier la bonne bande sonore. Par exemple, si nous prenons le même clip audio, nous venons de couru avec la musique trop forte, vous pouvez simplement monter ou descendre la piste audio que vous souhaitez donner plus d'importance au discours que la musique.

Le problème ici est d'isoler toute source sonore indépendante d'une scène acoustique complexe comme une scène de film ou une vidéo YouTube où certains sons ne sont pas bien équilibrés. Parfois, vous n'entendez tout simplement pas entendre certains acteurs à cause du jeu de la musique ou des explosions ou d'autres sons ambiants en arrière-plan. Eh bien, si vous isolez avec succès les différentes catégories dans une bande sonore, cela signifie que vous ne pouvez également augmenter ou tomber qu'un seul, comme refuser un peu la musique pour entendre correctement tous les autres acteurs. C'est exactement ce que les chercheurs ont réalisé.

Explication vidéo courte:
Lire courte: Isoler la voix, la musique et les effets sonores avec l'IA
Papier: Le problème de la fourche de cocktail: séparation audio à trois tiges pour les bandes sonores du monde réel
Cliquez ici pour le code

Adopter: rendu approximatif de points à un pixel différenciable [33]

Imaginez que vous souhaitez générer un modèle 3D ou simplement une vidéo fluide à partir d'un tas de photos que vous avez prises. Eh bien, c'est maintenant possible! Je ne veux pas trop en donner, mais les résultats sont tout simplement incroyables et vous devez le vérifier par vous-même!

Explication vidéo courte:
LECTURE COURT: AI synthétise des vidéos lisses de quelques images!
Document: adopte: rendu à un point de pixel différentiable approximatif
Cliquez ici pour le code

(Style) ClipDraw: Coupling Content and Style dans la synthèse de texto-dessin [34]

Avez-vous déjà rêvé de prendre le style d'une image, comme ce style de dessin tiktok cool à gauche, et de l'appliquer à une nouvelle image de votre choix? Eh bien, je l'ai fait, et cela n'a jamais été aussi facile à faire. En fait, vous pouvez même y parvenir à partir du texte uniquement et l'essayer dès maintenant avec cette nouvelle méthode et leur cahier Google Colab disponible pour tout le monde (voir références). Prenez simplement une photo du style que vous souhaitez copier, entrez le texte que vous souhaitez générer, et cet algorithme en générera une nouvelle image! Regardez simplement les résultats ci-dessus, un si grand pas en avant! Les résultats sont extrêmement impressionnants, surtout si vous considérez qu'ils ont été fabriqués à partir d'une seule ligne de texte!

Explication vidéo courte:
Lire courte: synthèse de texto-dessin avec contrôle artistique | Clipdraw & styleclipdraw
Paper (clipdraw): ClipDraw: Exploration de la synthèse de texto-dessin à travers des encodeurs d'image linguistique
Paper (StyleClipDraw): StyleClipDraw: Couplage Contenu et style dans la synthèse de texto-dessin
Démo Clipdraw Colab
STYLECLIPDRAW COLAB Demo

Swinir: Restauration d'image à l'aide de transformateur Swin [35]

Avez-vous déjà eu une image que vous avez vraiment aimé et que vous avez réussi à trouver une petite version qui ressemblait à cette image ci-dessous sur la gauche? À quel point serait-ce cool si vous pouviez prendre cette image et la rendre deux fois aussi belle? C'est génial, mais que se passe-t-il si vous pouviez le faire même quatre ou huit fois plus haute définition? Maintenant, nous parlons, regardez ça.

Ici, nous avons amélioré la résolution de l'image par un facteur de quatre, ce qui signifie que nous avons quatre fois plus de hauteur et de largeur des pixels pour plus de détails, ce qui le rend beaucoup plus fluide. La meilleure chose est que cela se fait en quelques secondes, complètement automatiquement, et fonctionne avec à peu près n'importe quelle image. Oh, et vous pouvez même l'utiliser vous-même avec une démo qu'ils ont rendue à disposition ...

Explication vidéo courte:
LIRE COURT: SWINIR: Restauration d'image à l'aide de Swin Transformer
Papier: Swinir: Restauration d'image à l'aide de transformateur Swin
Cliquez ici pour le code
Démo

Editgan: Édition d'image sémantique de haute précision [36]

Contrôlez n'importe quelle fonctionnalité à partir de brouillons rapides, et il modifiera seulement ce que vous voulez garder le reste de l'image comme! Édition d'image SOTA à partir du modèle Sketches basé sur GANS par Nvidia, MIT et Uoft.

Explication vidéo courte:
Brève lecture: Nvidia Editgan: Édition d'image avec un contrôle complet à partir de croquis
Document: Editgan: montage d'image sémantique de haute précision
Cliquez ici pour le code (sera publié bientôt)

Citynerf: Building Nerf à City Scale [37]

Le modèle s'appelle Citynerf et pousse à partir de Nerf, que j'ai précédemment couvert sur ma chaîne. Nerf est l'un des premiers modèles utilisant des champs de radiance et l'apprentissage automatique pour construire des modèles 3D à partir d'images. Mais Nerf n'est pas si efficace et fonctionne à une seule échelle. Ici, Citynerf est appliqué aux images par satellite et au niveau du sol en même temps pour produire diverses échelles de modèle 3D pour n'importe quel point de vue. En termes simples, ils amènent Nerf à l'échelle de la ville. Mais comment?

Explication vidéo courte:
Courte lecture: Citynerf: Modèle 3D à City Scale!
Papier: Citynerf: Building Nerf à City Scale
Cliquez ici pour le code (sera publié bientôt)

Clipcap: préfixe de clip pour le sous-titrage de l'image [38]

Nous avons vu l'IA générer des images à partir d'autres images à l'aide de Gans. Ensuite, il y avait des modèles capables de générer des images douteuses à l'aide de texte. Au début de 2021, Dall-E a été publié, battant toutes les tentatives précédentes pour générer des images à partir de la saisie de texte à l'aide du clip, un modèle qui relie les images avec le texte comme guide. Une tâche très similaire appelée sous-titrage d'image peut sembler très simple mais est, en fait, tout aussi complexe. C'est la capacité d'une machine à générer une description naturelle d'une image. Il est facile de simplement marquer les objets que vous voyez sur l'image, mais c'est un autre défi de comprendre ce qui se passe dans une seule image bidimensionnelle, et ce nouveau modèle le fait extrêmement bien ...

Explication vidéo courte:
Courte lecture: Nouveau sous-titrage d'image SOTA: ClipCap
Papier: clipcap: préfixe de clip pour le sous-titrage de l'image
Cliquez ici pour le code
Cliquez ici pour la démo Colab

Si vous souhaitez lire plus d'articles et avoir une vue plus large, voici un autre excellent référentiel pour vous couvrant 2020: 2020: une année pleine de documents AI incroyables - une critique et n'hésitez pas à vous abonner à ma newsletter hebdomadaire et à rester à jour -Date avec de nouvelles publications dans l'IA pour 2022!

Tagez-moi sur Twitter @Whats_ai ou LinkedIn @Louis (What's Ai) Bouchard si vous partagez la liste!

Références papier

[1] A. Ramesh et al., Zéro-shot text-to-image Generation, 2021. Arxiv: 2102.12092

[2] Lewis, Kathleen M et al., (2021), Vogue: Try-on by Stylegan Interpolation Optimization.

[3] Taming Transformers pour la synthèse d'images à haute résolution, Esser et al., 2020.

[4] Pensant rapidement et lent dans l'IA, Booch et al., (2020), https://arxiv.org/abs/2010.06002.

[5] Odei Garcia-Garin et al., Détection automatique et quantification du macro-macro-macro-macro-caillot dans les images aériennes: introduction d'une nouvelle approche d'apprentissage en profondeur connectée à une application Web dans R, Pollution de l'environnement, https://doi.org/ 10.1016 / j.envpol.2021.116490.

[6] Rematas, K., Martin-Brualla, R., et Ferrari, V., «Sharf: champs de radiance conditionnés par une forme d'une seule vue», (2021), https://arxiv.org/abs/2102.08860

[7] Drew A. Hudson et C. Lawrence Zitnick, Generative Adversarial Transformers, (2021)

[8] Sandra Bryant et al., «Nous avons demandé à l'intelligence artificielle de créer des profils de rencontres. Souhaitez-vous glisser à droite? », (2021), UNSW Sydney Blog.

[9] Liu, Z. et al., 2021, «Swin Transformer: Transformateur de vision hiérarchique utilisant des fenêtres décalées», Arxiv Preprint https://arxiv.org/abs/2103.14030v1

[10] Zhang, Y., Chen, W., Ling, H., Gao, J., Zhang, Y., Torralba, A. et Fidler, S., 2020. Les gans d'image rencontrent un rendu différenciable pour les graphiques inverses et interprétables Rendu neuronal 3d. ARXIV Préprint Arxiv: 2010.09125.

[11] Yuille, Al et Liu, C., 2021. Nets Deep: Qu'ont-ils jamais fait pour la vision ?. International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.

[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf

[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452

[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.

[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.

[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.

[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.

[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.

[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.

[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.

[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.

[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.

[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos

[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.

[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).

[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M

[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249

[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 , http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.

[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z

[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.

[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.

[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.

[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).

[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.

[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.

[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734

Développer

Informations supplémentaires