Avec la création d'un tout nouveau domaine appelé « IA générative », que vous aimiez ou non le terme, la recherche n'a pas ralenti son rythme effréné, en particulier l'industrie, qui a connu son plus grand essor dans la mise en œuvre des technologies d'IA. L'intelligence artificielle et notre compréhension du cerveau humain et de son lien avec l'IA évoluent constamment, montrant des applications prometteuses améliorant la qualité de notre vie dans un avenir proche. Néanmoins, nous devons faire attention à la technologie que nous choisissons d’appliquer.
"La science ne peut pas nous dire ce que nous devons faire, mais seulement ce que nous pouvons faire."
- Jean-Paul Sartre, L'être et le néant
Voici une liste organisée des dernières avancées en matière d'IA et de science des données par date de sortie avec une explication vidéo claire, un lien vers un article plus approfondi et un code (le cas échéant). Bonne lecture !
La référence complète de chaque article est répertoriée à la fin de ce référentiel. Star ce référentiel pour rester à jour et rester à l'écoute pour l'année prochaine ! ️
Responsable : louisfb01, également actif sur YouTube et en tant que podcasteur si vous souhaitez en savoir/entendre plus sur l'IA !
Abonnez-vous à ma newsletter - Les dernières mises à jour de l'IA expliquées chaque semaine.
N'hésitez pas à m'envoyer un message pour tout article intéressant que j'aurais pu manquer d'ajouter à ce référentiel.
Identifiez-moi sur Twitter @Whats_AI ou LinkedIn @Louis (What's AI) Bouchard si vous partagez la liste ! Et venez discuter avec nous dans notre communauté Discord Learn AI Together !
? Si vous souhaitez soutenir mon travail , vous pouvez cocher la case Sponsoriser ce référentiel ou me soutenir sur Patreon.
L’année dernière, nous avons assisté à l’essor de l’IA générative pour les images et le texte, plus récemment avec ChatGPT. Aujourd’hui, au cours de la première semaine de 2023, les chercheurs ont déjà créé un nouveau système de données audio appelé VALL-E.
VALL-E est capable d'imiter la voix de quelqu'un avec seulement un enregistrement de 3 secondes avec une similarité et un naturel de parole plus élevés que jamais. ChatGPT est capable d'imiter un écrivain humain ; VALL-E fait la même chose pour la voix.
Nous savons que l’IA peut générer des images ; maintenant, modifions-les !
Ce nouveau modèle appelé InstructPix2Pix fait précisément cela ; il édite une image en suivant une instruction textuelle donnée par l'utilisateur. Il suffit de regarder ces résultats étonnants… et cela ne vient pas d'OpenAI ou de Google avec un budget infini.
Il s'agit d'une publication récente de Tim Brooks et de collaborateurs de l'Université de Californie, dont le prof. Alexei A. Efros, une figure bien connue de l'industrie de la vision par ordinateur. Comme vous pouvez le constater, les résultats sont tout simplement incroyables.
Nous avons récemment présenté un modèle capable d'imiter la voix de quelqu'un appelé VALL-E. Allons encore plus loin dans la direction créative avec cette nouvelle IA appelée MusicLM. MusicLM vous permet de générer de la musique à partir d'une description textuelle.
N'attendons plus et plongeons au cœur des résultats... ce que vous entendrez vous époustouflera !
Runway a créé un système appelé GEN-1 qui peut prendre une vidéo et lui appliquer un style complètement différent en quelques secondes. Le modèle est un travail en cours et présente des défauts, mais il permet toujours un transfert de style plutôt cool d'une invite d'image ou de texte vers une vidéo, ce qui aurait été impossible il y a quelques années, voire quelques mois. La façon dont cela fonctionne est encore plus cool...
PaLM-E, la publication la plus récente de Google, est ce qu'ils appellent un modèle de langage multimodal incorporé. Qu'est-ce que cela signifie? Cela signifie qu'il s'agit d'un modèle capable de comprendre différents types de données, tels que le texte et les images des modèles ViT et PaLM que nous avons mentionnés, et capable de transformer ces informations en actions d'une main robotique !
Segmentation - c'est comme l'équivalent dans le monde de la photo du jeu de détective. Ce super pouvoir vous permet d’identifier tout et n’importe quoi dans une image, des objets aux personnes, avec une précision au pixel près. Cela change la donne pour toutes sortes d'applications, comme les véhicules autonomes qui doivent savoir ce qui se passe autour d'eux, qu'il s'agisse d'une voiture ou d'un piéton.
Vous connaissez également certainement les invites maintenant. Mais avez-vous entendu parler de la segmentation rapide ? C'est le petit nouveau du quartier, et c'est vraiment cool. Avec cette nouvelle astuce dans votre sac, vous pouvez demander à votre modèle d'IA de segmenter tout ce que vous voulez - et je veux dire n'importe quoi ! Grâce à l'incroyable nouveau SAM (Segment Anything Model) de Meta, il n'y a aucune limite à ce que vous pouvez faire.
Si vous êtes curieux de savoir comment la segmentation rapide et le modèle SAM opèrent leur magie, vous ne voudrez pas manquer ma vidéo. Vous y découvrirez comment cette nouvelle technologie étonnante change la donne en matière de segmentation d'images. Alors asseyez-vous, détendez-vous et laissez-moi vous emmener dans le monde de la segmentation rapide avec SAM. Croyez-moi, vous ne le regretterez pas !
Imaginez créer de superbes images Instagram sans quitter la maison ni prendre de photos ! Le nouveau modèle d'IA de NVIDIA, Perfusion, fait progresser la génération de texte en image avec un contrôle et une fidélité améliorés pour les visuels basés sur des concepts.
La perfusion constitue une amélioration significative par rapport aux techniques d'IA existantes, surmontant les limitations liées à la génération d'images qui restent fidèles au contenu original. Ce modèle peut créer avec précision ces « concepts » dans une variété de nouveaux scénarios.
Perfusion s'appuie sur Stable Diffusion avec des mécanismes supplémentaires pour verrouiller et générer simultanément plusieurs « concepts » dans de nouvelles images. Cela se traduit par des performances quantitatives et qualitatives imbattables, ouvrant des possibilités passionnantes dans divers secteurs.
? Bien qu'elle ne soit pas parfaite, Perfusion constitue une avancée significative pour les modèles texte-image. Les défis incluent le maintien de l'identité d'un objet et une certaine généralisation excessive, ainsi que l'exigence d'un peu de travail d'ingénierie rapide.
Perfusion de NVIDIA ouvre la voie à un avenir passionnant d’images générées par l’IA adaptées à nos désirs.
Drag Your Gan donne la priorité au déplacement d'objets précis plutôt qu'à la génération d'images ou à la manipulation de texte. L'IA adapte de manière réaliste l'ensemble de l'image, en modifiant la position, la pose, la forme, les expressions et d'autres éléments du cadre de l'objet.
?? Modifiez les expressions des chiens, faites-les asseoir, ajustez les poses humaines ou même modifiez les paysages de manière transparente. Drag Your Gan offre une manière innovante et interactive d'expérimenter l'édition d'images.
Comment ça marche ? Drag Your Gan exploite StyleGAN2, une architecture GAN de pointe de NVIDIA. En opérant dans l’espace des fonctionnalités (code latent), l’IA apprend à éditer correctement les images grâce à une série d’étapes et de calculs de perte.
Même si les résultats sont fantastiques, comme vous le verrez ci-dessous, il est essentiel de noter que Drag Your Gan a certaines limitations, notamment la possibilité d'éditer uniquement les images générées pour le moment. Les images font partie de la distribution. D'autres limitations sont que la sélection des points est basée sur les couleurs et le contraste des pixels, vous ne pouvez donc pas vraiment faire glisser quoi que ce soit. Si vous prenez une partie d'une voiture rouge et que vous la déplacez en restant sur la voiture rouge, il se peut qu'il ne comprenne pas du tout que vous la déplacez.
Vous avez hâte de l'essayer ? Les auteurs mentionnent que le code devrait être disponible en juin. Regardez la vidéo (ou l'article) pour en savoir plus sur ce nouveau style de manipulation d'images avec DragYourGan !
Consultez le podcast What's AI pour plus de contenu sur l'IA sous la forme d'entretiens avec des experts dans le domaine ! Un expert invité en IA et moi-même couvrirons des sujets, des sous-domaines et des rôles spécifiques liés à l'IA afin d'enseigner et de partager les connaissances des personnes qui ont travaillé dur pour les rassembler.
Neuralangelo est la dernière avancée de NVIDIA en matière d'IA de conversion d'image en 3D. Cette nouvelle approche s'appuie sur Instant NeRF, améliorant la qualité de la surface et fournissant des scènes 3D très réalistes à partir d'images simples en quelques secondes seulement.
Neuralangelo vise à surmonter les limites de son prédécesseur, Instant NeRF, telles que le manque de structures détaillées et l'apparence quelque peu caricaturale des modèles 3D générés par l'IA.
Le secret des améliorations de Neuralangelo réside dans deux différences clés : l'utilisation de gradients numériques pour calculer les dérivées d'ordre supérieur et l'adoption d'une optimisation grossière à fine sur les grilles de hachage contrôlant les niveaux de détail, que nous abordons dans la vidéo.
Ce processus d'optimisation se traduit par une entrée plus fluide pour la reconstruction du modèle 3D, permet de mélanger davantage d'informations et crée un équilibre parfait entre cohérence et détails fins pour un résultat réaliste.
La qualité des modèles 3D de Neuralangelo est vraiment étonnante, mais l'IA est confrontée à des défis avec des scènes hautement réfléchissantes. Néanmoins, ses applications potentielles dans le monde réel sont vastes et passionnantes !
Dans l'épisode de cette semaine, j'ai décidé d'explorer une nouvelle recherche appelée TryOnDiffusion, présentée lors de la conférence CVPR 2023. Cette approche innovante représente un pas en avant significatif dans les expériences d’essai virtuel réalistes. En entraînant des modèles d'IA pour comprendre les images saisies, différencier les vêtements de la personne et combiner intelligemment les informations, TryOnDiffusion produit des résultats impressionnants qui nous rapprochent de l'objectif ultime d'un essai virtuel parfait.
Si vous êtes intrigué par l'intersection de l'IA et de la mode, rejoignez-nous pour découvrir le fonctionnement interne de TryOnDiffusion et son impact potentiel sur l'avenir des achats en ligne. Que vous soyez un passionné d'IA, un amoureux de la mode ou simplement curieux des dernières avancées technologiques, la vidéo offre des informations précieuses sur le monde de pointe de l'essayage virtuel de vêtements.
Nous plongerons dans le monde des modèles de diffusion, des UNets et de l'attention, où tous ces mécanismes incroyablement puissants unissent leurs forces pour aider le domaine de la mode et de la vente au détail en ligne. Bien sûr, ce travail a ses limites, mais (comme vous le verrez) les résultats sont tout simplement époustouflants et très prometteurs.
Parlons des modèles d'IA qui prennent votre visage et peuvent le transformer en un dessin animé amusant, modifier les attributs du visage comme changer la couleur de vos cheveux, ou simplement améliorer votre image pour la rendre plus HD. Si vous avez suivi mes articles, vous savez que la plupart de ces applications reposent sur un seul modèle et ses multiples versions appelés StyleGAN, dont j'ai déjà parlé à plusieurs reprises. StyleGAN est une architecture basée sur GAN développée par NVIDIA qui peut prendre une entrée et la transformer en une autre suivant un style spécifique sur lequel elle a été formée. Il est également open source, ce qui signifie que tout le monde peut l'utiliser et s'en inspirer, et c'est pourquoi tous les documents de recherche l'utilisent.
Le problème avec StyleGAN est qu'il est limité aux visages recadrés et alignés avec une résolution d'image fixe à partir des données sur lesquelles il a été formé. Cela signifie que pour les images du monde réel, vous avez besoin d’autres approches pour trouver le visage, le recadrer et le réorienter, et il doit également avoir la même résolution d’image. C'est un gros problème car vous souhaitez généralement avoir des images de haute qualité, mais la formation avec elles serait incroyablement longue.
Donc, ce que nous faisons généralement, c'est utiliser l'architecture StyleGAN pour effectuer le transfert de style de notre image, puis nous utilisons un autre réseau pour mettre à l'échelle l'image vers une résolution plus élevée. Même si cette approche fonctionne bien, elle n’est certainement pas idéale. Vous avez besoin de deux modèles au lieu d'un, ce qui ajoute davantage de biais et d'erreurs potentielles, ainsi que la nécessité de former les deux et de limiter les capacités de généralisabilité. Heureusement pour nous, des chercheurs extraordinaires travaillent sur ce problème d'image d'entrée limitée et ont récemment publié une nouvelle approche à l'ICCV 2023 appelée StyleGANEX grâce à quelques petits changements très intelligents...
Identifiez-moi sur Twitter @Whats_AI ou LinkedIn @Louis (What's AI) Bouchard si vous partagez la liste !
Nous avons été témoins des capacités remarquables des grands modèles de langage (LLM), mais il existe une lacune, une pièce manquante dans leur compréhension du monde qui nous entoure. Ils excellaient avec le texte, le code et les images, mais ils ont eu du mal à véritablement s'impliquer dans notre réalité. Autrement dit, jusqu'à maintenant. Voici un pas en avant révolutionnaire dans le paysage de l'IA : 3D-LLM.
3D-LLM est un nouveau modèle qui comble le fossé entre le langage et le royaume 3D dans lequel nous vivons. Bien qu'il ne couvre pas l'intégralité de notre monde, il s'agit d'un progrès monumental dans la compréhension des dimensions et des textes cruciaux qui façonnent nos vies. Comme vous le découvrirez dans la vidéo, 3D-LLM non seulement perçoit le monde mais interagit également avec lui. Vous pouvez poser des questions sur l'environnement, rechercher des objets ou naviguer dans des espaces et être témoin de son raisonnement de bon sens, qui rappelle les exploits impressionnants que nous avons vécus avec ChatGPT.
Plus intéressant encore, les auteurs ont exploité les prouesses de ChatGPT pour collecter des données via trois méthodes distinctes que vous découvrirez, créant ainsi un référentiel complet de tâches et d'exemples pour chaque scène utilisée pour entraîner le modèle...
Ce travail introduit un nouveau cadre pour orchestrer de grands modèles de langage afin qu'ils fonctionnent de manière cohérente tout en atténuant les risques d'hallucinations. Cette approche combine la puissance des agents IA avec la clarté des procédures opérationnelles standardisées, garantissant que les agents collaborent efficacement et restent alignés sur les objectifs des utilisateurs.
Abonnez-vous à ma newsletter hebdomadaire et restez au courant des nouvelles publications en IA pour 2023 !
Liu et coll. a utilisé GPT-4 pour créer un modèle de vision du langage à usage général appelé LLaVA, le premier modèle à usage général qui comprend et suit les instructions visuelles et basées sur le langage. Oui, ils n'ont pas utilisé GPT-4 comme modèle de base, mais pour entraîner leur modèle ! Comme nous le verrons dans la vidéo, GPT-4 a été utilisé pour générer un ensemble de données volumineux et de haute qualité afin de former un nouveau modèle qui comprend les images. Oh et évidemment, il comprend non seulement les images mais aussi le texte (il y a la multimodalité), ce qui signifie qu'il peut répondre à une grande variété de questions à leur sujet ! Apprenez-en plus dans l’article complet ou dans la vidéo…
Nous avons vu tellement de nouvelles approches pour générer du texte, puis générer des images qui ne font que s'améliorer. Ensuite, nous avons vu d'autres travaux initiaux étonnants pour générer des vidéos et même des modèles 3D à partir de texte. Imaginez simplement la complexité d'une telle tâche lorsque vous n'avez qu'une phrase et que vous devez générer quelque chose qui pourrait ressembler à un objet dans le monde réel, avec tous ses détails. Eh bien, en voici une nouvelle qui n'est pas simplement une première étape ; c'est un énorme pas en avant dans la génération de modèles 3D à partir du simple texte : MVDream !
Distil-Whisper est un modèle de transcription audio 6 fois plus rapide que le modèle Whisper original, 49 % plus petit, et conserve 99 % de précision. Et la meilleure chose à ce sujet est qu'il est entièrement open source et que vous pouvez l'utiliser dès maintenant.
Dans cette vidéo, nous plongeons dans la diffusion vidéo stable (SVD), explorant comment cette technologie innovante de Stability AI révolutionne la création vidéo basée sur l'IA. Comprendre les principes fondamentaux des modèles de diffusion et leurs applications dans la synthèse texte-vidéo et multi-vues, idéal pour les passionnés d'IA et de médias numériques désireux d'appréhender l'avenir de la génération vidéo.
Si vous souhaitez lire plus d'articles et avoir une vision plus large, voici un autre excellent référentiel pour vous couvrant 2022 : 2022 : une année pleine d'articles incroyables sur l'IA - Une revue et n'hésitez pas à vous abonner à ma newsletter hebdomadaire et à rester informé. -date avec les nouvelles publications en IA pour 2023 !
Identifiez-moi sur Twitter @Whats_AI ou LinkedIn @Louis (What's AI) Bouchard si vous partagez la liste !
[1] Wang, C., Chen, S., Wu, Y., Zhang, Z., Zhou, L., Liu, S., Chen, Z., Liu, Y., Wang, H., Li, J. et He, L., 2023. Les modèles de langage de codec neuronal sont des synthétiseurs de synthèse vocale Zero-Shot, https://arxiv.org/abs/2301.02111
[2] Brooks et al., 2022 : InstructPix2Pix, https://arxiv.org/abs/2211.09800
[3] Agostinelli et al., 2023 : MusicLM, https://arxiv.org/abs/2301.11325
[4] Esser, P., Chiu, J., Atighehchian, P., Granskog, J. et Germanidis, A., 2023. Synthèse vidéo guidée par la structure et le contenu avec des modèles de diffusion, https://arxiv.org/abs /2302.03011
[5] Driess, D., Xia, F., Sajjadi, MS, Lynch, C., Chowdhery, A., Ichter, B., Wahid, A., Tompson, J., Vuong, Q., Yu, T. et Huang, W., 2023. Palm-e : un modèle de langage multimodal incorporé, https://arxiv.org/abs/2303.03378.
[6] Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, AC, Lo, WY. et Dollár, P., 2023. Segmentez n'importe quoi, https://arxiv.org/abs/2304.02643
[7] Tewel, Y., Gal, R., Chechik, G. et Atzmon, Y., 2023. Édition de premier rang verrouillée par clé pour la personnalisation texte-image, https://arxiv.org/abs/2305.01644
[8] Pan, X., Tewari, A., Leimkühler, T., Liu, L., Meka, A. et Theobalt, C., 2023. Faites glisser votre GAN : manipulation interactive basée sur des points sur le collecteur d'images génératives, https://arxiv.org/abs/2305.10973
[9] Li, Z., Müller, T., Evans, A., Taylor, RH, Unberath, M., Liu, MY et Lin, CH, 2023. Neuralangelo : Reconstruction de la surface neuronale haute fidélité. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (pp. 8456-8465), https://arxiv.org/abs/2306.03092
[10] Zhu, L., Yang, D., Zhu, T., Reda, F., Chan, W., Saharia, C., Norouzi, M. et Kemelmacher-Shlizerman, I., 2023. TryOnDiffusion : A Conte de deux UNets. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (pp. 4606-4615), https://arxiv.org/abs/2306.08276
[11] Yang, S., Jiang, L., Liu, Z. et Loy, CC, 2023. StyleGANEX : Manipulation basée sur StyleGAN au-delà des faces alignées recadrées. Préimpression arXiv arXiv:2303.06146.
[12] Hong, Y., Zhen, H., Chen, P., Zheng, S., Du, Y., Chen, Z. et Gan, C., 2023. 3d-llm : injecter le monde 3D dans un grand modèles de langage. Préimpression arXiv arXiv:2307.12981.
[13] Hong, S., Zheng, X., Chen, J., Cheng, Y., Zhang, C., Wang, Z., Yau, SKS, Lin, Z., Zhou, L., Ran, C. et Xiao, L., 2023. Metagpt : Méta-programmation pour un cadre collaboratif multi-agents. Préimpression arXiv arXiv :2308.00352.
[14] Liu, H., Li, C., Wu, Q. et Lee, YJ, 2023. Réglage des instructions visuelles. Préimpression arXiv arXiv:2304.08485.
[15] Shi, Y., Wang, P., Ye, J., Long, M., Li, K. et Yang, X., 2023. Mvdream : diffusion multi-vues pour la génération 3D. Préimpression arXiv arXiv:2308.16512.
[16] Gandhi, S., von Platen, P. et Rush, AM, 2023. Distil-Whisper : distillation robuste des connaissances via un pseudo-étiquetage à grande échelle. Préimpression arXiv arXiv:2311.00430.
[17] Blattmann et al., 2023 : Diffusion vidéo stable. https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf