Les mannequins sont aussi des poupées gigognes ? Apple open source nouveau modèle de génération d'images ml-mdm

Auteur：Eve Cole Date de mise à jour：2024-12-06 20:00:02

Apple a récemment publié une nouvelle méthode de génération d'images et de vidéos appelée Matryoshka Diffusion Models (MDM). Cette technologie révolutionnaire est clairement appelée « Matryoshka Diffusion Model ». Son cœur réside dans l'imbrication de petites structures dans de grandes. Poupée matriochka russe. L'éditeur de Downcodes vous donnera une compréhension approfondie de l'innovation de cette technologie et de son impact révolutionnaire dans le domaine de la génération d'images IA.

Récemment, le géant de la technologie Apple a une fois de plus démontré ses fortes capacités d'innovation technologique et a lancé une nouvelle méthode de génération d'images et de vidéos appelée Matryoshka Diffusion Models (MDM). Cette technologie révolutionnaire est clairement appelée le modèle de diffusion Matryoshka.

Le nom de MDM vient des poupées russes matriochka. Ce nom intelligent est non seulement plein d'amusement, mais reflète également son concept technique de base : imbriquer de petites structures dans de grandes structures. Tout comme chaque poupée gigogne cache une poupée gigogne plus petite mais tout aussi délicate, MDM est capable de traiter des images à différentes résolutions simultanément, permettant une génération transparente des croquis basse définition aux détails haute définition.

La beauté de cette approche innovante réside dans sa capacité à gérer simultanément le traitement d’images à plusieurs résolutions. Imaginez qu'il existe un groupe de peintres hautement qualifiés, chacun se concentrant sur une zone différente de la toile, mais travaillant ensemble pour créer une belle œuvre d'art. MDM utilise une technologie de débruitage conjointe à plusieurs résolutions pour rendre les images générées plus riches en détails et plus réalistes, améliorant ainsi considérablement la qualité globale de l'image.

L'architecture de base de MDM s'appelle NestedUNet, et ce concept de conception renforce encore le concept de poupées gigognes. Dans cette architecture, chaque niveau contient une sous-structure plus petite mais entièrement fonctionnelle, tout comme chacune des poupées matriochka est indépendante et complète. Cette conception unique permet à MDM d'utiliser pleinement les fonctionnalités et paramètres de haut niveau lors du traitement d'entrées à petite échelle, obtenant ainsi un processus d'apprentissage et de génération plus efficace.

Actuellement, les modèles de génération d’images et de vidéos de haute qualité sont généralement confrontés à d’énormes défis de calcul et d’optimisation. Les méthodes traditionnelles génèrent par étapes au niveau des pixels ou entraînent d'abord un modèle d'image compressé, puis le traitent sur des images basse résolution. Le processus de formation du MDM s’apparente davantage à apprendre à un enfant à apprendre à marcher étape par étape, du tout-petit à la foulée rapide. Il utilise une méthode d'entraînement progressive, partant d'une basse résolution et passant progressivement à une haute résolution. Cette méthode rend le modèle plus stable et efficace face à de nouvelles images haute résolution.

L'équipe de recherche d'Apple a pleinement démontré la puissance du MDM grâce à une série de tests de référence. MDM a montré d'excellentes performances, qu'il s'agisse de génération d'images conditionnelles de classe ou d'applications de conversion texte-image et texte-vidéo. Il convient particulièrement de mentionner que même lorsqu'il est entraîné sur l'ensemble de données CC12M de seulement 12 millions de pixels, MDM présente d'étonnantes capacités de généralisation sans tir, ce qui signifie qu'il peut bien fonctionner dans des scènes inédites.

Les résultats de la recherche montrent que MDM est capable de générer des images avec des résolutions allant jusqu'à 1 024 x 1 024 pixels, et même dans des conditions de données relativement limitées, il peut bien remplir sa tâche et générer des images de haute qualité qui répondent aux exigences. Cette fonctionnalité élargit considérablement le champ d’application de la technologie de génération d’images IA et apporte de nouvelles possibilités aux industries créatives, aux industries du design et à d’autres domaines.

Même si le MDM a obtenu des résultats impressionnants dans le domaine de la génération d’images et de vidéos, ce n’est peut-être que la pointe de l’iceberg. À l’avenir, le MDM devrait devenir plus intelligent, capable de comprendre des informations contextuelles plus complexes et de générer un contenu plus réaliste et plus diversifié. On peut s’attendre à ce que cette technologie joue un rôle important dans de nombreux domaines comme la réalité virtuelle, la réalité augmentée, la production cinématographique, le développement de jeux, etc.

La technologie de modèle de diffusion matriochka lancée par Apple a sans aucun doute apporté une nouvelle tendance technologique dans le domaine de la génération d’images IA. Cela améliore non seulement l'efficacité et la qualité de la génération d'images, mais indique également une nouvelle direction pour le développement de l'ensemble du secteur. Avec l’amélioration continue de la technologie et l’approfondissement de ses applications, nous avons des raisons de croire que le MDM jouera un rôle de plus en plus important dans le futur monde de la création numérique, en nous apportant des expériences visuelles encore plus étonnantes.

Page du projet : https://top.aibase.com/tool/ml-mdm

Article : https://arxiv.org/pdf/2310.15111

Dans l’ensemble, les modèles de diffusion Matryoshka d’Apple démontrent l’énorme potentiel de la technologie de génération d’images IA. Ses capacités de génération d’images efficaces et de haute qualité et ses excellentes capacités de généralisation à échantillon zéro offrent des possibilités illimitées au développement futur de l’industrie de la création numérique. Attendons de voir comment cette technologie va révolutionner davantage notre expérience visuelle.