Sana, le dernier modèle de génération d'images open source de NVIDIA, a déclenché une vague dans le domaine de la génération d'images IA grâce à sa taille compacte et ses performances puissantes. Sana ne dispose que de 60 millions de paramètres, mais il peut générer des images haute définition jusqu'à 4 096 × 4 096 pixels et atteindre des vitesses inférieures à la seconde génération sur une carte graphique de 16 Go. Cela est dû à son auto-encodeur innovant à compression profonde et à son transformateur de diffusion linéaire, ainsi qu'à l'optimisation des stratégies d'encodage de texte et d'inférence. Ses performances sont exceptionnelles parmi les modèles similaires, même par rapport aux modèles avec des paramètres plus grands.
Récemment, NVIDIA a publié en open source un modèle de génération d'images appelé Sana. Ce modèle ne comporte que 60 millions de paramètres, ce qui réduit considérablement le seuil de fonctionnement.
Il est entendu que Sana peut générer des images avec une résolution de 4096 × 4096 et peut fonctionner sur une carte graphique de 16 Go. Il peut générer des images de haute qualité avec une résolution de 1024 × 1024 en moins d'une seconde.
L'équipe de recherche a introduit un encodeur automatique à compression profonde (DC-AE). Par rapport aux encodeurs automatiques traditionnels, Sana a un taux de compression allant jusqu'à 32 fois, ce qui réduit considérablement le nombre d'étiquettes potentielles, ce qui est utile pour générer des images à ultra haute résolution. Crucial. Deuxièmement, Sana utilise un transformateur de diffusion linéaire (DiT) pour remplacer l'attention quadratique traditionnelle par une attention linéaire, réduisant ainsi la complexité à O (N) et améliore les informations locales grâce à une capacité de capture de profondeur 3 × 3. Cette conception augmente la latence de Sana de 1,7 fois lors de la génération d'images 4K.
En termes de codage de texte, Sana a choisi Gemma, un petit modèle de langage spécifique au décodeur, au lieu du modèle T5 traditionnel. Gemma réussit mieux à comprendre et à exécuter des instructions complexes, améliorant ainsi la capacité à aligner les images et le texte. De plus, Sana optimise les stratégies de formation et d'inférence pour améliorer la cohérence texte-image en étiquetant et en sélectionnant automatiquement les descriptions avec des scores CLIP élevés. L'algorithme Flow-DPM-Solver récemment proposé réduit les étapes de raisonnement à 14 à 20 étapes, améliorant ainsi considérablement les performances.
En termes de performances globales, Sana fonctionne bien dans plusieurs modèles avancés de diffusion texte-image. Avec une résolution de 512 × 512, Sana-0.6 a un débit 5 fois supérieur à PixArt-Σ et fonctionne bien en termes de qualité de génération d'images. Avec une résolution de 1 024 × 1 024, le Sana-0.6B présente également des avantages significatifs dans les modèles comportant moins de 300 millions de paramètres.
Sana-0.6B offre non seulement de solides performances, mais peut également générer rapidement des images sur un GPU d'ordinateur portable de 16 Go, aidant ainsi les créateurs de contenu à atteindre efficacement leurs objectifs créatifs. On dit que Sana0.6B est également compétitif avec Flux-12B en termes de performances. Le nombre de paramètres n'est que de 1/20, mais la vitesse est 100 fois plus rapide.
Fait intéressant, les mots d’invite Sana prennent en charge l’anglais, le chinois et les emoji. Les utilisateurs peuvent saisir des poèmes chinois et générer des images artistiques qui leur sont liées. De plus, Sana dispose également d'un certain degré de sécurité lorsque les utilisateurs saisissent des mots inappropriés, le système les remplace automatiquement par des motifs en forme de cœur rouge pour éviter la génération de contenu inapproprié.
Par exemple, lorsque AIbase saisit le mot d'invite « Un chat joue dans l'herbe, étoiles », la vitesse de génération est très rapide et l'effet est également très bon.
Pour un autre exemple, étant donné le mot d'invite « Un mignon mange, style de peinture à l'encre », vous pouvez voir que le modèle peut identifier avec précision les emoji.
Il convient de mentionner que Sana a reçu un soutien officiel pour ComfyUI et est équipée de l'outil de formation Lora. Cela rend son utilisation plus pratique pour les utilisateurs et sa praticité est également grandement améliorée. Les amis intéressés peuvent l'essayer eux-mêmes.
Entrée du projet : https://nv-sana.mit.edu/
Souligner:
** Génération efficace ** : Sana peut générer rapidement des images de haute qualité avec des résolutions allant jusqu'à 4096 × 4096, adaptées à une utilisation sur les GPU d'ordinateurs portables ordinaires.
**Conception innovante** : l'auto-encodeur à compression profonde et le transformateur de diffusion linéaire améliorent considérablement la vitesse et la qualité de la génération.
**Excellentes performances** : Sana obtient de bons résultats dans plusieurs tests, avec un débit nettement supérieur à celui des autres modèles avancés, prenant en charge la création rapide de contenu.
Dans l'ensemble, Sana offre aux utilisateurs une nouvelle expérience de génération d'images IA avec sa vitesse de génération efficace, sa sortie d'images de haute qualité et son utilisation pratique. Il vaut la peine d'attendre avec impatience son développement futur.