Cet article présente une étude révolutionnaire menée par les chercheurs de ByteDance et POSTECH qui améliore considérablement l'efficacité informatique du modèle texte-image (T2I) FLUX.1-dev grâce à la technologie de quantification de 1,58 bits, lui permettant de fonctionner sous des contraintes de ressources fonctionnant sur le appareil. Cette méthode nécessite uniquement un apprentissage auto-supervisé du modèle lui-même et ne nécessite pas d'accès aux données d'image. Elle peut compresser l'espace de stockage du modèle de 7,7 fois et réduire l'utilisation de la mémoire d'inférence de plus de 5,1 fois, tout en maintenant une qualité de génération comparable à la pleine précision. modèles. Cette recherche offre de nouvelles possibilités pour déployer des modèles T2I hautes performances sur des appareils mobiles et d'autres plates-formes, et fournit également une expérience précieuse pour les futures recherches sur l'optimisation des modèles d'IA.
Le développement rapide de modèles de génération de texte en image basés sur l’intelligence artificielle a apporté de nouvelles opportunités et de nouveaux défis à tous les horizons. Les résultats des recherches de ByteDance et POSTECH fournissent une solution efficace pour résoudre le problème du déploiement de modèles d'IA hautes performances sur des appareils aux ressources limitées. Leurs améliorations significatives en matière de compression des modèles, d'optimisation de la mémoire et de maintenance des performances ouvriront la voie à de futures applications d'IA. La vulgarisation et le développement ont posé des bases solides. Les recherches futures exploreront plus en détail comment surmonter les limitations du FLUX 1,58 bits en termes de vitesse et de rendu des détails des images haute résolution pour permettre des applications plus larges.