Este artigo apresenta um estudo inovador realizado por pesquisadores da ByteDance e POSTECH que melhora significativamente a eficiência computacional do modelo de texto para imagem (T2I) FLUX.1-dev por meio da tecnologia de quantização de 1,58 bits, permitindo que ele opere sob restrições de recursos em execução no dispositivo. Este método requer apenas aprendizado auto-supervisionado do próprio modelo e não requer acesso aos dados de imagem. Ele pode compactar o espaço de armazenamento do modelo em 7,7 vezes e reduzir o uso da memória de inferência em mais de 5,1 vezes, mantendo a mesma qualidade de geração. o modelo de precisão total. Esta pesquisa oferece novas possibilidades para a implantação de modelos T2I de alto desempenho em dispositivos móveis e outras plataformas, e também fornece uma experiência valiosa para futuras pesquisas de otimização de modelos de IA.
O rápido desenvolvimento de modelos de geração de texto para imagem baseados em inteligência artificial trouxe novas oportunidades e desafios para todas as esferas da vida. Os resultados da pesquisa da ByteDance e da POSTECH fornecem uma solução eficaz para resolver o problema de implantação de modelos de IA de alto desempenho em dispositivos com recursos limitados. Suas melhorias significativas na compactação de modelos, otimização de memória e manutenção de desempenho abrirão caminho para futuras aplicações de IA. A popularização e o desenvolvimento estabeleceram uma base sólida. Pesquisas futuras explorarão ainda mais como superar as limitações do FLUX de 1,58 bits na velocidade e na renderização de detalhes de imagens em alta resolução para permitir aplicações mais amplas.