Hugging Face lançou um modelo leve de geração de texto para imagem chamado aMUSEd, que é baseado na arquitetura Masked Image Model (MIM) e reduz significativamente o tempo de geração de imagem. Comparado com os modelos tradicionais de texto para imagem, o aMUSEd oferece melhorias significativas em velocidade e interpretabilidade, e sua capacidade de gerar imagens rapidamente é impressionante. O modelo aMUSEd está atualmente disponível como uma prévia da pesquisa na plataforma Hugging Face e adota uma licença OpenRAIL para incentivar a participação e contribuições da comunidade.
O modelo aMUSEd lançado pela Hugging Face pode gerar imagens em poucos segundos. Ele adota um modelo leve de texto para imagem e usa a arquitetura Masked Image Model (MIM), que reduz bastante as etapas de raciocínio e melhora a velocidade de geração e interpretabilidade. O modelo aMUSEd pode ser testado em uma demonstração no Hugging Face e está atualmente disponível como uma prévia de pesquisa sob uma licença OpenRAIL, onde a comunidade é incentivada a explorar ainda mais a estrutura de não difusão para geração de imagens.A capacidade de geração rápida e a licença aberta do modelo aMUSEd conferem-lhe um grande potencial de desenvolvimento. Espera-se que desempenhe um papel maior no campo da geração de imagens no futuro e também forneça uma nova direção para o desenvolvimento da tecnologia de inteligência artificial. Esperamos que a comunidade explore e otimize ainda mais esse modelo.