Sana, o mais recente modelo de geração de imagens de código aberto da NVIDIA, desencadeou uma onda no campo da geração de imagens de IA com seu tamanho compacto e desempenho poderoso. Sana tem apenas 60 milhões de parâmetros, mas pode gerar imagens de alta definição de até 4.096 × 4.096 pixels e atingir velocidades de geração abaixo de um segundo em uma placa gráfica de 16 GB. Isso se deve ao seu inovador autoencoder de compressão profunda e transformador de difusão linear, bem como à otimização da codificação de texto e estratégias de inferência. Seu desempenho é excelente entre modelos similares, mesmo comparado com modelos com parâmetros maiores.
Recentemente, a NVIDIA abriu o código-fonte de um modelo de geração de imagem chamado Sana. Este modelo possui apenas 60 milhões de parâmetros, o que reduz bastante o limite operacional.
Entende-se que Sana pode gerar imagens com resolução de 4096×4096 e pode rodar em uma placa gráfica de 16GB. Pode gerar imagens de alta qualidade com resolução de 1024×1024 em menos de 1 segundo.
A equipe de pesquisa introduziu um autoencoder de compressão profunda (DC-AE). Em comparação com os autoencoders tradicionais, o Sana tem uma taxa de compressão de até 32 vezes, reduzindo bastante o número de rótulos potenciais, o que é útil para gerar imagens de altíssima resolução. Crucial. Em segundo lugar, Sana usa um transformador de difusão linear (DiT) para substituir a atenção quadrática tradicional por atenção linear, reduzindo assim a complexidade para O (N) e melhorando a informação local através da capacidade de captura de profundidade 3×3. Este design aumenta a latência do Sana em 1,7 vezes ao gerar imagens 4K.
Em termos de codificação de texto, Sana escolheu Gemma, um pequeno modelo de linguagem grande específico para decodificadores, em vez do modelo T5 tradicional. Gemma tem melhor desempenho na compreensão e execução de instruções complexas, aprimorando a capacidade de alinhar imagens e texto. Além disso, Sana otimiza estratégias de treinamento e inferência para melhorar a consistência da imagem do texto, rotulando e selecionando automaticamente descrições com altas pontuações CLIP. O algoritmo Flow-DPM-Solver recentemente proposto reduz as etapas de raciocínio para 14 a 20 etapas, melhorando significativamente o desempenho.
Em termos de desempenho geral, o Sana tem um bom desempenho em vários modelos avançados de difusão de texto para imagem. Com resolução de 512×512, Sana-0.6 tem 5 vezes o rendimento do PixArt-Σ e tem um bom desempenho em termos de qualidade de geração de imagem. Com resolução de 1024×1024, Sana-0.6B também apresenta vantagens significativas em modelos com menos de 300 milhões de parâmetros.
Sana-0.6B não só tem forte desempenho, mas também pode gerar imagens rapidamente em uma GPU de notebook de 16 GB, ajudando os criadores de conteúdo a atingir seus objetivos criativos com eficiência. Diz-se que o Sana0.6B também é competitivo com o Flux-12B em termos de desempenho. O número de parâmetros é de apenas 1/20, mas a velocidade é 100 vezes mais rápida.
Curiosamente, as palavras de alerta do Sana suportam inglês, chinês e emoji. Os usuários podem inserir poemas chineses e gerar imagens artísticas relacionadas a eles. Além disso, Sana também possui um certo grau de segurança. Quando os usuários inserem palavras inadequadas, o sistema as substitui automaticamente por padrões de coração vermelho para evitar a geração de conteúdo impróprio.
Por exemplo, quando o AIbase insere a palavra "Um gato está brincando na grama, estrelas", a velocidade de geração é muito rápida e o efeito também é muito bom.
Para outro exemplo, dada a palavra “Um bonitinho está comendo, estilo pintura a tinta”, você pode ver que o modelo pode identificar emoji com precisão.
Vale ressaltar que Sana recebeu suporte oficial para ComfyUI e está equipada com a ferramenta de treinamento Lora. Isso torna seu uso mais conveniente para os usuários e sua praticidade também é bastante melhorada. Amigos interessados podem experimentá-lo por conta própria.
Entrada do projeto: https://nv-sana.mit.edu/
Destaque:
**Geração eficiente**: Sana pode gerar rapidamente imagens de alta qualidade com resoluções de até 4096×4096, adequadas para uso em GPUs de notebook comuns.
**Design inovador**: Autoencoder de compressão profunda e transformador de difusão linear melhoram muito a velocidade e a qualidade da geração.
**Excelente desempenho**: Sana tem bom desempenho em vários testes, com rendimento significativamente maior do que outros modelos avançados, suportando criação rápida de conteúdo.
Resumindo, Sana traz aos usuários uma nova experiência de geração de imagens de IA com sua velocidade de geração eficiente, saída de imagem de alta qualidade e uso conveniente. Vale a pena aguardar seu desenvolvimento futuro.