A Kuaishou lançou recentemente um grande avanço tecnológico, abrindo oficialmente seu modelo de geração de imagens desenvolvido independentemente - "Kotu Kolors". Esse modelo não apenas representa o profundo acúmulo de Kuaishou no campo da inteligência artificial, mas também demonstra sua força inovadora na tecnologia de geração de imagens. A liberação de Kotu Kolors marca outro avanço importante para Kuaishou na aplicação da tecnologia de IA, especialmente no campo da geração e processamento de imagens, fornecendo aos criadores poderoso suporte de ferramentas.
A vantagem principal dos Kolos é o seu forte entendimento da linguagem e recursos de geração de imagens. Este modelo usa o Modelo de Língua Geral (GLM) como um codificador de texto, suporta palavras rápidas bilíngues em chinês e inglês e pode lidar com contextos de até 256 tokens. Isso significa que os usuários podem gerar imagens altamente alinhadas com as expectativas por meio de descrições detalhadas de texto, seja o design complexo de cenas ou a expressão emocional delicada, pode ser alcançada através desse modelo.
Em termos de dados de treinamento, Kolors treina profundamente com base em bilhões de imagens de texto, o que fornece ao modelo uma rica base de conhecimento e permite a geração de imagens diversas e precisas. Vale a pena mencionar particularmente que o modelo foi otimizado para elementos culturais chineses.
Além disso, os Kotokolors tiveram um desempenho particularmente bom na geração de texto chinesa. Ele não pode apenas entender palavras rápidas chinesas, mas também incorporar texto chinês nas imagens geradas, adicionando mais poder expressivo à imagem. Isso foi totalmente verificado nos testes reais.
Em aplicações práticas, Koto Kolors demonstra sua poderosa capacidade de geração. Por exemplo, ao gerar imagens sobre o tema de "Lyd Flat Kitten", o modelo pode apresentar perfeitamente os requisitos das palavras rápidas chinesas, e o texto na imagem é claro e preciso. No entanto, ao usar palavras rápidas em inglês, o desempenho do modelo é um pouco insuficiente e é propenso a palavras ou erros de digitação. Isso mostra que, embora Kolos tenha um bom desempenho no processamento chinês, ainda há espaço para melhorias na geração inglesa.
Atrás de Kolors está o poderoso suporte técnico de Kuaishou. O modelo é baseado na arquitetura SDXL e incorpora a tecnologia ChatGLM256, aumentando ainda mais seus recursos bilíngues de compreensão e geração de texto. No entanto, vale a pena notar que a execução desse modelo requer uma grande memória de vídeo, cerca de 19 GB, que coloca altas demandas em dispositivos de hardware e pode limitar o uso de alguns usuários.
Desta vez, o código aberto de Kolors de Kuaishou não é apenas uma contribuição para a comunidade de tecnologia, mas também uma promoção ousada da liberdade criativa. Através de código aberto, Kuaishou espera que mais desenvolvedores, designers e artistas possam usar essa ferramenta para explorar as infinitas possibilidades de IA na criação artística. Ao mesmo tempo, isso também demonstra a determinação e força de Kuaishou no campo da tecnologia de IA, indicando que tecnologias mais inovadoras serão aplicadas a cenários reais no futuro.
O plano de código aberto de Koto Kolors também inclui suporte ao CN (ControlNet), LORA (adaptação de baixo rank), IPA (Adaptação Prompt de Imagem) e suporte direto à Comfyui. processo.
Em geral, o lançamento de Kotu Kolors não é apenas um avanço importante para Kuaishou no campo da tecnologia de IA, mas também uma inovação na tecnologia de geração de imagens. Por meio de seus poderosos recursos de compreensão e geração de imagens, ele fornece aos usuários novas ferramentas criativas e também abre um novo caminho para a aplicação da tecnologia de IA na criação artística.
Site oficial do KETU: https://top.aibase.com/tool/kuaishouketudamoxingkolors
Endereço do projeto: https://top.aibase.com/tool/kolors