Abraçando o Face lançado o impressionante modelo de linguagem visual leve Smolvlm, que é de tamanho pequeno e pode ser executado em pequenos dispositivos como telefones celulares, mas seu desempenho excede o modelo IDEFICS80B maior de 300 vezes. Esse progresso inovador marca o avanço dos aplicativos de IA em direção a uma era de implantação mais ampla e de baixo custo, economizando muitos custos de computação e melhorando a eficiência do processamento. O surgimento do SMOLVLM oferece uma oportunidade sem precedentes para pequenas empresas e startups desenvolverem rapidamente aplicativos complexos de visão computacional a um custo menor.
Abraçando o rosto lançado um modelo de IA notável - Smolvlm. Esse modelo de linguagem visual é pequeno o suficiente para ser executado em dispositivos pequenos, como telefones celulares e supera os antecessores que exigem suporte de grandes data centers.
O requisito de memória da GPU do modelo SMOLVLM-256M é menor que 1 GB, mas seu desempenho excede seu modelo IDEFICS80B do antecessor, 300 vezes maior que seu tamanho, marcando um avanço significativo na implantação prática da IA.
De acordo com Andres Malafiotti, engenheiro de pesquisa de aprendizado de máquina da Hugging Face, o modelo SMOLVLM também está trazendo reduções significativas de custos de computação para as empresas enquanto está sendo introduzido no mercado. "O IDEFICS80B, lançado anteriormente, foi o primeiro modelo de linguagem de vídeo em agosto de 2023, enquanto o lançamento do SMOLVLM alcançou uma redução de tamanho de 300 vezes enquanto melhorava o desempenho".
O lançamento do modelo SMOLVLM coincide com um momento crítico em que as empresas enfrentam altos custos de computação na implementação de sistemas de IA. O novo modelo inclui duas escalas de parâmetros, 256m e 500m, permitindo que imagens e conteúdo visual sejam processadas em velocidades anteriormente impensáveis. A versão mínima pode processar até 16 instâncias por segundo e requer apenas 15 GB de memória, tornando -a especialmente adequada para empresas que precisam processar grandes quantidades de dados visuais. Para empresas de médio porte que processam 1 milhão de fotos por mês, isso significa considerável economia anual de custos computacionais.
Além disso, a IBM também alcançou uma parceria com o Hugging Face para integrar o modelo de 256m em seu software de processamento de documentos. Embora a IBM tenha recursos de computação abundantes, o uso de modelos menores o torna eficiente no processamento de milhões de arquivos a um custo menor.
A equipe do Hugging Face reduziu com sucesso o tamanho do modelo sem perder o desempenho por meio de inovações tecnológicas em processamento visual e componentes de idiomas. Eles substituíram o codificador visual de 400m originais por uma versão de parâmetros de 93m e implementaram uma tecnologia de compressão de token mais agressiva. Essas inovações permitem que pequenas empresas e startups lançem produtos complexos de visão computacional em um curto período de tempo, e os custos de infraestrutura são significativamente reduzidos.
O conjunto de dados de treinamento da SMOLVLM contém 170 milhões de exemplos de treinamento, quase metade dos quais são usados para processamento de documentos e anotação de imagem. Esses desenvolvimentos não apenas reduzem os custos, mas também trazem novas possibilidades de aplicação para as empresas, aumentando suas capacidades na pesquisa visual para um nível sem precedentes.
Esse avanço, abraçando o rosto, desafia as percepções tradicionais da relação entre tamanho do modelo e capacidade. O SMOLVLM prova que arquiteturas pequenas e eficientes também podem alcançar um excelente desempenho.
Modelo: https://huggingface.co/blog/smolervlm
Pontos:
O modelo SMOLVLM lançado por abraçar o rosto pode ser executado em telefones celulares e tem um desempenho de mais de 300 vezes maior que o modelo IDEFICS80B.
O modelo SMOLVLM ajuda as empresas a reduzir significativamente os custos de computação, com velocidades de processamento de 16 instâncias por segundo.
As inovações tecnológicas desse modelo permitem que pequenas empresas e startups lançem produtos complexos de visão computacional em pouco tempo.
O surgimento do SMOLVLM indica que os aplicativos de IA se tornarão mais populares, e pequenas empresas e desenvolvedores individuais podem facilmente utilizar uma poderosa tecnologia de IA para promover a inovação e o desenvolvimento da inteligência artificial em mais campos. Suas características leves e de alto desempenho mudarão, sem dúvida, nossa compreensão dos modelos de inteligência artificial e apontarão um novo caminho para a futura direção de desenvolvimento da tecnologia de IA.