O editor de Downcodes traz para você as informações mais recentes sobre tecnologia! A startup Moondream de Seattle lançou o moondream2, um modelo de linguagem visual compacto incrível, que está causando sucesso na indústria com seu tamanho pequeno e desempenho poderoso. Este modelo de código aberto teve bom desempenho em diversos testes de benchmark, superando até mesmo concorrentes com parâmetros maiores em alguns aspectos, trazendo novas possibilidades de reconhecimento local de imagens em smartphones. Vamos dar uma olhada mais de perto no que torna o moondream2 único e a inovação tecnológica por trás dele.
Recentemente, a Moondream, uma startup de Seattle, lançou um modelo compacto de linguagem visual chamado moondream2. Apesar do seu pequeno tamanho, o modelo teve um bom desempenho em vários testes de benchmark e atraiu muita atenção. Como modelo de código aberto, o moondream2 promete habilitar recursos de reconhecimento de imagem local em smartphones.
Moondream2 foi lançado oficialmente em março. O modelo pode processar entradas de texto e imagem e possui recursos para responder perguntas, extração de texto (OCR), contagem de objetos e classificação de itens. Desde o seu lançamento, a equipe da Moondream continuou a atualizar o modelo, melhorando continuamente o seu desempenho básico. A divulgação de julho mostra melhorias significativas no OCR e na compreensão de documentos, particularmente na análise de dados econômicos históricos. As pontuações do modelo em DocVQA, TextVQA e GQA excedem 60%, mostrando sua forte capacidade quando executado localmente.
Uma característica notável do moondream2 é seu tamanho compacto: existem apenas 1,6 bilhão de parâmetros, o que permite que ele seja executado não apenas em servidores em nuvem, mas também em computadores locais e até mesmo em alguns dispositivos de menor desempenho, como smartphones ou computadores de placa única.
Apesar do seu pequeno tamanho, o seu desempenho é comparável a alguns modelos concorrentes com milhares de milhões de parâmetros, e até supera estes modelos maiores em alguns benchmarks.
Numa comparação de modelos de linguagem visual de dispositivos móveis, os investigadores apontaram que embora o moondream2 tenha apenas 170 milhões de parâmetros, o seu desempenho é equivalente ao de um modelo de 700 milhões de parâmetros, e o seu desempenho é apenas ligeiramente inferior ao conjunto de dados SQA. Isto mostra que, embora os modelos pequenos tenham um bom desempenho, ainda enfrentam desafios na compreensão de contextos específicos.
Vikhyat Korrapati, o desenvolvedor do modelo, disse que o moondream2 é construído em outros modelos, como SigLIP, conjuntos de dados de treinamento Phi-1.5 e LLaVA da Microsoft. O modelo de código aberto já está disponível para download gratuito no GitHub, com uma versão demo mostrada no Hugging Face. Na plataforma de codificação, moondream2 também atraiu ampla atenção da comunidade de desenvolvedores, recebendo mais de 5.000 avaliações com estrelas.
O sucesso atraiu investidores: a Moondream levantou US$ 4,5 milhões em uma rodada inicial liderada pela Felicis Ventures, o fundo M12GitHub da Microsoft, e pela Ascend. O CEO da empresa, Jay Allen, trabalha na Amazon Web Services (AWS) há muitos anos e lidera a startup em crescimento.
O lançamento do moondream2 marca o nascimento de uma série de modelos de código aberto otimizados profissionalmente que exigem menos recursos e oferecem desempenho semelhante a modelos maiores e mais antigos. Embora existam alguns modelos locais pequenos no mercado, como o assistente inteligente da Apple e o Gemini Nano do Google, esses dois fabricantes ainda terceirizam tarefas mais complexas para a nuvem.
abraço: https://huggingface.co/vikhyatk/moondream2
github: https://github.com/vikhyat/moondream
O surgimento do moondream2 anuncia o desenvolvimento vigoroso de modelos leves de IA, proporcionando novas possibilidades para aplicações de IA localizadas. A sua natureza de código aberto também promove a participação ativa da comunidade de desenvolvedores e injeta uma nova vitalidade no desenvolvimento da tecnologia de IA. Esperamos mais inovações semelhantes no futuro!