Uma equipe de pesquisa da Universidade de Ciência e Tecnologia Huazhong, ByteDance e Universidade Johns Hopkins lançaram em conjunto um modelo básico universal em nível de objeto chamado GLEE. Este resultado inovador de pesquisa supera as limitações dos modelos existentes baseados em visão e traz novas possibilidades para o campo da análise de imagens e vídeos. O modelo GLEE tem um bom desempenho em diversas tarefas, mostrando forte flexibilidade e capacidade de generalização, especialmente em cenários de aprendizagem com transferência zero. Ele integra múltiplas fontes de dados, incluindo grandes quantidades de dados anotados automaticamente, para fornecer informações precisas e universais em nível de objeto.
O GLEE tem um bom desempenho em diversas tarefas, mostrando flexibilidade e capacidade de generalização, especialmente em cenários de transmissão zero-shot. O modelo fornece informações precisas e gerais em nível de objeto, integrando várias fontes de dados, incluindo grandes quantidades de dados rotuladas automaticamente. As direções de pesquisas futuras incluem a ampliação das capacidades de processamento de cenários complexos e conjuntos de dados distribuídos de cauda longa para melhorar a adaptabilidade.
O surgimento do modelo GLEE marca um progresso significativo no campo dos modelos visuais básicos, e vale a pena esperar por seu excelente desempenho e amplas perspectivas de aplicação. No futuro, a equipe de pesquisa trabalhará para melhorar a adaptabilidade do modelo GLEE em cenas complexas e dados de cauda longa, expandir ainda mais seu escopo de aplicação e trazer um impacto mais amplo à tecnologia de análise de imagem e vídeo.