Modelo de previsão de ação de código aberto ViTPose: pode prever e anotar ações em cada quadro - artigo de IA

Autor：Eve Cole Data da Última Atualização：2025-01-27 18:00:03

ViTPose é um modelo de estimativa de pose humana de código aberto baseado no Transformer visual, conhecido por sua estrutura simples e eficiente e excelente desempenho. Ele abandona redes neurais convolucionais complexas e usa apenas camadas empilhadas do Transformer para extrair recursos da imagem e pode ajustar o tamanho do modelo e a resolução de entrada de acordo com as necessidades para alcançar um equilíbrio entre desempenho e velocidade. Este modelo alcançou excelentes resultados no conjunto de dados MS COCO, superando até muitos modelos mais complexos, e suporta a transferência de conhecimento, para que modelos pequenos também possam ter as capacidades de modelos grandes. Seu código-fonte aberto e modelos facilitam a pesquisa e o desenvolvimento.

Basicamente, o ViTPose usa um transformador puramente visual, que atua como um poderoso “esqueleto” para extrair os principais recursos de uma imagem. Não requer a ajuda de redes neurais convolucionais complexas (CNN) como outros modelos. Sua estrutura é muito simples, ou seja, vários Transformers estão dispostos em camadas.

Os modelos ViTPose podem ser redimensionados conforme necessário. Como uma régua extensível, você pode controlar o tamanho do seu modelo aumentando ou diminuindo o número de camadas do Transformer para encontrar um equilíbrio entre desempenho e velocidade. Você também pode ajustar a resolução da imagem de entrada e o modelo se adaptará. Além disso, ele pode processar vários conjuntos de dados simultaneamente, ou seja, você pode usá-lo para reconhecer dados de diferentes poses.

Apesar de sua estrutura simples, o ViTPose tem um desempenho muito bom na estimativa de pose humana. Alcança resultados muito bons no famoso conjunto de dados MS COCO, superando até mesmo muitos modelos mais complexos. Isto mostra que modelos simples podem ser muito poderosos. Outra característica do ViTPose é que ele pode transferir “conhecimento” de modelos grandes para modelos pequenos. É como se um professor experiente pudesse transmitir conhecimento aos alunos, para que pequenos modelos possam ter a força de modelos grandes.

O código e os modelos do ViTPose são de código aberto, o que significa que qualquer pessoa pode usá-lo gratuitamente e realizar pesquisas e desenvolvimento nele.

ViTPose é uma ferramenta simples, mas poderosa, que ajuda os computadores a compreender as ações humanas. Suas vantagens são simplicidade, flexibilidade, eficiência e facilidade de aprendizado. Isto o torna um modelo de base muito promissor no campo da estimativa da pose humana.

O modelo usa uma camada Transformer para processar dados de imagem e um decodificador leve para prever pontos-chave. O decodificador pode usar camadas de deconvolução simples ou interpolação bilinear para aumentar a resolução de mapas de recursos. ViTPose não só tem um bom desempenho em conjuntos de dados padrão, mas também no tratamento de oclusões e diferentes poses. Ele pode ser aplicado a várias tarefas, como estimativa de pose humana, estimativa de pose de animal e detecção de pontos-chave faciais.

demonstração: https://huggingface.co/spaces/hysts/ViTPose-transformers

Modelo: https://huggingface.co/collections/usyd-community/vitpose-677fcfd0a0b2b5c8f79c4335

Em suma, o ViTPose fornece um poderoso modelo de base para a área de estimativa da postura humana com sua estrutura eficiente e excelente desempenho. Seu recurso de código aberto também facilita a participação de mais pesquisadores e desenvolvedores e promove o desenvolvimento desta área. Simplicidade, eficiência e facilidade de uso são suas principais vantagens.