Model prediksi tindakan sumber terbuka ViTPose: dapat memprediksi dan memberi anotasi tindakan di setiap frame - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-01-27 18:00:03

ViTPose adalah model estimasi pose manusia open source berdasarkan visual Transformer, yang dikenal dengan strukturnya yang sederhana dan efisien serta kinerja yang sangat baik. Ini meninggalkan jaringan saraf konvolusional yang kompleks dan hanya menggunakan lapisan Transformer bertumpuk untuk mengekstrak fitur gambar, dan dapat menyesuaikan ukuran model dan resolusi masukan sesuai kebutuhan untuk mencapai keseimbangan antara kinerja dan kecepatan. Model ini telah mencapai hasil yang sangat baik pada kumpulan data MS COCO, bahkan melampaui banyak model yang lebih kompleks, dan mendukung transfer pengetahuan, sehingga model kecil juga dapat memiliki kemampuan model besar. Kode dan model sumber terbukanya memfasilitasi penelitian dan pengembangan.

Pada intinya, ViTPose menggunakan Transformer murni visual, yang bertindak seperti "kerangka" yang kuat untuk mengekstrak fitur-fitur utama dalam sebuah gambar. Ini tidak memerlukan bantuan jaringan saraf konvolusional yang kompleks (CNN) seperti model lainnya. Strukturnya sangat sederhana, yaitu beberapa Transformer yang dilapis menjadi satu.

Model ViTPose dapat diubah ukurannya sesuai kebutuhan. Seperti penggaris yang dapat diregangkan, Anda dapat mengontrol ukuran model dengan menambah atau mengurangi jumlah lapisan Transformer untuk menemukan keseimbangan antara performa dan kecepatan. Anda juga dapat mengatur resolusi gambar masukan dan model akan beradaptasi. Selain itu, ia dapat memproses beberapa kumpulan data secara bersamaan, artinya Anda dapat menggunakannya untuk mengenali data dari berbagai pose.

Meskipun strukturnya sederhana, ViTPose berkinerja sangat baik dalam memperkirakan pose manusia. Ini mencapai hasil yang sangat baik pada kumpulan data MS COCO yang terkenal, bahkan melampaui banyak model yang lebih kompleks. Ini menunjukkan bahwa model sederhana bisa sangat bermanfaat. Fitur lain dari ViTPose adalah dapat mentransfer “pengetahuan” dari model besar ke model kecil. Ibaratnya seorang guru yang berpengalaman dapat memberikan ilmu kepada siswanya, sehingga model kecil dapat memiliki kekuatan model besar.

Kode dan model ViTPose bersifat open source, artinya siapa pun dapat menggunakannya secara gratis dan melakukan penelitian serta pengembangan terhadapnya.

ViTPose seperti alat sederhana namun kuat yang membantu komputer memahami tindakan manusia. Keunggulannya adalah kesederhanaan, fleksibilitas, efisiensi dan kemudahan belajar. Hal ini menjadikannya model dasar yang sangat menjanjikan dalam bidang estimasi pose manusia.

Model ini menggunakan lapisan Transformer untuk memproses data gambar dan decoder ringan untuk memprediksi poin-poin penting. Dekoder dapat menggunakan lapisan dekonvolusi sederhana atau interpolasi bilinear untuk mengambil sampel peta fitur. ViTPose tidak hanya bekerja dengan baik pada kumpulan data standar, tetapi juga bekerja dengan baik dalam menangani oklusi dan pose yang berbeda. Ini dapat diterapkan pada berbagai tugas seperti estimasi pose manusia, estimasi pose hewan, dan deteksi titik kunci wajah.

demo: https://huggingface.co/spaces/hysts/ViTPose-transformers

Model: https://huggingface.co/collections/usyd-community/vitpose-677fcfd0a0b2b5c8f79c4335

Secara keseluruhan, ViTPose menyediakan model dasar yang kuat untuk bidang estimasi postur manusia dengan struktur yang efisien dan kinerja yang sangat baik juga memfasilitasi partisipasi lebih banyak peneliti dan pengembang serta mendorong pengembangan bidang ini. Kesederhanaan, efisiensi, dan kemudahan penggunaan adalah keunggulan utamanya.