Meta meluncurkan model analisis visual Sapien yang dapat melihat setiap gerakan Anda

Penulis：Eve Cole Waktu Pembaruan：2024-12-23 11:00:01

Sapiens, model AI terbaru yang dirilis oleh Meta Reality Labs, telah membuat terobosan signifikan dalam memproses tugas visual manusia. Teknologi ini dapat secara akurat menganalisis postur, gerakan, dan detail halus bagian tubuh manusia dalam gambar dan video, menjaga akurasi tinggi bahkan di lingkungan yang kompleks atau ketika data terbatas. Kumpulan data pelatihan Sapiens berisi lebih dari 300 juta gambar manusia dan menggunakan arsitektur transformator visual canggih serta teknologi pembelajaran multitugas untuk memberikan kemampuan dan ketahanan generalisasi yang kuat. Teknologi ini mempunyai prospek penerapan yang luas, meliputi bidang-bidang seperti pengawasan video, realitas virtual, perawatan medis dan media sosial, dan diharapkan dapat merevolusi metode interaksi manusia-komputer dan kemampuan analisis data di bidang-bidang tersebut.

Fungsi inti model Sapiens meliputi estimasi pose 2D, segmentasi bagian tubuh, estimasi kedalaman, dan prediksi normal permukaan. Melalui fungsi-fungsi tersebut, Sapiens dapat secara akurat mengenali postur tubuh manusia, membedakan berbagai bagian tubuh secara halus, serta memprediksi informasi kedalaman dan orientasi permukaan objek dalam gambar. Mengungguli metode canggih yang ada pada banyak tugas, menunjukkan akurasi dan konsistensi yang tinggi. Performanya yang kuat dan prospek penerapannya yang luas menjadikannya terobosan penting dalam bidang kecerdasan buatan. Alamat proyek dan alamat tesis terlampir, selamat datang berkunjung untuk informasi lebih lanjut.

Dari sudut pandang teknis, Sapiens menggunakan beberapa metode canggih. Pertama, model ini dilatih sebelumnya berdasarkan kumpulan data berskala besar yang berisi 300 juta gambar, yang memberikan model kemampuan generalisasi yang kuat. Kedua, Sapiens mengadopsi arsitektur transformator visual yang mampu memproses input resolusi tinggi dan melakukan penalaran yang terperinci. Selain itu, melalui pra-pelatihan autoencoder bertopeng dan pembelajaran multitugas, Sapiens mampu mempelajari representasi fitur yang kuat dan menangani beberapa tugas kompleks secara bersamaan.

Prospek penerapan Sapiens sangat luas. Di bidang pengawasan video dan realitas virtual, alat ini dapat menganalisis gerakan dan postur manusia secara real time, memberikan dukungan untuk penangkapan gerakan dan interaksi manusia-komputer. Di bidang medis, Sapiens dapat membantu profesional medis dalam pemantauan pasien dan panduan rehabilitasi melalui analisis postur dan bagian tubuh yang tepat. Untuk platform media sosial, Sapiens dapat digunakan untuk menganalisis gambar yang diunggah pengguna untuk memberikan pengalaman interaktif yang lebih kaya. Di bidang realitas maya dan realitas tertambah, hal ini membantu menciptakan gambar manusia yang lebih realistis dan meningkatkan pengalaman pengguna yang mendalam.

Hasil eksperimen menunjukkan bahwa Sapiens mengungguli metode canggih yang ada dalam banyak tugas. Sapiens telah menunjukkan akurasi dan konsistensi yang tinggi dalam deteksi titik kunci seluruh tubuh, wajah, tangan dan kaki, serta dalam segmentasi bagian tubuh, estimasi kedalaman, dan tugas prediksi normal permukaan.

Alamat proyek: https://about.meta.com/realitylabs/codecavatars/sapiens

Alamat makalah: https://arxiv.org/pdf/2408.12569

Secara keseluruhan, model Sapiens mewakili kemajuan besar dalam bidang pemahaman visual manusia tentang kecerdasan buatan, dan kinerjanya yang kuat serta potensi penerapannya yang luas memberikan kemungkinan-kemungkinan baru bagi inovasi teknologi di masa depan. Kami menantikan Sapiens berperan di lebih banyak bidang dan mendorong kemajuan teknologi.