Meta의 SAM 모델은 이미지 분할 분야에서는 잘 수행되지만 비디오 객체 추적, 특히 추적 결과가 좋지 않은 복잡한 장면에서는 단점이 있습니다. 워싱턴 대학의 연구원들은 SAMURAI 모델을 개발하고 SAM2를 개선하여 비디오 객체 추적 성능을 크게 향상시켰습니다. SAMURAI는 시간 동작 신호와 동작 인식 메모리 선택 메커니즘을 교묘하게 결합합니다. 고도로 숙련된 전사처럼 SAMURAI는 물체의 이동 궤적을 정확하게 예측하고 가장 신뢰할 수 있는 마스크를 선택할 수 있습니다.
Meta가 출시한 "segment everything" 모델인 SAM은 이미지 분할 분야에서는 무적이지만, 비디오 객체 추적에서는 원하는 것을 약간 수행할 수 없습니다. 특히 사람이 많이 모이고 빠르게 움직이는 대상이 있는 장면에서는 더욱 그렇습니다. , 또는 "숨바꼭질"을 플레이하면 SAM이 혼란스러워집니다. 이는 SAM 모델의 메모리 메커니즘이 가장 최근의 이미지만 기록하고 메모리 내용의 품질을 무시하는 "고정 창"과 같기 때문에 비디오에 오류 전파가 발생하고 추적 효과가 크게 감소하기 때문입니다.
이 문제를 해결하기 위해 워싱턴 대학의 연구자들은 "열심히 생각"하여 마침내 비디오 객체 추적을 달성하는 데 사용되는 SAM2를 "악마로 수정"한 SAMURAI라는 모델을 개발했습니다. SAMURAI의 이름은 매우 강력하며 두 가지 브러시를 가지고 있습니다. 즉, 시간 동작 단서와 새로 제안된 동작 인식 메모리 선택 메커니즘을 결합하여 고도로 숙련된 전사처럼 물체의 이동 궤적을 정확하게 예측하고 마스크 선택을 향상시켜 궁극적으로 강력한 기능을 제공합니다. , 재교육이나 미세 조정이 필요 없이 정확한 추적이 가능합니다.
SAMURAI의 비밀은 두 가지 주요 혁신에 있습니다.
첫 번째 팁: 모션 모델링 시스템. 이 시스템은 사무라이의 "독수리 눈"과 같습니다. 복잡한 장면에서 물체의 위치를 더 정확하게 예측할 수 있으므로 마스크 선택을 최적화하여 SAMURAI가 유사한 물체와 혼동하지 않도록 합니다.
두 번째 움직임: 동작 인식 메모리 선택 메커니즘. SAMURAI는 SAM2의 단순한 "고정 창" 메모리 메커니즘을 버리고 대신 사무라이가 신중하게 무기를 선택하는 것처럼 원시 마스크 유사성, 객체 및 동작 점수를 결합하는 하이브리드 채점 시스템을 채택하여 가장 관련성이 높은 역사적 정보만 유지하므로 전반적인 추적 신뢰성이 향상됩니다. 모델의 오류 전파를 방지합니다.
SAMURAI는 무술에 능숙할 뿐만 아니라 민첩하고 실시간으로 작전을 수행할 수 있습니다. 더 중요한 것은 다양한 벤치마크 데이터 세트에서 강력한 제로 샘플 성능을 입증했다는 것입니다. 즉, 특별한 교육 없이도 다양한 시나리오에 적응할 수 있고 강력한 일반화 기능을 입증했다는 것입니다.
현장 테스트에서 SAMURAI는 성공률과 정확성 모두에서 기존 추적기에 비해 상당한 개선을 이루었습니다. 예를 들어 LaSOText 데이터 세트에서는 7.1%의 AUC 이득을 얻었고, GOT-10k 데이터 세트에서는 3.5%의 AO 이득을 얻었습니다. 더욱 놀라운 점은 LaSOT 데이터 세트에서 완전히 감독된 방법과 비교할 수 있는 결과를 달성한다는 것입니다. 이는 복잡한 추적 시나리오에서의 성능과 동적 환경에서 실제 적용할 수 있는 큰 잠재력을 완전히 입증합니다.
SAMURAI의 성공은 모션 정보를 영리하게 사용했기 때문입니다. 연구원들은 전통적인 칼만 필터를 SAM2와 결합하여 모델이 물체의 위치와 크기를 예측함으로써 여러 후보 마스크 중에서 가장 신뢰할 수 있는 마스크를 선택할 수 있도록 돕습니다. 또한 세 가지 점수(마스크 유사성 점수, 객체 모양 점수, 동작 점수)를 기반으로 하는 메모리 선택 메커니즘도 설계했습니다. 이 세 가지 점수가 임계값에 도달한 경우에만 프레임이 선택됩니다. 이 선택적 메모리 메커니즘은 관련 없는 정보의 간섭을 효과적으로 방지하고 추적 정확도를 향상시킵니다.
SAMURAI의 출현은 비디오 객체 추적 분야에 새로운 희망을 가져왔습니다. 성능 면에서 기존 트래커를 능가할 뿐만 아니라 재교육이나 미세 조정이 필요하지 않으며 다양한 시나리오에 쉽게 적용할 수 있습니다. 저는 미래에 SAMURAI가 자율 주행, 로봇, 영상 감시 등의 분야에서 중요한 역할을 하여 우리에게 더욱 지능적인 삶의 경험을 선사할 것이라고 믿습니다.
프로젝트 주소: https://yangchris11.github.io/samurai/
논문 주소: https://arxiv.org/pdf/2411.11922
전체적으로 SAMURAI 모델은 비디오 객체 추적 분야에서 획기적인 발전을 이루었으며 효율적이고 정확하며 견고한 성능은 미래의 지능형 애플리케이션을 위한 강력한 기술 지원을 제공합니다. 혁신적인 메모리 메커니즘과 모션 모델링 시스템은 심층적인 연구와 참고가 될 가치가 있습니다.