Meta의 SAM 모델은 이미지 분할 분야에서는 잘 작동하지만 비디오 객체 추적에서는 문제에 직면합니다. 특히 복잡한 장면에서는 "고정 창" 메모리 메커니즘으로 인해 오류가 전파되고 추적 결과가 좋지 않습니다. 이를 위해 워싱턴 대학의 연구원들은 SAMURAI 모델을 개발하고 SAM2를 개선하여 비디오 객체 추적의 정확성과 안정성을 크게 향상시켰습니다.
Meta가 출시한 "segment everything" 모델인 SAM은 이미지 분할 분야에서는 무적이지만, 비디오 객체 추적에서는 원하는 것을 약간 수행할 수 없습니다. 특히 사람이 많이 모이고 빠르게 움직이는 대상이 있는 장면에서는 더욱 그렇습니다. , 또는 "숨바꼭질"을 플레이하면 SAM이 혼란스러워집니다. 이는 SAM 모델의 메모리 메커니즘이 가장 최근의 이미지만 기록하고 메모리 내용의 품질을 무시하는 "고정 창"과 같기 때문에 비디오에 오류 전파가 발생하고 추적 효과가 크게 감소하기 때문입니다.
이 문제를 해결하기 위해 워싱턴 대학의 연구자들은 "열심히 생각"하여 마침내 비디오 객체 추적을 달성하는 데 사용되는 SAM2를 "악마로 수정"한 SAMURAI라는 모델을 개발했습니다. SAMURAI의 이름은 매우 강력하며 두 가지 브러시를 가지고 있습니다. 즉, 시간 동작 단서와 새로 제안된 동작 인식 메모리 선택 메커니즘을 결합하여 고도로 숙련된 전사처럼 물체의 이동 궤적을 정확하게 예측하고 마스크 선택을 향상시켜 궁극적으로 강력한 기능을 제공합니다. , 재교육이나 미세 조정이 필요 없이 정확한 추적이 가능합니다.
SAMURAI의 비밀은 두 가지 주요 혁신에 있습니다.
첫 번째 팁: 모션 모델링 시스템. 이 시스템은 사무라이의 "독수리 눈"과 같습니다. 복잡한 장면에서 물체의 위치를 더 정확하게 예측할 수 있으므로 마스크 선택을 최적화하여 SAMURAI가 유사한 물체와 혼동하지 않도록 합니다.
두 번째 움직임: 동작 인식 메모리 선택 메커니즘. SAMURAI는 SAM2의 단순한 "고정 창" 메모리 메커니즘을 버리고 대신 사무라이가 신중하게 무기를 선택하는 것처럼 원시 마스크 유사성, 객체 및 동작 점수를 결합하는 하이브리드 채점 시스템을 채택하여 가장 관련성이 높은 역사적 정보만 유지하므로 전반적인 추적 신뢰성이 향상됩니다. 모델의 오류 전파를 방지합니다.
SAMURAI는 무술에 능숙할 뿐만 아니라 민첩하고 실시간으로 작전을 수행할 수 있습니다. 더 중요한 것은 다양한 벤치마크 데이터 세트에서 강력한 제로 샘플 성능을 입증했다는 것입니다. 즉, 특별한 교육 없이도 다양한 시나리오에 적응할 수 있고 강력한 일반화 기능을 입증했다는 것입니다.
현장 테스트에서 SAMURAI는 성공률과 정확성 모두에서 기존 추적기에 비해 상당한 개선을 이루었습니다. 예를 들어 LaSOText 데이터 세트에서는 7.1%의 AUC 이득을 얻었고, GOT-10k 데이터 세트에서는 3.5%의 AO 이득을 얻었습니다. 더욱 놀라운 점은 LaSOT 데이터 세트에서 완전히 감독된 방법과 비교할 수 있는 결과를 달성한다는 것입니다. 이는 복잡한 추적 시나리오에서의 성능과 동적 환경에서 실제 적용할 수 있는 큰 잠재력을 완전히 입증합니다.
SAMURAI의 성공은 모션 정보를 영리하게 사용했기 때문입니다. 연구원들은 전통적인 칼만 필터를 SAM2와 결합하여 모델이 물체의 위치와 크기를 예측함으로써 여러 후보 마스크 중에서 가장 신뢰할 수 있는 마스크를 선택할 수 있도록 돕습니다. 또한 세 가지 점수(마스크 유사성 점수, 객체 모양 점수, 동작 점수)를 기반으로 하는 메모리 선택 메커니즘도 설계했습니다. 이 세 가지 점수가 임계값에 도달한 경우에만 프레임이 선택됩니다. 이 선택적 메모리 메커니즘은 관련 없는 정보의 간섭을 효과적으로 방지하고 추적 정확도를 향상시킵니다.
SAMURAI의 출현은 비디오 객체 추적 분야에 새로운 희망을 가져왔습니다. 성능 면에서 기존 트래커를 능가할 뿐만 아니라 재교육이나 미세 조정이 필요하지 않으며 다양한 시나리오에 쉽게 적용할 수 있습니다. 미래에는 SAMURAI가 자율 주행, 로봇, 영상 감시 등의 분야에서 중요한 역할을 하여 우리에게 더욱 지능적인 삶의 경험을 선사할 것이라고 믿습니다.
프로젝트 주소: https://yangchris11.github.io/samurai/
논문 주소: https://arxiv.org/pdf/2411.11922
Downcodes의 편집자는 다음과 같이 결론을 내렸습니다. SAMURAI 모델의 출현으로 비디오 타겟 추적 기술이 크게 발전했습니다. 혁신적인 메모리 메커니즘과 모션 모델링 시스템은 기존 방법의 단점을 효과적으로 해결했으며 향후 적용 가능성은 넓습니다.