싱가포르 국립대학교의 NExT++ 연구소와 칭화대학교의 Liu Zhiyuan 팀은 감지 및 분할 모듈을 통합하여 매트 처리 과정을 크게 단순화하는 강력한 다중 모드 대형 모델을 개발하기 위해 협력했습니다. 사용자는 자연어를 사용하여 대상 객체를 설명하기만 하면 모델은 빠르고 정확하게 라벨을 지정하고 해당 텍스트 설명을 제공할 수 있습니다. 이 획기적인 기술은 특히 참조 분할 및 REC 작업에서 여러 데이터 세트에서 탁월한 성능을 보여주었습니다.
싱가포르 국립대학교 NExT++ 연구소와 칭화대학교 Liu Zhiyuan 팀이 만든 대규모 다중 모드 모델은 감지 및 분할 모듈을 통합하여 이미지 컷아웃을 더 쉽게 만듭니다. 자연어로 요구 사항을 설명함으로써 모델은 찾고 있는 개체를 신속하게 표시하고 텍스트 설명을 제공할 수 있습니다. 이 모델은 다중 작업 데이터 세트에 대한 뛰어난 실험 성능을 가지며 분할 및 REC 작업을 참조하는 능력이 뛰어납니다. 또한 이 모델은 더 나은 위치 모델링 기능을 갖춘 임베딩 기반 위치 모델링 방법도 도입합니다. 훈련 프로세스의 최적화를 통해 모델은 주석이 부족한 분할 작업에서도 좋은 성능을 달성할 수 있습니다.
이 모델은 임베딩의 위치 모델링 방법과 최적화된 학습 프로세스를 기반으로 하여 부족한 데이터 주석으로 분할 작업에서 만족스러운 결과를 얻을 수 있으며, 강력한 적응성과 실용성을 입증하고 향후 다중 모드 모델 개발의 기반을 마련합니다. 모델은 새로운 방향과 아이디어를 제공합니다. 이번 연구 결과는 영상처리 및 인공지능 관련 분야에 폭넓은 영향을 미칠 것으로 기대된다.