싱가포르 국립대학교 연구팀은 이미지 생성의 유연성과 효율성을 크게 향상시키는 OminiControl이라는 새로운 이미지 생성 프레임워크를 개발했습니다. 이미지 컨디셔닝과 사전 훈련된 DiT(확산 변환기 모델)를 교묘하게 결합하여 전례 없는 제어 기능을 달성하고 복잡한 주제 통합도 쉽게 달성할 수 있습니다. 다운코드 편집자는 OminiControl의 독창성과 이것이 이미지 생성 분야에 가져오는 변화에 대한 심층적인 이해를 제공합니다.
간단히 말해서 자료 사진을 제공하기만 하면 OminiControl을 사용하여 자료 사진의 테마를 생성된 사진에 통합할 수 있습니다. 예를 들어 Downcodes의 편집자는 왼쪽에 있는 자료 사진을 업로드하고 "칩맨이 진료실 테이블 옆에 놓여 있고 청진기가 테이블 위에 놓여 있습니다."라는 프롬프트 단어를 입력했습니다. 다음과 같이:
OminiControl의 핵심은 "매개변수 재사용 메커니즘"에 있습니다. 이 메커니즘을 통해 DiT 모델은 더 적은 수의 추가 매개변수를 사용하여 이미지 조건을 효과적으로 처리할 수 있습니다. 이는 기존 방법에 비해 OminiControl이 강력한 기능을 달성하려면 0.1% ~ 0.1% 더 많은 매개변수만 필요하다는 것을 의미합니다. 또한 피사체 기반 생성 및 가장자리, 깊이 맵 등과 같은 공간 정렬 조건 적용과 같은 여러 이미지 조정 작업을 균일하게 처리할 수 있습니다. 이러한 유연성은 주제 중심 생성 작업에 특히 유용합니다.
연구팀은 또한 OminiControl이 생성된 이미지를 훈련함으로써 이러한 기능을 달성한다는 점을 강조했는데, 이는 주제 중심 생성에 특히 중요합니다. 광범위한 평가를 거친 후 OminiControl은 주제 중심 생성 및 공간적으로 정렬된 조건 생성 작업 모두에서 기존 UNet 모델 및 DiT 적응 모델보다 훨씬 뛰어난 성능을 발휘합니다. 이번 연구 결과는 창작 분야에 새로운 가능성을 제시하고 있다.
더 광범위한 연구를 지원하기 위해 팀은 200,000개 이상의 신원 일치 이미지를 포함하고 효율적인 데이터 합성 파이프라인을 제공하는 Subjects200K라는 교육 데이터 세트도 출시했습니다. 이 데이터 세트는 연구자들이 주제 합의 생성 작업을 더 자세히 탐색하는 데 도움이 되는 귀중한 리소스를 제공합니다.
Omini의 출시는 이미지 생성의 효율성과 효과를 향상시킬 뿐만 아니라 예술적 창작에 더 많은 가능성을 제공합니다.
온라인 체험: https://huggingface.co/spaces/Yuanshi/OminiControl
github:https://github.com/Yuanshi9815/OminiControl
논문: https://arxiv.org/html/2411.15098v2
OminiControl의 출현은 이미지 생성 기술의 획기적인 도약을 의미합니다. 효율적인 매개변수 재사용 메커니즘과 강력한 제어 기능은 예술적 창작과 과학 연구를 위한 새로운 길을 열었습니다. 앞으로도 지속적인 기술 개발을 통해 OminiControl이 더 많은 분야에서 중요한 역할을 하고 우리에게 더욱 놀라운 이미지 생성 경험을 선사할 것이라고 믿습니다.