베이징 인공지능연구소(Beijing Institute of Artificial Intelligence) 연구팀은 기존 이미지 생성 도구의 단일 기능 한계를 깨는 새로운 이미지 생성 모델 OmniGen을 출시했습니다. Stable Diffusion과 같은 모델과 달리 OmniGen은 텍스트에서 이미지 생성, 이미지 편집과 같은 여러 기능을 통합 프레임워크에 통합하여 "만능 제품"으로 만듭니다. Downcodes의 편집자는 OmniGen의 성능과 그 응용 가능성에 대해 자세히 설명합니다.
최근 베이징 인공지능연구소 연구팀은 옴니젠(OmniGen)이라는 새로운 이미지 생성 모델을 출시했다.
만능 이미지 생성 및 편집 플레이어
Stable Diffusion과 같은 이전 이미지 생성 도구와 비교할 때 OmniGen의 가장 큰 장점은 더 이상 단일 작업에만 초점을 맞추지 않고 여러 기능을 가지고 있다는 것입니다.
텍스트부터 이미지 생성, 이미지 편집까지 통합된 프레임워크에서 다양한 이미지 생성 작업을 처리할 수 있습니다.
즉, 사용자는 이미지 생성 및 정밀 편집을 제어하기 위해 간단한 프롬프트 단어만 제공하면 되며 더 이상 이미지의 세부 사항을 조정하기 위해 ControlNet 및 IP-Adapter와 같은 플러그인을 사용할 필요가 없습니다!
여기서 AIbase는 구식 카메라를 사용하여 창의적인 사진을 촬영할 때 상세한 효과 프롬프트 단어를 제공하는 것을 기반으로 생성된 전체 효과는 세부 사항으로 가득 차 있으며 효과는 다음과 같습니다.
여러 테스트를 통해 OmniGen은 인상적인 성능을 발휘하여 텍스트-이미지 생성 시장에서 가장 진보된 모델과 동등한 성능을 발휘했습니다. GenEval 벤치마크에서 OmniGen은 훈련에 10억 개의 이미지만 사용한 반면 SD3는 10억 개가 넘는 이미지를 사용했습니다.
소스 이미지와 편집 지침을 정확하게 제어하는 기능과 함께 이미지 편집 기능도 마찬가지로 우수합니다. 예를 들어, EMU-Edit 테스트 세트에서는 InstructPix2Pix와 같은 잘 알려진 모델을 능가하며 현재 최첨단 EMU-Edit 모델과도 비교할 수 있습니다.
주제 중심 생성 작업에서 OmniGen은 탁월한 개인화 기능을 입증했으며 예술 창작, 광고 디자인 등 다양한 분야에 적합합니다.
체험판 주소: https://huggingface.co/spaces/Shitao/OmniGen
논문: https://arxiv.org/html/2409.11340v1
OmniGen은 강력한 기능과 효율적인 성능으로 이미지 생성 분야에 새로운 혁신을 가져왔습니다. 또한 간단하고 사용하기 쉬운 조작 방법으로 이미지 생성의 문턱을 낮추고 더 많은 사용자에게 편리한 창작 도구를 제공합니다. 옴니젠은 앞으로 더 폭넓은 활용성을 갖고 인공지능 이미지 생성 기술의 발전을 더욱 촉진할 것으로 기대된다.