구글 연구팀이 전문적인 소프트웨어나 기술 없이도 사용자가 색상, 광택, 투명도 등 이미지 속 개체의 물질적 특성을 정밀하게 제어할 수 있는 획기적인 이미지 편집 기술인 알케미스트(Alchemist)를 출시했습니다. 핵심적으로 Alchemist는 데이터 세트를 합성하고 Stable Diffusion 1.5 모델 아키텍처를 수정하여 재료 매개변수를 미세하게 제어할 수 있는 미세 조정된 텍스트-이미지 생성 모델입니다. 이 기술은 디자이너, 예술가, 건축가와 같은 전문가에게 강력한 도구를 제공하여 이미지 편집 프로세스에 혁명을 일으킬 수 있는 잠재력을 가지고 있습니다.
Google 연구팀은 최근 획기적인 기술인 Alchemist를 출시했습니다. 이 기술을 통해 사용자는 전문적인 이미지 편집 소프트웨어나 기술 없이도 색상, 광택, 투명도 등 사진 속 항목의 재료 특성을 정밀하게 편집할 수 있습니다.
Alchemist 기술의 핵심에는 미세 조정된 T2I(Text-to-Image) 생성 모델이 있습니다. 연구팀은 합성 데이터 세트를 생성하고 Stable Diffusion1.5 모델 아키텍처를 수정하여 재료 매개변수에 대한 정밀한 제어를 달성했습니다.
구체적으로, 연구진은 먼저 컴퓨터 그래픽과 물리 기반 렌더링 기술을 사용하여 수많은 합성 이미지를 생성했습니다. 이러한 이미지에는 무작위로 선택된 재료, 카메라 각도 및 조명 조건을 갖춘 다양한 3D 모델이 포함되어 있습니다. 그런 다음 이러한 이미지의 단일 속성을 변경하여 다양한 편집 강도를 갖춘 여러 버전을 생성했습니다.
이 합성 데이터를 미세 조정함으로써 모델은 항목 모양과 이미지 조명을 변경하지 않고 유지하면서 컨텍스트 이미지, 지침 및 편집 강도 값이 주어지면 지정된 재료 속성만 변경하는 방법을 학습합니다.
실험 결과, 이 기술은 금속 느낌을 강화하거나 투명도를 조절하는 등 물체의 외관을 효과적으로 변화시킬 수 있음을 보여줍니다. 사용자 연구에서 이 접근 방식은 기본 접근 방식에 비해 포토리얼리즘과 사용자 선호도 모두에서 상당한 이점을 얻었습니다.
이 기술의 응용 전망은 광범위합니다. 인테리어 디자이너가 방을 다시 칠할 때 어떤 모습일지 미리 볼 수 있고 건축가, 예술가, 디자이너가 신제품에 대한 디자인 스케치를 빠르게 만드는 데 도움이 될 수 있습니다. 또한 편집 효과가 시각적으로 일관되기 때문에 NeRF(Neural Radiation Field) 재구성과 같은 다운스트림 3D 작업에도 이 기술을 사용할 수 있습니다.
알케미스트 기술은 소재 편집에 있어 상당한 진전을 이루었지만, 연구팀은 몇 가지 한계점도 지적했다. 예를 들어, 이미지의 숨겨진 세부 사항을 처리하는 데 있어 모델에는 여전히 개선의 여지가 있습니다.
그러나 연구원들은 제어된 자료 편집에 대한 기술의 잠재력에 확신을 가지고 있습니다. 추가 연구와 최적화를 통해 Alchemist는 이미지 편집 분야에 혁명을 일으켜 복잡한 자료 편집 작업을 더 간단하고 직관적으로 만들 것으로 예상됩니다.
Google의 Alchemist 기술은 이미지 처리 분야에서 인공 지능의 또 다른 주요 혁신을 나타냅니다. 복잡한 이미지 편집 과정을 단순화할 뿐만 아니라, 창조산업에 새로운 가능성을 제시하며 디자인, 미술, 가상현실 등 다방면에 지대한 영향을 미칠 것으로 기대된다.
프로젝트 주소: https://prafullsharma.net/alchemist/
알케미스트 기술의 등장은 이미지 편집 분야 인공지능 분야에 또 다른 이정표를 세웠습니다. 효율적이고 정확한 자료 편집 기능은 창조 산업에 새로운 활력을 불어넣고 관련 기술의 지속적인 개발과 혁신을 촉진할 것입니다.