최근 AI 페인팅 기술이 비약적으로 발전했지만, 아직은 단순해 보이지만 완벽하게 표현하기 어려운 장면도 있습니다. 상하이자오퉁대학교 연구팀은 AI가 '찻잔 속의 얼음 콜라' 장면을 반복적으로 생성하지 못하는 것을 발견했으며, 이로 인해 텍스트-이미지 정렬 문제에 대한 학문적 관심이 촉발되었습니다. 연구팀은 이 '찻잔 문제'를 파헤쳐 AI 이미지 생성 시 숨겨진 개념 불일치 문제를 효과적으로 해결하는 MoCE(Mixture of Concept Experts)라는 새로운 방법을 제안했습니다.
인공지능 분야에서는 AI 화가의 역량이 끊임없이 혁신과 개선을 거듭해 왔다. 그러나 가장 발전된 AI 이미지 생성 모델이라도 겉보기에 단순해 보이는 특정 작업에는 어려움을 겪을 수 있습니다. 최근 상하이자오퉁대학교(Shanghai Jiao Tong University) 박사과정생 자오쥔투(Zhao Juntu)와 그의 팀은 연구를 통해 AI가 '찻잔 속의 얼음 콜라' 장면을 생성할 때 예상치 못한 어려움을 겪는다는 사실을 발견했습니다.
이러한 현상은 학계의 주목을 끌었으며 텍스트-이미지 불일치라고 불립니다. AI 이미지 생성 모델이 막 떠오르던 2023년 10월, Zhao Juntu와 그의 팀은 이를 시도한 결과 AI 화가들이 이 장면을 구성할 때 찻잔 대신 아이스 콜라가 채워진 투명한 유리를 그리는 경우가 많다는 사실을 발견했습니다. 2024년 7월에 최첨단 모델을 사용해 시도했지만 결과는 여전히 만족스럽지 못했습니다.
이 문제를 심층적으로 탐구하기 위해 Shanghai Jiao Tong University의 Wang Dequan 교수 연구 그룹은 곧 발표될 논문 "Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models" Misalignment에서 이 문제를 숨겨진 변수를 포함하는 것으로 분류합니다. 문제(LC-Mis라고 하는 잠재 개념 정렬 오류). 그들은 유사한 문제가 있는 개념 쌍을 신속하게 수집하는 데 도움이 되도록 LLM에 포함된 인간의 사고를 사용하는 LLM(대형 언어 모델) 기반 시스템을 설계했습니다.
연구팀은 확산 모델의 다단계 샘플링 과정에 순차 페인팅 규칙을 통합하는 MoCE(Mixture of Concept Experts)라는 방법을 제안하고, 사라진 찻잔을 성공적으로 복구했습니다.
전체 샘플링 프로세스를 두 단계로 나눕니다. 첫 번째 단계에서는 간과하기 쉬운 개념만 제공하고 두 번째 단계에서는 완전한 텍스트 프롬프트를 사용합니다. 이 접근 방식을 통해 MoCE는 이미지를 생성할 때 텍스트와 이미지 간의 정렬을 보다 정확하게 제어할 수 있습니다.
MoCE 방법은 레벨 5 LC-Mis 개념 쌍의 비율을 크게 줄여 상당한 양의 데이터 주석 비용이 필요한 Dall・E3(2023년 10월 버전)을 어느 정도 능가합니다.
또한 연구팀은 이러한 유형의 새로운 문제에 직면했을 때 기존의 자동 평가 지표에는 명백한 결함이 있다는 점도 발견했습니다. 예를 들어, 일부 평가 지표에서는 찻잔에 담긴 아이스 콜라에 낮은 점수를 주지만, 투명한 잔에 담긴 아이스 콜라에는 높은 점수를 부여합니다. 이는 AI 성능을 평가하는 도구 자체에도 편견과 한계가 있을 수 있음을 시사합니다.
연구원들은 향후 연구에서 더 복잡한 LC-Mis 시나리오를 탐색하고 학습 가능한 검색 알고리즘을 개발하여 반복 횟수를 줄일 계획입니다. 또한 데이터세트에 사용되는 모델 유형, 모델 버전, 샘플러 유형을 확장하고 데이터세트 수집 알고리즘을 계속 반복하여 데이터세트를 강화하고 확장할 계획입니다.
이번 연구는 이미지 생성에 있어 AI의 한계를 이해하는 새로운 관점을 제시할 뿐만 아니라, AI의 이미지 생성 역량을 향상시키기 위한 새로운 아이디어와 방법을 제시한다. 기술이 계속 발전함에 따라 AI가 인간의 창의성을 이해하고 재현하는 데 더 큰 혁신을 가져올 것으로 기대합니다.
프로젝트 주소: https://lcmis.github.io/
논문: https://arxiv.org/pdf/2408.00230
AI 이미지 생성의 '찻잔 문제'에 대한 이번 연구는 AI 모델이 미묘한 개념을 처리하는 데 한계가 있음을 밝히고, AI 기술의 향후 발전 방향에 대한 귀중한 참고 자료를 제공합니다. 연구팀이 제안한 MoCE 방식과 기존 평가지표의 반영은 AI 영상 생성 기술을 한 단계 더 발전시킬 것이다.