인공지능 이미지 생성 분야는 날이 갈수록 변화하고 있습니다. Midjourney 업데이트에 이어 오픈 소스 모델인 FLUX.1도 DALL·E3, Midjourney V6 등의 폐쇄 소스 모델을 능가한다고 합니다. 오픈 소스 모델의 SD3 시리즈로 업계에서 폭넓은 주목을 받고 있습니다. Downcodes의 편집자는 확산 모델 분야의 권위 있는 전문가인 Robin Rombach가 창조한 이 새로운 걸작과 그에 따른 기술 혁신 및 미래 전망에 대한 심층적인 이해를 제공할 것입니다.
인공지능 분야에서는 파괴적인 변화가 매일 일어날 수 있습니다. Midjourney의 주요 업데이트 바로 다음 날, 오픈 소스 이미지 생성 분야에서 눈길을 끄는 다크호스 FLUX.1이 출시되었습니다. 이 갑작스러운 신규 플레이어는 DALL·E3, Midjourney V6 등의 비공개 소스 모델을 성능 면에서 크게 능가한다고 주장할 뿐만 아니라 오픈 소스 SD3 시리즈 전체를 죽여 AI 서클을 즉각 폭발시킵니다.
먼저 FLUX.1의 배후에 대해 알아봅시다. 창립자인 로빈 롬바흐(Robin Rombach)는 무명의 인물이 아니라 확산 모델 분야의 권위 있는 전문가입니다. 대표작으로는 VQGAN, Taming Transformers, Latent Diffusion 등이 있습니다. 그는 한때 Stability AI의 수석 과학자를 역임했으며 세계적으로 유명한 Stable Diffusion 시리즈 프로젝트를 이끌었습니다. 로빈 롬바흐(Robin Rombach)는 AI 이미지 생성 분야의 숙련된 운전자 중 숙련된 운전자라고 할 수 있다.
올해 3월, Stability AI의 내부 혼란으로 인해 Robin은 떠나기로 결정했습니다. 4개월 간의 노력 끝에 새로운 오픈소스 대형 모델 플랫폼 FLUX.1을 들고 돌아왔습니다. 더욱 놀라운 점은 FLUX.1이 데뷔하자마자 유명한 벤처 캐피탈 기관인 Andreessen Horowitz가 주도하는 3,200만 달러의 시드 자금 조달을 받았다는 것입니다. 이는 의심할 여지없이 FLUX.1의 향후 개발을 촉진합니다.
그렇다면 FLUX.1의 뛰어난 점은 무엇입니까? 먼저 Vision Transformer 아키텍처를 기반으로 프로세스 매칭 학습 방식을 채택하고 회전 위치 임베딩 및 병렬 주의 레이어를 사용하여 모델 성능 및 하드웨어 활용 효율성을 향상시킵니다. 이 120억 매개변수 모델은 세 가지 버전으로 출시됩니다.
Pro 버전: 가장 강력한 성능으로 API를 통해 사용됩니다.
Dev 버전: Pro 버전의 성능을 대부분 상속하는 비상업적 유도 증류 모델입니다.
Schnell 버전: 상업적으로 사용이 가능하고 성능이 뛰어난 오픈소스 모델입니다.
FLUX.1 팀의 테스트 데이터에 따르면 오픈 소스 Schnell 버전도 텍스트 의미 복원, 화질, 동작 일관성, 일관성 및 다양성 및 주류 모델 측면에서 Midjourney v6.0 및 DALL·E3(HD)를 능가합니다. SD3-Ultra와 같은. 특히 이미지에 텍스트를 삽입하는 경우 FLUX.1은 확실한 장점을 보여줍니다.
여기에서 AIbase는 참고용으로 몇 가지 공식 생성 효과 디스플레이를 선택했습니다.
실제 사진 사진
AIbase가 이전 고양이 수호성인을 테스트한 결과 FLUX.1이 프롬프트 단어를 더 정확하게 이해하는 데 전혀 문제가 없었습니다.
물론 FLUX.1의 야망은 여기서 끝나지 않습니다. 앞으로 빈센트비디오 모델도 출시해 소라, Gen-3, 루마 등 1차 제품에 도전할 계획이라고 팀은 전했다.
개발자와 AI 애호가들에게 FLUX.1의 출현은 의심할 여지 없이 큰 이점입니다. Schnell 버전은 완전한 오픈 소스이며 Comfyui에서 지원됩니다. 비디오 메모리가 36G 이상인 경우 t5의 fp16 버전을 실행할 수도 있습니다. 그러나 t5xxl_fp16.safetensors 또는clip_l.safetensors 및 VAE를 별도로 다운로드해야 한다는 점에 유의해야 합니다.
FLUX.1의 등장은 오픈소스 AI 이미지 생성 분야에 새로운 희망을 가져올 뿐만 아니라 AI 산업 전체에 새로운 활력을 불어넣습니다. 강력한 성능과 오픈 소스 기능은 AI 이미지 생성 기술의 인기와 혁신을 가속화할 가능성이 높습니다. 일반 사용자의 경우 이는 곧 Midjourney와 경쟁하거나 심지어 능가하는 가정용 컴퓨터에서 AI 이미지 생성 모델을 실행할 수 있음을 의미합니다.
프로젝트 주소: https://github.com/black-forest-labs/flux
평가판 주소: https://replicate.com/black-forest-labs/flux-pro
Comfyui 워크플로우: https://comfyanonymous.github.io/ComfyUI_examples/flux/
전체적으로 FLUX.1의 등장은 오픈 소스 AI 이미지 생성 분야의 새로운 단계를 의미합니다. FLUX.1의 강력한 성능과 오픈 소스 기능은 AI 이미지 생성 기술의 인기와 발전을 크게 촉진할 것입니다. 앞으로 FLUX.1이 더 많은 놀라움을 선사할 수 있기를 기대합니다!