다운코드 편집자 보고서: Alimama의 크리에이티브 팀은 FLUX.1-dev 모델 교육을 기반으로 한 8단계 증류 Lora 모델인 새로운 이미지 생성 모델 FLUX.1-Turbo-Alpha를 출시했습니다. 이 모델은 다중 헤드 판별기를 사용하여 이미지 생성 품질을 크게 향상시킵니다. 텍스트-이미지 생성, 복구 제어 네트워크 등 다양한 기능을 지원하며 Diffusers 및 ComfyUI 프레임워크와 호환됩니다. 사용자가 쉽고 빠르게 시작할 수 있습니다. 이 모델은 수백만 개의 고품질 이미지 데이터에 대해 적대적으로 훈련되었습니다. 미적 점수는 6.3을 초과하고 해상도는 800보다 높아 고품질 이미지 출력을 보장합니다. 더욱 흥미로운 점은 앞으로 더 낮은 단계의 버전이 출시될 것이라는 점이다.
최근 Alimama의 크리에이티브 팀은 FLUX.1-dev 모델을 기반으로 훈련된 8단계 증류 Lora 모델인 FLUX.1-Turbo-Alpha를 출시했습니다.
이 모델은 다중 헤드 판별기를 사용하여 증류 품질을 크게 향상시키고 텍스트-이미지 생성 및 수리 제어 네트워크와 같은 다양한 FLUX 관련 애플리케이션을 지원합니다. 팀에서는 가이드 스케일을 3.5로 설정하고 Lora 스케일을 1로 설정할 것을 권장합니다. 앞으로 단계 수가 더 적은 버전이 출시될 예정입니다.
FLUX.1-Turbo-Alpha는 Diffusers 프레임워크와 함께 직접 사용할 수 있습니다. 사용자는 단 몇 줄의 코드만으로 모델을 로드하고 필요한 이미지를 생성할 수 있습니다. 예를 들어, 가죽 재킷, 카우보이 모자, 체크 무늬 스커트, 리본을 착용하고 도시 풍경이 그려진 세련된 폭스바겐 밴 앞에 서서 웃고 있는 나무늘보의 재미있는 장면을 만들 수 있습니다. 간단히 매개변수를 조정하면 1024x1024 해상도의 고품질 이미지를 생성할 수 있습니다.
또한 이 모델은 ComfyUI와도 호환되며 빠른 텍스트-이미지 워크플로우에 사용하거나 수리 제어 네트워크에서 보다 효율적인 생성 효과를 달성하는 데 사용할 수 있습니다. 이 기술을 통해 생성된 이미지는 원본 출력을 밀접하게 따를 수 있어 사용자의 창의적인 경험이 향상됩니다.
FLUX.1-Turbo-Alpha의 훈련 과정도 마찬가지로 인상적입니다. 이 모델은 오픈 소스 및 내부 소스의 100만 개가 넘는 이미지를 대상으로 훈련되었으며, 미적 점수는 6.3 이상, 해상도는 모두 800 이상입니다. 팀은 이미지 품질을 향상시키기 위해 학습 과정에서 적대적 학습 방법을 채택했으며 각 트랜스포머 레이어에 멀티 헤드 설계를 추가했습니다. 훈련 중 부트스트랩 스케일은 3.5, 시간 오프셋은 3, 혼합 정밀도 bf16, 학습률은 2e-5, 배치 크기는 64, 이미지 크기는 1024x1024로 고정되었습니다.
FLUX.1-Turbo-Alpha의 출시는 Alimama가 이미지 생성 분야에서 또 다른 돌파구를 마련하여 인공 지능 기술의 대중화와 적용을 촉진하는 것입니다.
프로젝트 입구: https://huggingface.co/alimama-creative/FLUX.1-Turbo-Alpha
가장 밝은 부분:
이 모델은 FLUX.1-dev를 기반으로 하며 8단계 증류 및 다중 헤드 판별기를 사용하여 이미지 생성 품질을 향상시킵니다.
텍스트-이미지 생성 및 복구 제어 네트워크를 지원하여 사용자는 다양하고 흥미로운 장면을 쉽게 만들 수 있습니다.
? 훈련 프로세스는 적대적 훈련을 사용하며 훈련 데이터는 모델의 고품질 출력을 보장하기 위해 100만 개를 초과합니다.
전체적으로 FLUX.1-Turbo-Alpha는 고효율, 고품질 이미지 생성 기능과 편리하고 사용하기 쉬운 기능을 통해 이미지 생성 분야에 새로운 가능성을 제공합니다. 관심 있는 사용자는 Hugging Face 페이지로 이동하여 이 강력한 모델을 경험할 수 있습니다. Downcodes의 편집자는 인공 지능 분야에서 Alibaba의 최신 진행 상황에 계속해서 관심을 기울이고 더욱 흥미로운 보고서를 제공할 것입니다.