Downcodes의 편집자는 Stability AI가 최근 텍스트-이미지 생성 모델인 Stable Diffusion 3.5를 출시했다는 사실을 알게 되었습니다. 여기에는 Stable Diffusion 3.5 Large, Stable Diffusion 3.5 Large Turbo 및 Stable Diffusion 3.5 Medium의 세 가지 버전이 포함되어 있습니다. 전문가부터 일반 매니아까지 다양한 사용자가 있습니다. 이번 업데이트는 이전 버전의 단점에 대한 Stability AI의 대응으로 OpenAI의 DALL-E, Midjourney 등의 플랫폼과 경쟁력을 높이고 경쟁하는 것을 목표로 하고 있습니다. 새 모델은 이미지 품질, 생성 속도 및 사용 편의성이 크게 향상되었으며 쿼리 키 정규화 기술을 도입하여 모델의 사용자 정의 및 프롬프트에 대한 응답성을 향상시켰습니다.
Stability AI는 최근 최신 딥 러닝 텍스트-이미지 생성 모델인 Stable Diffusion3.5를 출시했습니다. 이 릴리스에는 연구원, 기업 고객 및 매니아를 포함한 다양한 사용자의 요구 사항을 충족하도록 설계된 세 가지 향상된 오픈 소스 모델이 포함되어 있습니다.
그중 Stable Diffusion3.5Large는 전체 시리즈 중 가장 강력한 모델로, 매개변수가 81억에 달합니다. 이 모델은 뛰어난 이미지 품질과 프롬프트에 대한 높은 응답성으로 인해 전문 사용자에게 이상적이며 최대 1메가픽셀의 해상도로 고품질 이미지를 생성할 수 있습니다.
또한 Stable Diffusion3.5Large Turbo는 Stable Diffusion3.5Large를 단순화한 버전입니다. 고품질 이미지를 생성하는 동시에 속도가 크게 향상되었습니다. 단 4단계만 거치면 이전 버전보다 효율적이며 빠르게 생성해야 하는 사용자에게 적합합니다.
또 다른 새로운 모델은 25억 개의 매개변수를 가진 Stable Diffusion3.5Medium입니다. 이 모델은 향상된 MMDiT-X 아키텍처 및 교육 방법을 사용하며 "즉시 사용 가능"하고 소비자급 하드웨어에서도 원활하게 실행되도록 설계되었습니다. 이미지 생성 품질과 사용자 정의 용이성 간의 적절한 균형을 유지하여 0.25~2메가픽셀의 이미지를 생성합니다.
이번 출시의 배경은 Stable Diffusion3Medium의 6월 출시가 기대에 미치지 못한 후 Stability AI가 보다 혁신적인 솔루션을 출시하기로 결정했다는 것입니다. 회사는 OpenAI의 DALL-E, Midjourney 등 플랫폼의 도전에 맞서 이번 업데이트를 통해 시장 경쟁력을 회복할 수 있기를 희망한다고 밝혔습니다.
새 모델의 중요한 기술 혁신은 쿼리 키 정규화 기술의 도입입니다. 이 혁신은 모델 사용자 정의 및 프롬프트에 대한 응답성을 향상시켜 사용자가 명시적인 프롬프트를 사용하여 보다 일관된 결과를 얻을 수 있을 뿐만 아니라 더 넓은 프롬프트를 사용할 때 더 풍부한 이미지 해석을 얻을 수 있도록 합니다.
Stable Diffusion3.5 모델 시리즈는 Stability AI의 커뮤니티 라이센스에 따라 출시되어 사용자가 비상업적 용도로 무료로 사용할 수 있습니다. 동시에, 연간 수익이 미화 100만 달러 미만인 기업도 무료로 사용할 수 있으며, 이 소득을 초과하는 사용자는 기업 라이선스를 신청해야 합니다.
모든 모델과 자체 호스팅에 필요한 가중치는 Hugging Face 및 Stability AI의 API에서 사용할 수 있습니다. 또한 고급 이미지 사용자 정의 옵션을 제공하는 ControlNets 기능은 며칠 내에 출시될 예정입니다.
공식 입장:
https://stability.ai/stable-image
Hugging Face 입구의 세 가지 버전:
https://huggingface.co/stabilityai/stable-diffusion-3.5-large
https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo
https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
전체적으로 Stable Diffusion 3.5 시리즈의 출시는 텍스트-이미지 생성 기술의 중요한 발전을 의미하며 사용자에게 더 많은 선택권과 더 강력한 기능을 제공합니다. Downcodes의 편집자는 앞으로 더욱 혁신적인 기능이 등장할 것을 기대합니다.