การสร้างภาพ AI เปิดตัวนเรศวรคนใหม่! รุ่นโอเพ่นซอร์ส FLUX.1 ถือกำเนิดขึ้น Midjourney และ DALL·E 3 กังวลใจหรือไม่

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-05 17:16:01

ขอบเขตของการสร้างภาพปัญญาประดิษฐ์กำลังเปลี่ยนแปลงไปในแต่ละวัน หลังจากการอัปเดต Midjourney โมเดลโอเพ่นซอร์ส FLUX.1 ก็มาถึงแล้ว กล่าวกันว่ามีประสิทธิภาพเหนือกว่าโมเดลแบบปิด เช่น DALL·E3 และ Midjourney V6 เช่นกัน เป็นซีรีส์โอเพ่นซอร์ส SD3 ซึ่งดึงดูดความสนใจอย่างกว้างขวางในอุตสาหกรรม บรรณาธิการของ Downcodes จะทำให้คุณเข้าใจอย่างลึกซึ้งเกี่ยวกับผลงานชิ้นเอกชิ้นใหม่นี้ที่สร้างขึ้นโดย Robin Rombach ผู้เชี่ยวชาญที่เชื่อถือได้ในด้านโมเดลการแพร่กระจาย เช่นเดียวกับนวัตกรรมทางเทคโนโลยีและโอกาสในอนาคตที่อยู่เบื้องหลัง

ในด้านปัญญาประดิษฐ์ การเปลี่ยนแปลงที่ก่อกวนสามารถเกิดขึ้นได้ทุกวัน เพียงวันเดียวหลังจากการอัปเดตครั้งใหญ่ของ Midjourney ขอบเขตของการสร้างภาพโอเพ่นซอร์สก็เริ่มต้นขึ้นในม้ามืด FLUX.1 ที่สะดุดตา ผู้เล่นใหม่อย่างกะทันหันนี้ไม่เพียงแต่อ้างว่าเหนือกว่ารุ่นโอเพ่นซอร์สเช่น DALL·E3 และ Midjourney V6 อย่างมีนัยสำคัญในแง่ของประสิทธิภาพ แต่ยังทำลายซีรีส์ SD3 โอเพ่นซอร์สทั้งหมด และจุดชนวนวงกลม AI ทันที

ก่อนอื่นมาทำความรู้จักกับผู้บงการเบื้องหลัง FLUX.1 กันก่อน Robin Rombach ผู้ก่อตั้งไม่ใช่บุคคลที่ไม่รู้จัก แต่เป็นผู้เชี่ยวชาญที่เชื่อถือได้ในสาขาแบบจำลองการแพร่กระจาย ผลงานที่เป็นตัวแทนของเขา ได้แก่ VQGAN, Taming Transformers และ Latent Diffusion ครั้งหนึ่งเขาเคยดำรงตำแหน่งหัวหน้านักวิทยาศาสตร์ของ Stability AI และเป็นผู้นำโครงการชุด Stable Diffusion ที่โด่งดังไปทั่วโลก อาจกล่าวได้ว่า Robin Rombach เป็นนักขับที่มีประสบการณ์ในหมู่นักขับที่มีประสบการณ์ในด้านการสร้างภาพ AI

ในเดือนมีนาคมของปีนี้ เนื่องจากความวุ่นวายภายในของ Stability AI ทำให้ Robin ตัดสินใจลาออก หลังจากทำงานหนักมาสี่เดือน เขากลับมาพร้อมกับแพลตฟอร์มโมเดลโอเพ่นซอร์สขนาดใหญ่ FLUX.1 ใหม่ สิ่งที่น่าแปลกใจยิ่งกว่านั้นคือเมื่อเปิดตัว FLUX.1 ได้รับเงินทุนสนับสนุนจำนวน 32 ล้านดอลลาร์สหรัฐ ซึ่งนำโดย Andreessen Horowitz สถาบันร่วมลงทุนที่มีชื่อเสียง สิ่งนี้จะช่วยส่งเสริมการพัฒนา FLUX.1 ในอนาคตอย่างไม่ต้องสงสัย

แล้วอะไรคือความโดดเด่นของ FLUX.1 ประการแรก มันใช้สถาปัตยกรรม Vision Transformer ใช้วิธีการฝึกจับคู่กระบวนการ และใช้การฝังตำแหน่งการหมุนและเลเยอร์ความสนใจแบบขนานเพื่อปรับปรุงประสิทธิภาพของโมเดลและประสิทธิภาพการใช้งานฮาร์ดแวร์ โมเดลพารามิเตอร์ 12 พันล้านนี้เปิดตัวใน 3 เวอร์ชัน:

รุ่น Pro: ใช้ผ่าน API พร้อมประสิทธิภาพที่ทรงพลังที่สุด
เวอร์ชันสำหรับการพัฒนา: โมเดลการกลั่นที่แนะนำที่ไม่ใช่เชิงพาณิชย์ซึ่งสืบทอดประสิทธิภาพส่วนใหญ่ของเวอร์ชัน Pro
เวอร์ชัน Schnell: โมเดลโอเพ่นซอร์สที่สามารถนำมาใช้ในเชิงพาณิชย์และมีประสิทธิภาพที่ยอดเยี่ยม

จากข้อมูลการทดสอบของทีม FLUX.1 แม้แต่เวอร์ชันโอเพ่นซอร์ส Schnell ยังเหนือกว่า Midjourney v6.0 และ DALL·E3 (HD) ในแง่ของการกู้คืนความหมายของข้อความ คุณภาพของภาพ ความสอดคล้องของการดำเนินการ ความเชื่อมโยงและความหลากหลาย และโมเดลกระแสหลัก เช่น SD3-Ultra โดยเฉพาะอย่างยิ่งในการฝังข้อความลงในรูปภาพ FLUX.1 แสดงให้เห็นข้อดีที่ชัดเจน

ที่นี่ AIbase ได้เลือกการแสดงเอฟเฟกต์การสร้างอย่างเป็นทางการหลายรายการเพื่อเป็นข้อมูลอ้างอิงของคุณ:

ภาพถ่ายจริง

AIbase ทดสอบนักบุญอุปถัมภ์แมวคนก่อน และไม่มีปัญหาเลย FLUX.1 เข้าใจคำที่แจ้งได้แม่นยำยิ่งขึ้น

แน่นอนว่าความทะเยอทะยานของ FLUX.1 ไม่ได้หยุดอยู่แค่นั้น ทีมงานกล่าวว่า Vincent Picture เป็นเพียงจุดเริ่มต้น ในอนาคต พวกเขายังวางแผนที่จะเปิดตัวโมเดล Vincent Video เพื่อท้าทายผลิตภัณฑ์แนวแรก เช่น Sora, Gen-3 และ Luma

สำหรับนักพัฒนาและผู้ที่ชื่นชอบ AI การเกิดขึ้นของ FLUX.1 ถือเป็นผลประโยชน์ที่สำคัญอย่างไม่ต้องสงสัย เวอร์ชัน Schnell เป็นโอเพ่นซอร์สเต็มรูปแบบและได้รับการสนับสนุนโดย Comfyui หากคุณมีหน่วยความจำวิดีโอมากกว่า 36G คุณสามารถเรียกใช้ t5 เวอร์ชัน fp16 ได้ อย่างไรก็ตาม ควรสังเกตว่าต้องดาวน์โหลด t5xxl_fp16.safetensors หรือ clip_l.safetensors และ VAE แยกต่างหาก

การเกิดขึ้นของ FLUX.1 ไม่เพียงแต่นำความหวังใหม่มาสู่วงการการสร้างภาพ AI แบบโอเพ่นซอร์สเท่านั้น แต่ยังเพิ่มพลังใหม่ให้กับอุตสาหกรรม AI ทั้งหมดอีกด้วย ประสิทธิภาพอันทรงพลังและฟีเจอร์โอเพ่นซอร์สมีแนวโน้มที่จะเร่งความนิยมและนวัตกรรมของเทคโนโลยีการสร้างภาพ AI สำหรับผู้ใช้ทั่วไป นั่นหมายความว่าเราอาจจะสามารถรันโมเดลการสร้างภาพ AI บนคอมพิวเตอร์ที่บ้านของเราได้ในไม่ช้า ซึ่งเทียบเท่าหรือเหนือกว่า Midjourney อีกด้วย

ที่อยู่โครงการ: https://github.com/black-forest-labs/flux

ที่อยู่การทดลองใช้: https://replicate.com/black-forest-labs/flux-pro

เวิร์กโฟลว์ Comfyui: https://comfyanonymous.github.io/ComfyUI_examples/flux/

โดยรวมแล้ว การเกิดขึ้นของ FLUX.1 ถือเป็นก้าวใหม่ในด้านการสร้างภาพ AI แบบโอเพ่นซอร์ส ประสิทธิภาพอันทรงพลังและฟีเจอร์โอเพ่นซอร์สจะส่งเสริมความนิยมและการพัฒนาเทคโนโลยีการสร้างภาพ AI อย่างมาก เราหวังว่าจะ FLUX.1 นำเสนอความประหลาดใจเพิ่มเติมในอนาคต!