Llamagen ซึ่งเป็นรูปแบบการสร้างภาพอัตโนมัติที่พัฒนาร่วมกันโดยมหาวิทยาลัยฮ่องกงและบัพเทนซ์กำลังเปิดตัวการปฏิวัติในด้านการสร้างภาพ ในฐานะที่เป็นงานนวัตกรรมที่อิงกับสถาปัตยกรรม Llama ไม่เพียง แต่จะผ่านข้อ จำกัด ของรูปแบบการแพร่กระจายแบบดั้งเดิมในเทคโนโลยี แต่ยังกระตุ้นการตอบสนองที่กระตือรือร้นในชุมชนโอเพ่นซอร์ส
ในเกณฑ์มาตรฐานการทดสอบของ Imagenet Llamagen เหนือกว่ารูปแบบการแพร่กระจายหลักเช่น LDM และ DIT ที่มีประสิทธิภาพที่ยอดเยี่ยม ด้วยการฝึกฝน Tokenizer ภาพใหม่ Llamagen ได้รับข้อได้เปรียบที่สำคัญในชุดข้อมูล Imagenet และ Coco และประสิทธิภาพของมันก็เกินกว่ารุ่นที่รู้จักกันดีเช่น Vqgan, Vit-Vqgan และ Maskgi
ความสำเร็จของ Llamagen สร้างขึ้นบนเสาหลักสามเสาหลัก: การบีบอัดภาพขั้นสูง/ปริมาณแบบจำลองการสร้างภาพที่ปรับขนาดได้และข้อมูลการฝึกอบรมที่มีคุณภาพสูง ทีมวิจัยใช้สถาปัตยกรรม CNN คล้ายกับ VQ-GAN เพื่อแปลงภาพต่อเนื่องเป็นโทเค็นที่ไม่ต่อเนื่อง
ในระยะแรกของการฝึกอบรมลามาเจนได้รับการฝึกฝนเกี่ยวกับชุดย่อย 50 เมตรของ Laion-Coco ด้วยความละเอียดของภาพ 256 × 256 ทีมวิจัยมั่นใจได้ถึงคุณภาพของข้อมูลการฝึกอบรมผ่านมาตรฐานการคัดกรองที่เข้มงวดรวมถึง URL ภาพที่มีประสิทธิภาพคะแนนความงามคะแนนลายน้ำ ฯลฯ ขั้นตอนที่สองคือการปรับแต่งภาพคุณภาพสูงภายใน 10 ล้านสเกลเพิ่มความละเอียดของภาพเป็น 512 × 512 เพื่อเพิ่มประสิทธิภาพการสร้าง
ข้อได้เปรียบหลักของ Llamagen คือภาพที่ยอดเยี่ยมของ Tokenizer และความสามารถในการปรับขนาดของสถาปัตยกรรม Llama ในการทดสอบรุ่นจริงลามาเจนแสดงให้เห็นถึงความสามารถในการแข่งขันที่แข็งแกร่งในตัวชี้วัดที่สำคัญเช่น FID คือความแม่นยำและการเรียกคืน เมื่อเปรียบเทียบกับโมเดล Autoregressive ก่อนหน้า Llamagen ดำเนินการอย่างยอดเยี่ยมในคำสั่งซื้อพารามิเตอร์ทั้งหมดตั้งค่าเกณฑ์มาตรฐานใหม่สำหรับการสร้างภาพ
แม้ว่าลามาเจนจะได้ผลลัพธ์ที่น่าทึ่ง แต่ทีมวิจัยกล่าวว่านี่เป็นเพียงจุดเริ่มต้นของระยะการแพร่กระจาย V1 ที่มั่นคง ทิศทางการพัฒนาในอนาคตจะรวมถึงการสนับสนุนความละเอียดที่สูงขึ้นอัตราส่วนมุมมองที่มากขึ้นการควบคุมที่แข็งแกร่งและพื้นที่ใหม่เช่นการสร้างวิดีโอ แผนเหล่านี้บ่งชี้ว่าลามาเจนจะยังคงเป็นผู้นำด้านนวัตกรรมในเทคโนโลยีการสร้างภาพในสาขาที่กว้างขึ้น
ในปัจจุบัน Llamagen ได้รับการเปิดเพื่อประสบการณ์ออนไลน์และผู้ใช้สามารถสัมผัสกับเทคโนโลยีการปฏิวัตินี้เป็นการส่วนตัวผ่านพื้นที่ Llamagen ในการกอดใบหน้า ในเวลาเดียวกันการเปิดตัวโอเพ่นซอร์สของลามาเจนยังเป็นแพลตฟอร์มสำหรับนักพัฒนาทั่วโลกและนักวิจัยในการเข้าร่วมและมีส่วนร่วมร่วมกันส่งเสริมความก้าวหน้าของเทคโนโลยีการสร้างภาพ ที่อยู่โครงการและที่อยู่ประสบการณ์ออนไลน์คือ: https://top.aibase.com/tool/llamagen และ https://huggingface.co/spaces/foundationvision/llamagen ตามลำดับ