การพัฒนาครั้งสำคัญเกิดขึ้นในด้านการวาดภาพด้วย AI! บรรณาธิการของ Downcodes นำเสนอข่าวสารล่าสุดแก่คุณ: คาดว่าเทคโนโลยีที่เป็นนวัตกรรมที่เรียกว่า REPA (REPresentation Alignment) จะเพิ่มประสิทธิภาพการฝึกอบรมของแบบจำลองการแพร่กระจายได้ 17.5 เท่า! เทคโนโลยีนี้ช่วยปรับปรุงความเข้าใจของแบบจำลองเกี่ยวกับข้อมูลความหมายของภาพได้อย่างมาก โดยการแนะนำตัวเข้ารหัสภาพที่ได้รับการฝึกอบรมล่วงหน้า ซึ่งช่วยลดระยะเวลาการฝึกอบรมได้อย่างมาก และปรับปรุงคุณภาพของภาพที่สร้างขึ้น สิ่งนี้จะส่งเสริมการประยุกต์ใช้และการพัฒนาเทคโนโลยีการวาดภาพ AI อย่างมาก และนำความเป็นไปได้มาสู่นักพัฒนาและนักวิจัยมากขึ้น
Diffusion Model ซึ่งเป็นเทคโนโลยีชั้นนำในด้านการวาดภาพด้วย AI ได้รับความสนใจมาโดยตลอดเนื่องจากเอฟเฟกต์การสร้างที่ยอดเยี่ยม อย่างไรก็ตาม กระบวนการฝึกอบรมที่ยาวนานมักเป็นคอขวดที่จำกัดการพัฒนาต่อไป
เมื่อเร็วๆ นี้ เทคโนโลยีที่เป็นนวัตกรรมที่เรียกว่า REPA (REPresentation Alignment) ได้นำมาซึ่งความก้าวหน้าครั้งสำคัญในการแก้ปัญหานี้ และคาดว่าจะเพิ่มประสิทธิภาพการฝึกอบรมของแบบจำลองการแพร่กระจายได้ 17.5 เท่า
หลักการสำคัญของโมเดลการแพร่กระจายคือการค่อยๆ เพิ่มจุดรบกวนให้กับภาพ จากนั้นฝึกโมเดลเพื่อคืนภาพที่คมชัดกลับด้าน แม้ว่าวิธีการนี้จะมีประสิทธิภาพ แต่กระบวนการฝึกอบรมก็ใช้เวลานานและต้องใช้แรงงานมาก โดยมักจะต้องทำซ้ำหลายล้านครั้งเพื่อให้ได้ผลลัพธ์ตามที่ต้องการ
นักวิจัยพบว่าต้นตอของปัญหานี้อยู่ที่ความไร้ประสิทธิภาพของแบบจำลองในการทำความเข้าใจข้อมูลความหมายของภาพในระหว่างกระบวนการเรียนรู้
นวัตกรรมของเทคโนโลยี REPA คือการนำเครื่องเข้ารหัสภาพที่ได้รับการฝึกอบรมมาล่วงหน้า (เช่น DINOv2) มาใช้เป็นแว่นตาเปอร์สเปคทีฟสำหรับโมเดลเพื่อเรียนรู้ข้อมูลความหมายของภาพ ด้วยวิธีการนี้ โมเดลการแพร่กระจายสามารถเปรียบเทียบความเข้าใจของตัวเองเกี่ยวกับภาพกับผลลัพธ์ของตัวเข้ารหัสที่ได้รับการฝึกล่วงหน้าในระหว่างกระบวนการฝึกอบรมได้อย่างต่อเนื่อง ซึ่งจะช่วยเร่งการเรียนรู้คุณลักษณะที่สำคัญของภาพ
ผลการทดลองน่าตื่นเต้น:
ประสิทธิภาพการฝึกได้รับการปรับปรุงอย่างมาก: หลังจากใช้ REPA ความเร็วการฝึกของแบบจำลองการแพร่กระจาย SiT จะเพิ่มขึ้น 17.5 เท่า เอฟเฟกต์ที่แต่เดิมต้องใช้ 7 ล้านก้าว ตอนนี้สามารถทำได้ในเวลาเพียง 400,000 ก้าว
การปรับปรุงคุณภาพการสร้างอย่างมีนัยสำคัญ: REPA ไม่เพียงแต่เพิ่มความเร็วการฝึกอบรม แต่ยังปรับปรุงคุณภาพของภาพที่สร้างขึ้นอีกด้วย ตัวชี้วัด FID ซึ่งเป็นตัวชี้วัดสำคัญของคุณภาพของภาพที่สร้างขึ้น ลดลงจาก 2.06 เป็น 1.80 และในบางกรณีถึงระดับบนสุดที่ 1.42 อีกด้วย
ใช้งานง่ายและเข้ากันได้สูง: วิธีการ REPA นั้นใช้งานง่าย เพียงเพิ่มเงื่อนไขการทำให้เป็นมาตรฐานในระหว่างกระบวนการฝึกอบรม นอกจากนี้ยังสามารถใช้งานร่วมกับเครื่องเข้ารหัสภาพที่ผ่านการฝึกอบรมมาแล้วหลายประเภทเพื่อการใช้งานที่หลากหลาย
การเกิดขึ้นของเทคโนโลยี REPA ได้นำความเป็นไปได้ใหม่ๆ มาสู่ขอบเขตการวาดภาพด้วย AI:
เร่งการพัฒนาแอปพลิเคชันการลงสีด้วย AI: ความเร็วในการฝึกอบรมที่เร็วขึ้นหมายความว่านักพัฒนาสามารถทำซ้ำและเพิ่มประสิทธิภาพโมเดลการลงสีด้วย AI ได้รวดเร็วยิ่งขึ้น ซึ่งเร่งการเปิดตัวแอปพลิเคชันใหม่ ๆ ได้เร็วขึ้น
ปรับปรุงคุณภาพของภาพ: ด้วยการทำความเข้าใจความหมายของภาพอย่างลึกซึ้งยิ่งขึ้น REPA จะช่วยสร้างภาพที่สมจริงและมีรายละเอียดมากขึ้น
ส่งเสริมการผสมผสานระหว่างแบบจำลองที่เลือกปฏิบัติและแบบจำลองเชิงกำเนิด: REPA แนะนำความสามารถในการฝึกตัวเข้ารหัสภาพล่วงหน้าสำหรับแบบจำลองการแพร่กระจาย การผสมผสานนี้อาจสร้างแรงบันดาลใจให้เกิดนวัตกรรมมากขึ้นในประเภทของแบบจำลอง และส่งเสริมการพัฒนาเทคโนโลยี AI ในทิศทางที่ชาญฉลาดยิ่งขึ้น
ลดต้นทุนการฝึกอบรม AI: การปรับปรุงประสิทธิภาพการฝึกอบรมแปลโดยตรงเป็นการประหยัดเวลาและต้นทุนพลังงานในการประมวลผล ซึ่งอาจเปิดโอกาสให้นักวิจัยและนักพัฒนามีส่วนร่วมในการพัฒนาเทคโนโลยีการวาดภาพ AI มากขึ้น
ขยายขอบเขตการใช้งานของการวาดภาพด้วย AI: กระบวนการฝึกอบรมที่มีประสิทธิภาพมากขึ้นอาจทำให้เทคโนโลยีการวาดภาพด้วย AI สามารถนำไปใช้ในสาขาต่างๆ ได้มากขึ้น เช่น การสร้างภาพแบบเรียลไทม์ การออกแบบเฉพาะบุคคล เป็นต้น
ที่อยู่กระดาษ: https://arxiv.org/pdf/2410.06940
ความก้าวหน้าที่ก้าวล้ำของเทคโนโลยี REPA ได้นำรุ่งอรุณใหม่มาสู่วงการการวาดภาพด้วย AI ให้เราตั้งตารอการพัฒนาเทคโนโลยีการวาดภาพด้วย AI อย่างแข็งแกร่งในอนาคต! เครื่องมือแก้ไข Downcodes จะยังคงให้ความสนใจและนำเสนอรายงานที่น่าตื่นเต้นยิ่งขึ้นให้กับคุณ