โมเดลโอเพ่นซอร์ส RWKV-CLIP ล่าสุดของ Green Deep Learning ได้แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งในด้านการเรียนรู้การนำเสนอภาษาด้วยภาพ ด้วยการออกแบบที่เป็นนวัตกรรมที่ผสานรวมสถาปัตยกรรม Transformer และ RNN โมเดลนี้แก้ปัญหาข้อมูลรบกวนได้อย่างมีประสิทธิภาพ และปรับปรุงความแข็งแกร่งของโมเดลและประสิทธิภาพงานดาวน์สตรีมได้อย่างมาก ด้วยการรวมสถาปัตยกรรมตึกแฝด โมดูลการผสมเชิงพื้นที่และการผสมช่องสัญญาณ และเฟรมเวิร์กการสร้างคำอธิบายที่หลากหลายอย่างชาญฉลาด มีความก้าวหน้าอย่างมากในการจับคู่และทำความเข้าใจข้อความรูปภาพและข้อความ ซึ่งเป็นแนวทางใหม่สำหรับการวิจัยและการประยุกต์ใช้แบบจำลองภาษาภาพ
Gelingshntong ได้เปิดซอร์สโมเดล RWKV-CLIP ซึ่งเป็นผู้เรียนแทนภาษาภาพที่ผสมผสานข้อดีของ Transformer และ RNN แบบจำลองนี้ปรับปรุงประสิทธิภาพงานด้านภาพและภาษาได้อย่างมาก โดยขยายชุดข้อมูลโดยใช้คู่ข้อความรูปภาพที่ได้รับจากเว็บไซต์ผ่านงานฝึกอบรมก่อนรูปภาพและข้อความ
เพื่อแก้ไขปัญหาข้อมูลรบกวนและปรับปรุงคุณภาพข้อมูล ทีมวิจัยได้แนะนำเฟรมเวิร์กการสร้างคำอธิบายที่หลากหลายซึ่งใช้ประโยชน์จากโมเดลภาษาขนาดใหญ่ (LLM) เพื่อสังเคราะห์และปรับปรุงเนื้อหาจากข้อความบนเว็บ คำบรรยายสังเคราะห์ และแท็กที่ตรวจพบ
โมเดล RWKV-CLIP ใช้สถาปัตยกรรมตึกแฝด ซึ่งผสานรวมการฝึกอบรมแบบขนานที่มีประสิทธิภาพของ Transformer และการอนุมานที่มีประสิทธิภาพของ RNN แบบจำลองนี้ซ้อนกันด้วยโมดูลการผสมเชิงพื้นที่และโมดูลการผสมช่องสัญญาณหลายช่อง ซึ่งช่วยให้สามารถประมวลผลรูปภาพและข้อความอินพุตในเชิงลึกได้ ในขั้นตอนการผสมเชิงพื้นที่ แบบจำลองจะใช้กลไกความสนใจในการคำนวณความซับซ้อนเชิงเส้นทั่วโลก และเสริมสร้างปฏิสัมพันธ์ของคุณลักษณะในระดับช่องสัญญาณ ขั้นตอนการผสมช่องช่วยปรับแต่งการแสดงคุณสมบัติเพิ่มเติม ในแง่ของการปรับปรุงอินพุต โมเดล RWKV-CLIP จะปรับปรุงความทนทานของโมเดลโดยการสุ่มเลือกข้อความต้นฉบับ คำบรรยายสังเคราะห์ หรือคำอธิบายที่สร้างขึ้นเป็นการป้อนข้อความ
ผลการทดลองแสดงให้เห็นว่า RWKV-CLIP บรรลุประสิทธิภาพที่ล้ำสมัยในงานดาวน์สตรีมหลายงาน รวมถึงการตรวจจับเชิงเส้น การจัดหมวดหมู่ภาพเป็นศูนย์ และการดึงข้อความภาพเป็นภาพศูนย์ เมื่อเปรียบเทียบกับรุ่นพื้นฐาน RWKV-CLIP มีการปรับปรุงประสิทธิภาพที่สำคัญ
การวิเคราะห์ข้ามโมดัลของโมเดล RWKV-CLIP แสดงให้เห็นว่าการนำเสนอที่เรียนรู้นั้นมีการแบ่งแยกที่ชัดเจนยิ่งขึ้นภายในรูปแบบเดียวกัน และแสดงระยะทางที่ใกล้กว่าในพื้นที่โมดิลิตีข้อความรูปภาพ ซึ่งบ่งบอกถึงประสิทธิภาพการจัดตำแหน่งแบบข้ามโมดัลที่ดีขึ้น
ที่อยู่รุ่น: https://wisemodel.cn/models/deepglint/RWKV-CLIP
โดยรวมแล้ว โมเดล RWKV-CLIP แสดงให้เห็นถึงศักยภาพที่ยอดเยี่ยมในด้านภาษาภาพ และโอเพ่นซอร์สยังเป็นแหล่งทรัพยากรที่มีคุณค่าสำหรับการวิจัยที่เกี่ยวข้องอีกด้วย นักพัฒนาที่สนใจสามารถเยี่ยมชมลิงค์ที่ให้ไว้เพื่อดาวน์โหลดแบบจำลองและดำเนินการวิจัยและแอปพลิเคชันเพิ่มเติม