ทีมวิจัย Salesforce AI เปิดตัวโมเดลภาษาหลายรูปแบบล่าสุด Blip-3-Video โดยมีเป้าหมายที่จะประมวลผลข้อมูลวิดีโอที่เพิ่มขึ้นอย่างมีประสิทธิภาพ รูปแบบการทำความเข้าใจวิดีโอแบบดั้งเดิมนั้นไม่มีประสิทธิภาพ การย้ายครั้งนี้ช่วยแก้ปัญหาการจัดการกับวิดีโอยาว ๆ และให้ความสามารถในการทำความเข้าใจวิดีโอที่แข็งแกร่งขึ้นสำหรับอุตสาหกรรมเช่นการขับขี่และความบันเทิงแบบอิสระ
เมื่อเร็ว ๆ นี้ทีมวิจัย Salesforce AI ได้เปิดตัวรูปแบบภาษาหลายรูปแบบใหม่-Blip-3-Video ด้วยการเพิ่มขึ้นอย่างรวดเร็วของเนื้อหาวิดีโอวิธีการประมวลผลข้อมูลวิดีโอได้อย่างมีประสิทธิภาพกลายเป็นปัญหาเร่งด่วน การเกิดขึ้นของรุ่นนี้ได้รับการออกแบบมาเพื่อปรับปรุงประสิทธิภาพและประสิทธิผลของการทำความเข้าใจวิดีโอและเหมาะสำหรับอุตสาหกรรมตั้งแต่การขับขี่แบบอิสระไปจนถึงความบันเทิง
โมเดลการทำความเข้าใจวิดีโอแบบดั้งเดิมมักจะประมวลผลวิดีโอทีละเฟรมสร้างข้อมูลภาพจำนวนมาก กระบวนการนี้ไม่เพียง แต่ใช้ทรัพยากรคอมพิวเตอร์จำนวนมากเท่านั้น แต่ยังจำกัดความสามารถในการประมวลผลวิดีโอที่ยาวนานได้อย่างมาก เมื่อปริมาณข้อมูลวิดีโอยังคงเติบโตอย่างต่อเนื่องวิธีการนี้จะไม่มีประสิทธิภาพมากขึ้นดังนั้นจึงเป็นสิ่งสำคัญในการค้นหาวิธีแก้ปัญหาที่จับข้อมูลที่สำคัญของวิดีโอในขณะที่ลดภาระการคำนวณ
ในเรื่องนี้ Blip-3-Video ทำได้ค่อนข้างดี ด้วยการแนะนำ "ตัวเข้ารหัสลำดับเวลา" โมเดลจะลดปริมาณข้อมูลภาพที่จำเป็นในวิดีโอได้สำเร็จเป็นเครื่องหมายภาพ 16 ถึง 32 การออกแบบที่เป็นนวัตกรรมนี้ช่วยปรับปรุงประสิทธิภาพการคำนวณอย่างมากทำให้โมเดลสามารถทำงานวิดีโอที่ซับซ้อนได้ในราคาที่ต่ำกว่า ตัวเข้ารหัสเวลานี้ใช้กลไกการรวมความสนใจเชิงพื้นที่ที่เรียนรู้ได้ซึ่งแยกข้อมูลที่สำคัญที่สุดจากแต่ละเฟรมและรวมเข้ากับชุดเครื่องหมายภาพขนาดกะทัดรัด
Blip-3-Video ทำได้ดีมาก จากการเปรียบเทียบกับโมเดลขนาดใหญ่อื่น ๆ การศึกษาพบว่าแบบจำลองมีอัตราความแม่นยำของโมเดลชั้นนำที่เทียบเท่าในงานคำถามและคำตอบวิดีโอ ตัวอย่างเช่นโมเดล Tarsier-34B ต้องการ 4608 คะแนนในการประมวลผลวิดีโอ 8 เฟรมในขณะที่ BLIP-3-Video ต้องการเพียง 32 คะแนนเพื่อให้ได้คะแนนมาตรฐาน MSVD-QA 77.7% สิ่งนี้แสดงให้เห็นว่า BLIP-3-Video ช่วยลดการใช้ทรัพยากรอย่างมีนัยสำคัญในขณะที่ยังคงประสิทธิภาพสูง
นอกจากนี้ประสิทธิภาพของ Blip-3-Video ในงานคำถามและคำตอบไม่ควรประเมินต่ำเกินไป ในชุดข้อมูล -QA ถัดไปโมเดลได้คะแนนสูง 77.1%ในขณะที่ในชุดข้อมูล TGIF-QA มันยังได้รับอัตราความแม่นยำ 77.1% ข้อมูลทั้งหมดเหล่านี้บ่งชี้ถึงประสิทธิภาพของ Blip-3-Video เมื่อจัดการกับปัญหาวิดีโอที่ซับซ้อน
BLIP-3-Video เปิดโอกาสใหม่ในด้านการประมวลผลวิดีโอผ่านการเข้ารหัสเวลาที่เป็นนวัตกรรม การเปิดตัวรุ่นนี้ไม่เพียง แต่ช่วยปรับปรุงประสิทธิภาพของการทำความเข้าใจวิดีโอ แต่ยังให้ความเป็นไปได้มากขึ้นสำหรับแอปพลิเคชันวิดีโอในอนาคต
ทางเข้าโครงการ: https://www.salesforceaiesearch.com/opensource/xgen-mm-vid/index.html
ประเด็นสำคัญ:
-** รุ่นใหม่รุ่นใหม่ **: Salesforce AI Research เปิดตัว Blip-3-Video ซึ่งเป็นโมเดลภาษาหลายรูปแบบโดยมุ่งเน้นไปที่การประมวลผลวิดีโอ
- ** การประมวลผลที่มีประสิทธิภาพ **: การใช้เครื่องเข้ารหัสเวลาลดจำนวนเครื่องหมายภาพที่จำเป็นและปรับปรุงประสิทธิภาพการคำนวณอย่างมีนัยสำคัญ
- ** ประสิทธิภาพที่เหนือกว่า **: ประสิทธิภาพที่ยอดเยี่ยมในงานคำถามและคำตอบวิดีโอรักษาความแม่นยำสูงในขณะที่ลดการใช้ทรัพยากร
ในระยะสั้น Blip-3-Video ได้นำความคืบหน้าอย่างมีนัยสำคัญมาสู่การทำความเข้าใจวิดีโอด้วยความสามารถในการประมวลผลที่มีประสิทธิภาพและประสิทธิภาพที่ยอดเยี่ยมและโอกาสในการใช้งานของแอปพลิเคชันนั้นกว้าง แหล่งโอเพ่นซอร์สของรุ่นนี้ยังเป็นรากฐานที่ดีสำหรับการวิจัยและการใช้งานเพิ่มเติม