ปัญญาประดิษฐ์มีความก้าวหน้าอย่างมากในการจดจำภาพในช่วงไม่กี่ปีที่ผ่านมา แต่ความเข้าใจในวิดีโอยังคงเป็นความท้าทายอย่างมาก ไดนามิกและความซับซ้อนของข้อมูลวิดีโอทำให้ AI มีความยุ่งยากอย่างที่ไม่เคยเกิดขึ้นมาก่อน อย่างไรก็ตาม ตัวเข้ารหัสวิดีโอ VideoPrism ที่พัฒนาโดยทีมวิจัยของ Google คาดว่าจะเปลี่ยนแปลงสถานการณ์นี้ได้ โปรแกรมแก้ไข Downcodes จะทำให้คุณมีความเข้าใจเชิงลึกเกี่ยวกับฟังก์ชันอันทรงพลัง วิธีการฝึกอบรม และผลกระทบที่ลึกซึ้งต่อความเข้าใจวิดีโอ AI ในอนาคต
ในโลกของ AI เครื่องจักรจะเข้าใจวิดีโอได้ยากกว่าเข้าใจรูปภาพมาก วิดีโอมีความไดนามิกพร้อมเสียง การเคลื่อนไหว และฉากที่ซับซ้อนมากมาย ในอดีต เมื่อใช้ AI การดูวิดีโอก็เหมือนกับการอ่านหนังสือจากสวรรค์ และคุณมักจะสับสน
แต่การเกิดขึ้นของ VideoPrism อาจเปลี่ยนแปลงทุกสิ่ง นี่คือตัวเข้ารหัสวิดีโอที่พัฒนาโดยทีมวิจัยของ Google สามารถเข้าถึงระดับที่ล้ำสมัยด้วยโมเดลเดียวในงานทำความเข้าใจวิดีโอที่หลากหลาย ไม่ว่าจะเป็นการจัดประเภทวิดีโอ การวางตำแหน่ง การสร้างคำบรรยาย หรือแม้แต่การตอบคำถามเกี่ยวกับวิดีโอ VideoPrism ก็สามารถจัดการได้อย่างง่ายดาย
จะฝึก VideoPrism ได้อย่างไร?
กระบวนการฝึก VideoPrism ก็เหมือนกับการสอนให้เด็กรู้จักสังเกตโลก ขั้นแรก คุณต้องแสดงวิดีโอให้หลากหลาย ตั้งแต่ชีวิตประจำวันไปจนถึงการสังเกตทางวิทยาศาสตร์ จากนั้น คุณยังฝึกโดยใช้คู่คำบรรยายวิดีโอ "คุณภาพสูง" และข้อความคู่ขนานที่มีเสียงรบกวน (เช่น ข้อความการรู้จำเสียงอัตโนมัติ)
วิธีการฝึกอบรมก่อน
ข้อมูล: VideoPrism ใช้คู่คำบรรยายวิดีโอคุณภาพสูง 36 ล้านคู่ และคลิปวิดีโอ 58.2 ล้านคลิปที่มีข้อความคู่ขนานที่มีเสียงรบกวน
สถาปัตยกรรมแบบจำลอง: อิงตาม Visual Transformer มาตรฐาน (ViT) โดยใช้การออกแบบแบบแยกตัวประกอบในอวกาศและเวลา
อัลกอริธึมการฝึกอบรม: ประกอบด้วยสองขั้นตอน: การฝึกอบรมการเปรียบเทียบข้อความวิดีโอและการสร้างแบบจำลองวิดีโอที่สวมหน้ากาก
ในระหว่างกระบวนการฝึกอบรม VideoPrism จะผ่านสองขั้นตอน ในระยะแรก จะเรียนรู้การเชื่อมโยงระหว่างวิดีโอและข้อความผ่านการเรียนรู้แบบเปรียบเทียบและการกลั่นกรองในระดับท้องถิ่นทั่วโลก ในขั้นตอนที่สอง จะปรับปรุงความเข้าใจในเนื้อหาวิดีโอเพิ่มเติมผ่านการสร้างแบบจำลองวิดีโอที่สวมหน้ากาก
นักวิจัยได้ทดสอบ VideoPrism ในงานทำความเข้าใจวิดีโอหลายงาน และผลลัพธ์ก็น่าประทับใจ VideoPrism บรรลุประสิทธิภาพที่ล้ำสมัยด้วยเกณฑ์มาตรฐาน 30 รายการจาก 33 รายการ ไม่ว่าจะเป็นการตอบคำถามเกี่ยวกับวิดีโอออนไลน์หรืองานคอมพิวเตอร์วิทัศน์ในสาขาวิทยาศาสตร์ VideoPrism ได้แสดงให้เห็นถึงความสามารถที่แข็งแกร่ง
การกำเนิดของ VideoPrism ได้นำความเป็นไปได้ใหม่ๆ มาสู่ขอบเขตของการทำความเข้าใจวิดีโอ AI ไม่เพียงแต่ช่วยให้ AI เข้าใจเนื้อหาวิดีโอได้ดีขึ้นเท่านั้น แต่ยังอาจมีบทบาทสำคัญในด้านการศึกษา ความบันเทิง ความปลอดภัย และสาขาอื่นๆ อีกด้วย
แต่ VideoPrism ยังเผชิญกับความท้าทายบางอย่าง เช่น วิธีจัดการกับวิดีโอขนาดยาว และวิธีหลีกเลี่ยงการเกิดอคติในระหว่างกระบวนการฝึกอบรม สิ่งเหล่านี้เป็นปัญหาที่ต้องได้รับการแก้ไขในการวิจัยในอนาคต
ที่อยู่กระดาษ: https://arxiv.org/pdf/2402.13217
โดยรวมแล้ว การเกิดขึ้นของ VideoPrism ถือเป็นความก้าวหน้าครั้งสำคัญในด้านความเข้าใจเกี่ยวกับวิดีโอ AI ประสิทธิภาพอันทรงพลังและโอกาสในการใช้งานที่หลากหลายนั้นน่าตื่นเต้น ในอนาคต ด้วยการพัฒนาเทคโนโลยีอย่างต่อเนื่อง ฉันเชื่อว่า VideoPrism จะแสดงคุณค่าของมันในด้านต่างๆ มากขึ้น และนำความสะดวกสบายมาสู่ชีวิตของผู้คนมากขึ้น