NVIDIA เปิดตัว: ความก้าวหน้าครั้งใหม่ในการทำความเข้าใจวิดีโอ AI ช่วยให้เครื่องจักรเข้าใจเนื้อหาวิดีโอได้อย่างแท้จริง

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-11-29 14:10:14

NVIDIA ได้เปิดตัวพิมพ์เขียวการค้นหาวิดีโอและสรุป AI ใหม่ ซึ่งเป็นเทคโนโลยีปฏิวัติที่จะปฏิวัติวิธีที่เราวิเคราะห์และทำความเข้าใจวิดีโอ พิมพ์เขียวนี้ใช้ประโยชน์จาก generative AI, Visual Language Models (VLM) และ Large Language Models (LLM) เพื่อให้เกิดความเข้าใจอย่างลึกซึ้งและการโต้ตอบที่เป็นธรรมชาติของเนื้อหาวิดีโอ ก้าวข้ามข้อจำกัดของการวิเคราะห์วิดีโอแบบดั้งเดิม และมอบประสบการณ์การโต้ตอบวิดีโอที่ไม่เคยมีมาก่อนแก่ผู้ใช้ บรรณาธิการของ Downcodes จะอธิบายฟังก์ชันหลักและสถานการณ์การใช้งานของเทคโนโลยีนี้โดยละเอียด

NVIDIA เพิ่งเปิดตัว AI Blueprint ใหม่สำหรับการค้นหาวิดีโอและการสรุป โซลูชันทางเทคนิคนี้จะเปลี่ยนข้อจำกัดของการวิเคราะห์วิดีโอแบบเดิมโดยสิ้นเชิง แตกต่างจากโมเดลคงที่ในอดีตที่สามารถจดจำได้เฉพาะออบเจ็กต์ที่กำหนดไว้ล่วงหน้า โซลูชันใหม่นี้ให้ความเข้าใจในเชิงลึกเกี่ยวกับเนื้อหาวิดีโอและการโต้ตอบที่เป็นธรรมชาติโดยการรวม generative AI, Visual Language Model (VLM) และ Large Language Model (LLM)

ระบบนี้สร้างขึ้นบนสถาปัตยกรรมไมโครเซอร์วิส NVIDIA NIM และข้อได้เปรียบหลักของระบบอยู่ที่ความสามารถในการทำความเข้าใจวิดีโออันทรงพลัง ด้วยการรวมเทคโนโลยีต่างๆ เข้าด้วยกัน เช่น การประมวลผลการแบ่งส่วนวิดีโอ การสร้างคำอธิบายที่หนาแน่น และการสร้างกราฟความรู้ ทำให้ระบบสามารถเข้าใจและวิเคราะห์เนื้อหาวิดีโอที่มีความยาวเป็นพิเศษได้อย่างแม่นยำ ผู้ใช้สามารถสร้างวิดีโอสรุป การถามตอบแบบโต้ตอบ และการตรวจสอบเหตุการณ์ที่กำหนดเองของการสตรีมวิดีโอแบบเรียลไทม์ผ่านอินเทอร์เฟซ REST API ที่เรียบง่าย

จากมุมมองของสถาปัตยกรรมทางเทคนิค โซลูชันประกอบด้วยองค์ประกอบหลักหลายประการ: สตรีมโปรเซสเซอร์มีหน้าที่รับผิดชอบในการโต้ตอบและการซิงโครไนซ์ระหว่างส่วนประกอบ NeMo Guardrails ช่วยให้มั่นใจได้ถึงความสอดคล้องของการป้อนข้อมูลของผู้ใช้ ไปป์ไลน์ VLM ที่ใช้ NVIDIA DeepStream SDK รับผิดชอบในการถอดรหัสและคุณสมบัติวิดีโอ การสกัด เวกเตอร์ ฐานข้อมูลเก็บผลลัพธ์ระดับกลาง โมดูล Context-Aware RAG ผสานรวมเพื่อสร้างข้อมูลสรุปแบบครบวงจร โมดูล Graph-RAG จับความสัมพันธ์ที่ซับซ้อนในวิดีโอผ่านฐานข้อมูลกราฟ

ในการใช้งานจริง ระบบจะตัดวิดีโอออกเป็นส่วนเล็กๆ ก่อน สร้างคำอธิบายที่หนาแน่นผ่าน VLM จากนั้นใช้ LLM เพื่อสรุปและวิเคราะห์ผลลัพธ์ สำหรับการถ่ายทอดสดระบบสามารถประมวลผลคลิปวิดีโออย่างต่อเนื่องและสร้างบทสรุปแบบเรียลไทม์ ในเวลาเดียวกัน ด้วยการสร้างกราฟความรู้ ระบบสามารถรวบรวมข้อมูลที่ซับซ้อนในวิดีโอได้อย่างแม่นยำ และสนับสนุนการโต้ตอบระหว่างคำถามและคำตอบที่ลึกซึ้งยิ่งขึ้น

ความก้าวหน้าทางเทคโนโลยีนี้จะปฏิวัติสถานการณ์ต่างๆ เช่น โรงงาน คลังสินค้า ร้านค้าปลีก สนามบิน และศูนย์กลางการคมนาคม ทีมปฏิบัติการสามารถรับข้อมูลเชิงลึกด้านการวิเคราะห์วิดีโอที่สมบูรณ์ยิ่งขึ้นผ่านการโต้ตอบทางภาษาธรรมชาติเพื่อการตัดสินใจที่ชาญฉลาดยิ่งขึ้น

ปัจจุบัน NVIDIA ได้เปิดแอปพลิเคชันการเข้าถึงล่วงหน้าสำหรับโซลูชันเทคโนโลยีนี้ นักพัฒนาสามารถเลือกโมเดลที่เหมาะสมผ่านแค็ตตาล็อก API ที่ NVIDIA มอบให้ ไม่ว่าจะใช้บริการที่โฮสต์โดย NVIDIA หรือเลือกโซลูชันการปรับใช้ภายในเครื่อง ตัวเลือกการใช้งานที่ยืดหยุ่นนี้จะช่วยให้องค์กรต่างๆ สร้างโซลูชันการวิเคราะห์วิดีโอที่ปรับแต่งได้ตามความต้องการที่แท้จริง

ในขณะที่เทคโนโลยี AI ก้าวหน้าอย่างต่อเนื่อง เรากำลังเห็นการเปลี่ยนแปลงครั้งใหญ่ในด้านการวิเคราะห์วิดีโอ การเปิดตัวโซลูชันเทคโนโลยีล่าสุดของ NVIDIA จะช่วยเร่งการประยุกต์ใช้การวิเคราะห์วิดีโออัจฉริยะในทุกสาขาอาชีพได้อย่างไม่ต้องสงสัย

รายละเอียด: https://developer.nvidia.com/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint

โดยรวมแล้ว การค้นหาวิดีโอ AI และพิมพ์เขียวสรุปของ NVIDIA แสดงถึงความก้าวหน้าครั้งสำคัญในเทคโนโลยีการวิเคราะห์วิดีโออัจฉริยะ และฟังก์ชันอันทรงพลังและวิธีการใช้งานที่ยืดหยุ่นจะสร้างมูลค่ามหาศาลให้กับอุตสาหกรรมต่างๆ เทคโนโลยีนี้มีแนวโน้มการใช้งานที่กว้างขวางและคุ้มค่าที่จะรอคอยการพัฒนาในอนาคต