ระดับ GPT-4O! VITA-1.5: การโต้ตอบด้วยภาพและเสียงแบบเรียลไทม์, ความล่าช้าในการโต้ตอบ 1.5 วินาที-บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-18 22:48:01

เมื่อเร็ว ๆ นี้ทีมงาน Vita-MLLM ได้เปิดตัวผลการวิจัยล่าสุด Vita-1.5 Vita-1.5 ไม่เพียง แต่สนับสนุนสองภาษา: ภาษาอังกฤษและภาษาจีน แต่ยังประสบความสำเร็จในการก้าวกระโดดเชิงคุณภาพในตัวชี้วัดประสิทธิภาพที่หลากหลายทำให้ผู้ใช้มีประสบการณ์การโต้ตอบที่ราบรื่นและมีประสิทธิภาพมากขึ้น

Vita-1.5 ได้สร้างความก้าวหน้าครั้งสำคัญในการล่าช้าในการปฏิสัมพันธ์ซึ่งทำให้การหน่วงเวลา 4 วินาทีเดิมสั้นลงอย่างมากเป็นเพียง 1.5 วินาที การปรับปรุงนี้ช่วยให้ผู้ใช้แทบจะไม่ล่าช้าในระหว่างการโต้ตอบด้วยเสียงและปรับปรุงประสบการณ์ผู้ใช้อย่างมาก นอกจากนี้ VITA-1.5 ยังได้รับการปรับปรุงอย่างมีนัยสำคัญในประสิทธิภาพหลายรูปแบบ

ในแง่ของการประมวลผลเสียง VITA-1.5 ได้รับการปรับให้เหมาะสมอย่างยิ่ง อัตราความผิดพลาดของระบบการรู้จำเสียงพูดอัตโนมัติ (ASR) ลดลงจาก 18.4 เป็น 7.5 ซึ่งเป็นการปรับปรุงความแม่นยำของความเข้าใจและการตอบสนองของคำสั่งเสียงอย่างมีนัยสำคัญ ในเวลาเดียวกัน VITA-1.5 แนะนำโมดูลแบบ end-to-to-to-speech (TTS) ใหม่ซึ่งสามารถรับการฝังตัวโดยตรงจากแบบจำลองภาษาขนาดใหญ่ (LLMs) เป็นอินพุตปรับปรุงความเป็นธรรมชาติและการเชื่อมโยงกันของการสังเคราะห์เสียงพูดอย่างมาก .

เพื่อให้แน่ใจว่าสมดุลของความสามารถหลายรูปแบบ VITA-1.5 ใช้กลยุทธ์การฝึกอบรมแบบก้าวหน้าซึ่งจะช่วยลดผลกระทบของโมดูลการประมวลผลคำพูดที่เพิ่มขึ้นใหม่เกี่ยวกับประสิทธิภาพของภาษาภาพและประสิทธิภาพความเข้าใจของภาพลดลงเล็กน้อยจาก 71.3 เป็น 70.8 ด้วยนวัตกรรมทางเทคโนโลยีเหล่านี้ VITA-1.5 ส่งเสริมขอบเขตระหว่างการโต้ตอบด้วยภาพและเสียงแบบเรียลไทม์และการโต้ตอบที่แข็งแกร่งสำหรับการประยุกต์ใช้การโต้ตอบอัจฉริยะในอนาคต

สำหรับนักพัฒนา VITA-1.5 นั้นสะดวกมากในการใช้งาน นักพัฒนาสามารถเริ่มต้นได้อย่างรวดเร็วด้วยการดำเนินการบรรทัดคำสั่งง่ายๆและทีมยังให้การสาธิตแบบโต้ตอบแบบเรียลไทม์และแบบเรียลไทม์เพื่อช่วยให้ผู้ใช้เข้าใจและใช้ระบบได้ดีขึ้น เพื่อปรับปรุงประสบการณ์การโต้ตอบแบบเรียลไทม์ผู้ใช้จำเป็นต้องเตรียมโมดูลที่จำเป็นบางอย่างเช่นโมดูลการตรวจจับกิจกรรมเสียง (VAD) นอกจากนี้รหัสของ Vita-1.5 จะเป็นโอเพนซอร์สอย่างเต็มที่ช่วยให้นักพัฒนามีส่วนร่วมและมีส่วนร่วมและส่งเสริมความก้าวหน้าของเทคโนโลยีนี้

การเปิดตัว VITA-1.5 เป็นเหตุการณ์สำคัญอีกประการหนึ่งในด้านของแบบจำลองภาษาขนาดใหญ่หลายรูปแบบแบบโต้ตอบแสดงให้เห็นถึงการแสวงหาทีม Vita-MLLM ที่ไม่หยุดหย่อนในนวัตกรรมทางเทคโนโลยีและประสบการณ์ผู้ใช้ การเปิดตัวรุ่นนี้ไม่เพียง แต่จะนำประสบการณ์การโต้ตอบที่ชาญฉลาดมาใช้ แต่ยังชี้ให้เห็นถึงทิศทางสำหรับการพัฒนาเทคโนโลยีหลายรูปแบบในอนาคต

ทางเข้าโครงการ: https://github.com/vita-mllm/vita?tab=readme-ov-file

ประเด็นสำคัญ:

VITA-1.5 ช่วยลดเวลาแฝงการโต้ตอบอย่างมีนัยสำคัญลดลงจาก 4 วินาทีเป็น 1.5 วินาทีเพื่อปรับปรุงประสบการณ์ผู้ใช้อย่างมีนัยสำคัญ

ประสิทธิภาพหลายรูปแบบได้รับการปรับปรุงด้วยประสิทธิภาพเฉลี่ยของการวัดจำนวนหลายอย่างเพิ่มขึ้นจาก 59.8 เป็น 70.8

ความสามารถในการประมวลผลเสียงได้รับการปรับปรุงอัตราความผิดพลาดของ ASR ลดลงจาก 18.4 เป็น 7.5 และการรู้จำเสียงพูดนั้นแม่นยำยิ่งขึ้น