Tencent เปิดตัว VITA ซึ่งเป็นโมเดลภาษาโอเพ่นซอร์สหลายรูปแบบตัวแรกที่ช่วยให้สามารถสื่อสารกับผู้ใช้ได้อย่างไร้อุปสรรค

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-21 15:48:01

Tencent Youtu Lab และสถาบันอื่นๆ ได้เปิดตัว VITA รุ่นภาษาขนาดใหญ่แบบมัลติโมดัลรุ่นแรก ซึ่งสามารถประมวลผลวิดีโอ รูปภาพ ข้อความ และเสียงได้ในเวลาเดียวกัน และมอบประสบการณ์การโต้ตอบที่ราบรื่น การเกิดขึ้นของ VITA มีวัตถุประสงค์เพื่อชดเชยข้อบกพร่องของแบบจำลองภาษาขนาดใหญ่ที่มีอยู่ในการประมวลผลภาษาจีน ขึ้นอยู่กับแบบจำลอง Mixtral8×7B คำศัพท์ภาษาจีนได้รับการขยายและคำแนะนำแบบสองภาษาได้รับการปรับแต่งอย่างละเอียด ทำให้มีความเชี่ยวชาญในภาษาอังกฤษทั้งคู่ และพูดภาษาจีนได้คล่อง นี่เป็นความก้าวหน้าที่สำคัญสำหรับชุมชนโอเพ่นซอร์สในด้านความเข้าใจและการโต้ตอบหลายรูปแบบ

เมื่อเร็วๆ นี้ นักวิจัยจาก Tencent Youtu Lab และสถาบันอื่นๆ ได้เปิดตัว VITA โมเดลภาษาขนาดใหญ่แบบโอเพ่นซอร์สหลายโมดัลรุ่นแรก ซึ่งสามารถประมวลผลวิดีโอ รูปภาพ ข้อความ และเสียงได้ในเวลาเดียวกัน และประสบการณ์เชิงโต้ตอบก็อยู่ในระดับเฟิร์สคลาสเช่นกัน

แบบจำลอง VITA ถือกำเนิดขึ้นเพื่อเติมเต็มข้อบกพร่องของแบบจำลองภาษาขนาดใหญ่ในการประมวลผลภาษาจีน ขึ้นอยู่กับโมเดล Mixtral8×7B อันทรงพลัง คำศัพท์ภาษาจีนที่เพิ่มขึ้น และคำแนะนำสองภาษาที่ได้รับการปรับแต่ง ทำให้ VITA ไม่เพียงแต่เชี่ยวชาญภาษาอังกฤษเท่านั้น แต่ยังพูดภาษาจีนได้อย่างคล่องแคล่วอีกด้วย

คุณสมบัติหลัก:

ความเข้าใจหลายรูปแบบ: ความสามารถของ VITA ในการประมวลผลวิดีโอ รูปภาพ ข้อความ และเสียงนั้นไม่เคยมีมาก่อนในโมเดลโอเพ่นซอร์ส

ปฏิสัมพันธ์ที่เป็นธรรมชาติ: ไม่จำเป็นต้องพูดว่า "เฮ้ VITA" ทุกครั้ง มันสามารถตอบสนองได้ตลอดเวลาเมื่อคุณพูด และแม้แต่ในขณะที่คุณกำลังพูดคุยกับผู้อื่น มันก็สามารถรักษาความสุภาพและไม่ขัดจังหวะได้ตามใจชอบ

ผู้บุกเบิกโอเพ่นซอร์ส: VITA เป็นก้าวสำคัญสำหรับชุมชนโอเพ่นซอร์สในการทำความเข้าใจและการโต้ตอบแบบหลายรูปแบบ โดยวางรากฐานสำหรับการวิจัยในภายหลัง

ความมหัศจรรย์ของ VITA มาจากการใช้งานแบบคู่ โมเดลหนึ่งมีหน้าที่รับผิดชอบในการสร้างการตอบสนองต่อคำถามของผู้ใช้ และอีกโมเดลหนึ่งจะติดตามอินพุตด้านสิ่งแวดล้อมอย่างต่อเนื่องเพื่อให้แน่ใจว่าทุกการโต้ตอบนั้นถูกต้องและทันเวลา

VITA ไม่เพียงแต่สามารถแชทเท่านั้น แต่ยังทำหน้าที่เป็นคู่สนทนาเมื่อคุณออกกำลังกาย และยังให้คำแนะนำเมื่อคุณเดินทางอีกด้วย นอกจากนี้ยังสามารถตอบคำถามตามรูปภาพหรือเนื้อหาวิดีโอที่คุณให้มา ซึ่งแสดงให้เห็นถึงการใช้งานจริงที่ทรงพลัง

แม้ว่า VITA จะแสดงศักยภาพที่ยอดเยี่ยม แต่ยังคงมีการพัฒนาในแง่ของการสังเคราะห์คำพูดทางอารมณ์และการสนับสนุนหลายรูปแบบ นักวิจัยวางแผนที่จะเปิดใช้งาน VITA รุ่นต่อไปเพื่อสร้างเสียงคุณภาพสูงจากวิดีโอและการป้อนข้อความ และแม้แต่สำรวจความเป็นไปได้ในการสร้างเสียงและวิดีโอคุณภาพสูงพร้อมกัน

โอเพ่นซอร์สของโมเดล VITA ไม่เพียงแต่เป็นชัยชนะทางเทคนิคเท่านั้น แต่ยังเป็นนวัตกรรมที่ลึกซึ้งในวิธีการโต้ตอบอัจฉริยะอีกด้วย ด้วยการวิจัยที่ลึกซึ้งยิ่งขึ้น เรามีเหตุผลที่เชื่อได้ว่า VITA จะนำประสบการณ์การโต้ตอบที่ชาญฉลาดและมีมนุษยธรรมมากขึ้นมาให้เรา

ที่อยู่กระดาษ: https://arxiv.org/pdf/2408.05211

โอเพ่นซอร์สของ VITA มอบทิศทางใหม่สำหรับการพัฒนาโมเดลภาษาขนาดใหญ่หลายรูปแบบ ฟังก์ชั่นที่ทรงพลังและประสบการณ์การโต้ตอบที่สะดวกสบายบ่งชี้ว่าปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์จะชาญฉลาดและมีมนุษยธรรมมากขึ้นในอนาคต เราหวังว่า VITA จะสร้างความก้าวหน้าที่ยิ่งใหญ่ยิ่งขึ้นในอนาคต และนำความสะดวกสบายมาสู่ชีวิตของผู้คนมากขึ้น