مستوى GPT-4O! Vita-1.5: التفاعل البصري والصوتي في الوقت الفعلي ، تأخير التفاعل 1.5 ثانية-مقالات منظمة العفو الدولية

الكاتب：Eve Cole وقت التحديث：2025-02-18 22:48:01

في الآونة الأخيرة ، أصدر فريق Vita-MLLM أحدث نتائج بحثية فيتا -1.5. لا يدعم Vita-1.5 لغتين فقط: اللغة الإنجليزية والصينية ، بل يحقق أيضًا قفزة نوعية في مؤشرات الأداء المتعددة ، مما يجلب للمستخدمين تجربة تفاعلية أكثر سلاسة وأكثر كفاءة.

حقق Vita-1.5 اختراقًا كبيرًا في تأخير التفاعل ، مما أدى إلى تقصير التأخير الأصلي البالغ 4 ثوانٍ إلى 1.5 ثانية فقط. يتيح هذا التحسن للمستخدمين عدم التأخير تقريبًا أثناء التفاعل الصوتي ، مما يؤدي إلى تحسين تجربة المستخدم بشكل كبير. بالإضافة إلى ذلك ، تحسنت VITA-1.5 بشكل كبير في الأداء متعدد الوسائط.

من حيث معالجة الصوت ، تم تحسين VITA-1.5 بعمق. انخفض معدل الخطأ في نظام التعرف على الكلام التلقائي (ASR) من 18.4 إلى 7.5 ، مما يؤدي بشكل كبير إلى تحسين دقة الفهم واستجابة الأوامر الصوتية. في الوقت نفسه ، تقدم VITA-1.5 وحدة جديدة من النص إلى خط الكلام (TTS) من طرف إلى طرف ، والتي يمكن أن تتلقى مباشرة التضمينات من نماذج اللغة الكبيرة (LLMs) كمدخلات ، مما يحسن إلى حد كبير من طبيعية وتوليف الكلام .

لضمان توازن القدرات متعددة الوسائط ، تعتمد VITA-1.5 استراتيجية تدريبية تدريجية ، والتي تقلل من تأثير وحدة معالجة الكلام المضافة حديثًا على أداء اللغة البصرية ، وأداء فهم الصورة انخفض قليلاً فقط من 71.3 إلى 70.8. من خلال هذه الابتكارات التكنولوجية ، يعزز VITA-1.5 الحدود بين التفاعلات البصرية والصوتية في الوقت الفعلي ، مما يضع أساسًا متينًا لتطبيقات التفاعل الذكي المستقبلي.

للمطورين ، Vita-1.5 مريحة للغاية للاستخدام. يمكن للمطورين البدء بسرعة في عمليات سطر الأوامر البسيطة ، ويوفر الفريق أيضًا عروضًا تفاعلية أساسية وفي الوقت الفعلي لمساعدة المستخدمين على فهم النظام واستخدامه بشكل أفضل. من أجل زيادة تحسين التجربة التفاعلية في الوقت الفعلي ، يحتاج المستخدمون إلى إعداد بعض الوحدات اللازمة ، مثل وحدة الكشف عن النشاط الصوتي (VAD). بالإضافة إلى ذلك ، ستكون مدونة Vita-1.5 مفتوحة بالكامل ، مما يسمح للمطورين بالمشاركة والمساهمة ، والترويج بشكل مشترك مع هذه التكنولوجيا.

يمثل إطلاق VITA-1.5 علامة فارقة أخرى مهمة في مجال نموذج اللغة التفاعلية المتعددة الوسائط التفاعلية ، مما يدل على السعي المتواصل لفريق Vita-MLLM في الابتكار التكنولوجي وتجربة المستخدم. إن إصدار هذا الإصدار لا يجلب للمستخدمين تجربة تفاعلية أكثر ذكاءً فحسب ، بل يشير أيضًا إلى اتجاه التطوير المستقبلي للتكنولوجيا متعددة الوسائط.

مدخل المشروع: https://github.com/vita-mllm/vita؟tab=readme-ov-file

النقاط الرئيسية:

يؤدي VITA-1.5 إلى تقليل زمن انتقال التفاعل بشكل كبير ، مما يؤدي إلى تقصير من 4 ثوان إلى 1.5 ثانية ، مما يؤدي إلى تحسين تجربة المستخدم بشكل كبير.

لقد تحسن الأداء متعدد الوسائط ، مع زيادة متوسط أداء المعايير المتعددة من 59.8 إلى 70.8.

يتم تعزيز قدرة معالجة الصوت ، وانخفض معدل خطأ ASR من 18.4 إلى 7.5 ، والتعرف على الكلام أكثر دقة.