أطلقت ByteDance وجامعة Zhejiang بشكل مشترك نموذج اللغة الكبير متعدد الوسائط Vista-LLaMA لتحقيق فهم متعمق لمحتوى الفيديو
يقدم نموذج اللغة الكبيرة متعدد الوسائط Vista-LLaMA الذي تم تطويره بشكل مشترك بواسطة ByteDance وجامعة Zhejiang إطارًا جديدًا للحل في مجال فهم محتوى الفيديو وتوليده. ومن خلال طريقة معالجة فريدة، يتجنب هذا النموذج ظاهرة "الهلوسة" التي تحدث في مقاطع
2025-01-22