أطلقت مختبر أبحاث المصدر المفتوح الفرنسي مؤخرًا نموذجًا متعدد الوسائط يسمى موشي. يوضح إصدار موشي الإمكانات الهائلة لتكنولوجيا الذكاء الاصطناعى في التفاعل الصوتي والتفكير في الوقت الفعلي ، مما يجلب تجربة جديدة لعشاق الذكاء الاصطناعي في جميع أنحاء العالم.
في الصباح الباكر من 4 يوليو ، أعلنت كيوتاي رسميًا عن ولادة موشي من خلال موقعها الرسمي. يحتوي هذا النموذج على نفس الوظائف مثل GPT-4O من Openai ، ويمكنه أداء الأسئلة والأجوبة في الوقت الفعلي من خلال الصوت. ومع ذلك ، على عكس الوضع الصوتي لـ GPT-4O الذي يحتاج إلى الانتظار حتى يتم فتحه بالكامل ، كان Moshi مفتوحًا للجمهور ، مما يجعله العرض الأول في السوق.
تتضمن ميزات Moshi الرئيسية قدرتها متعددة الوسائط ، أي أنها قادرة على الاستماع إلى أسئلة صوت المستخدم وإجراء إجابات للاستدلال في الوقت الفعلي. بالإضافة إلى ذلك ، تم فتح الوضع الصوتي لموشي بالكامل ، ومقارنة مع خطة إطلاق الخريف من GPT-4O ، يوفر Moshi للمستخدمين تجربة أسرع. والأهم من ذلك ، أن موشي ليس لديه قيود إقليمية ، ويمكن استخدامها من قبل المستخدمين في جميع أنحاء العالم ، ويدعم الهواتف المحمولة.
تخطط Kyutai أيضًا لفتح المصدر Moshi ، وسوف تنشر الكود والأوزان والأوراق.
إن إطلاق موشي هو بلا شك محاولة جريئة لتكنولوجيا الذكاء الاصطناعي. ليس فقط القدرة على الاستماع والتحدث ، ولكن قد تظهر أيضًا القدرة على الرؤية في المستقبل ، مما يجعلنا نتطلع إلى مستقبل الذكاء الاصطناعي. عملية استخدام Moshi بسيطة للغاية.
تجدر الإشارة إلى أن دعم موشي للماندرين يحتاج إلى تحسين ، وطرح الأسئلة باللغة الإنجليزية سيمنحك تجربة أفضل. بالإضافة إلى ذلك ، لا يتم قفل موشي ويمكن استخدامه مباشرة بغض النظر عن مكان وجودك ، مما يوفر بلا شك راحة كبيرة لعشاق الذكاء الاصطناعى في جميع أنحاء العالم.
هذه الخطوة من قبل مختبر كيوتاي تُظهر أيضًا ثباتها بروح المصدر المفتوح. إنهم يخططون لفتح مصدر موشي قريبًا ، ونشر الكود ، والأوزان والأوراق النموذجية ، بحيث يمكن للمطورين والباحثين في جميع أنحاء العالم المشاركة في تطوير موشي وتحسينه.
فيما يتعلق بتجربة الاستخدام ، تكون سرعة استجابة موشي سريعة للغاية ، وحتى عند استخدامها على الطرق الوطنية ، يمكنها الرد على الأسئلة دون أي تأخير تقريبًا. حاليًا ، يدعم Moshi أساسًا اللغة الإنجليزية والفرنسية ، ويجب تحسين دعم الماندرين الصيني. عملية التسجيل بسيطة ، فقط أرسل عنوان بريدك الإلكتروني. يوضح موشي القدرة على الاستماع والتحدث ، وقد يزيد أيضًا من القدرة على المشاهدة في المستقبل. تعد نغمة موشي المجسم واحدة من ميزاتها الرئيسية ، مع رائحة آلة صغيرة جدًا ، مما يجعل تجربة المحادثة أكثر طبيعية وسلسة.
بالطبع ، لا تزال إجابات موشي الحالية محدودة نسبيًا ويمكنها فقط توفير مخطط وملخص عام. ولكن مع التكرار المستمر وتحسين المنتجات ، نعتقد أن إجابة موشي ستصبح أكثر تفصيلًا ودقة.
بالإضافة إلى ذلك ، سيكون للإفراج عن موشي تأثير عميق على صناعة التعليم. على سبيل المثال ، يمكن لمنظمة العفو الدولية تزويد الطلاب بتفسيرات دائرية ، وهي ضخمة للتعليم. نتطلع إلى المزيد من المنتجات المشابهة في المستقبل ، ودعم المزيد من اللغات المحلية ، وجعل تكنولوجيا الذكاء الاصطناعى أقرب إلى حياة الناس.