قامت جامعة نانيانغ التكنولوجية في سنغافورة بتطوير تقنية ذكاء اصطناعي مذهلة - SOLAMI، والتي يمكنها إنشاء شخصيات افتراضية ثلاثية الأبعاد نابضة بالحياة وتحقيق التفاعل في الوقت الفعلي في بيئة الواقع الافتراضي. تخترق هذه التقنية القيود الصارمة لشخصيات الذكاء الاصطناعي التقليدية، ولا تستطيع الشخصيات الافتراضية فهم تعليمات الصوت والحركة فحسب، بل يمكنها أيضًا التفاعل مع بعضها البعض في محادثات طبيعية وسلسة، والرقص، وحتى الملاكمة. ويمثل هذا قفزة كبيرة إلى الأمام في تكنولوجيا الذكاء الاصطناعي في مجالات مثل الواقع الافتراضي والترفيه الاجتماعي والتعليم والتدريب، مما يؤدي إلى تغييرات ثورية في أساليب الترفيه والتعلم التفاعلية المستقبلية.
كشف فريق بحث من جامعة نانيانغ التكنولوجية في سنغافورة مؤخرًا عن تقنية ذكاء اصطناعي تسمى SOLAMI، والتي يمكنها إنشاء شخصيات افتراضية ثلاثية الأبعاد حية لا يمكنها التفاعل معك في الوقت الفعلي في عالم الواقع الافتراضي فحسب، بل يمكنها أيضًا فهم صوتك وحركاتك لمرافقتك. يمكنك الدردشة والرقص وحتى الملاكمة، وهذه مجرد نعمة للألعاب والتواصل الاجتماعي الافتراضي والفردي!
SOLAMI هو إطار عمل شامل لنمذجة الرؤية الاجتماعية واللغة والعمل (VLA) يستخدم تقنية التعلم العميق لتحويل صوت المستخدم وأفعاله إلى "لغة" يمكن للشخصية الافتراضية أن تفهمها، وتولد استجابات صوتية وإجراءات مقابلة . التحدث باللغة البشرية يعني أنه يمكنه ترجمة صوتك وحركاتك إلى لغة يمكن أن يفهمها الذكاء الاصطناعي، ومن ثم السماح للشخصية الافتراضية بالتفاعل وفقًا لذلك، تمامًا مثل الشخص الحقيقي، بشكل طبيعي وسلس، وداعًا للشعور الجامد والميكانيكي السابق شخصيات الذكاء الاصطناعي.
من أجل تدريب هذا "المعلم الاجتماعي" للذكاء الاصطناعي، بذل فريق البحث أيضًا جهدًا كبيرًا.
لقد أنشأوا مجموعة بيانات اصطناعية تسمى SynMSI، والتي تحتوي على كميات هائلة من بيانات الحوار والحركة والكلام. لا يتم جمع هذه البيانات بشكل عرضي، ولكن يتم إنشاؤها من خلال التصميم والمعالجة الدقيقين باستخدام قواعد بيانات الإجراءات الحالية ونماذج اللغة القوية.
والأمر الأكثر إثارة للدهشة هو أن SOLAMI مجهز أيضًا بواجهة VR، مما يسمح لك بالتفاعل مع الشخصيات الافتراضية بشكل غامر.
عندما ترتدي جهاز الواقع الافتراضي، يمكنك رؤية شخصية افتراضية تقف أمامك وتتحدث معك وتقوم بالحركات، كما لو كنت في مشهد اجتماعي حقيقي.
وذكر فريق البحث أن آفاق تطبيق تقنية SOLAMI واسعة جدًا وقد تؤدي إلى تخريب العديد من المجالات مثل الألعاب والشبكات الاجتماعية الافتراضية والتعليم والتدريب في المستقبل.
على سبيل المثال، يمكن لشخصيات NPC في الألعاب أن تصبح أكثر ذكاءً وتتفاعل معك مثل الأشخاص الحقيقيين؛ ويمكن أن تكون الصور الرمزية الافتراضية على المنصات الاجتماعية الافتراضية أكثر تخصيصًا، مما يسمح لك بالعثور على أصدقاء متشابهين في التفكير في العالم الافتراضي، ويمكنك حتى إنشاء عالم افتراضي يبدو أن المعلم يجعل التعلم أكثر حيوية وإثارة للاهتمام.
وبطبيعة الحال، لا يزال SOLAMI في مرحلة البحث، ولكن الإمكانات الهائلة التي يظهرها أثارت بالفعل اهتمام دائرة التكنولوجيا.
ومن خلال سلسلة من التجارب، أثبت فريق البحث أن SOLAMI تتفوق على الأساليب الحالية من حيث جودة الحركة وجودة الصوت وسرعة الاستجابة. والأهم من ذلك، أن نتائج اختبار المستخدم تظهر أن الجميع راضون جدًا عن الشخصيات الافتراضية التي أنشأتها SOLAMI، ويبدو أن عصر "الزوجة/الزوج القائم على الذكاء الاصطناعي" قادم حقًا!
النقاط الأساسية لتقنية SOLAMI:
نموذج VLA الشامل: قم بتحويل صوت المستخدم وأفعاله مباشرة إلى صوت الشخصية الافتراضية واستجابات الحركة لتحقيق تجربة تفاعلية طبيعية وسلسة.
مجموعة البيانات التركيبية SynMSI: تستخدم مجموعات بيانات الإجراءات الحالية ونماذج اللغات الكبيرة لإنشاء كمية كبيرة من بيانات الحوار متعددة الوسائط تلقائيًا لحل مشكلة نقص بيانات التدريب.
واجهة الواقع الافتراضي الغامرة: يمكن للمستخدمين التواصل وجهًا لوجه مع الشخصيات الافتراضية من خلال معدات الواقع الافتراضي وتجربة تجربة تفاعلية أكثر واقعية.
أكثر ذكاءً وأكثر إنسانية: يمكن لـ SOLAMI إنشاء شخصيات افتراضية أكثر ذكاءً وواقعية، مما يجعل التجربة التفاعلية الافتراضية أكثر "إنسانية".
وقال فريق البحث إن آفاق تطبيق تقنية SOLAMI واسعة جدًا، ويمكن استخدامها في العديد من المجالات مثل الألعاب والشبكات الاجتماعية الافتراضية والتعليم والتدريب وغيرها. على سبيل المثال، في الألعاب، يمكن لـ SOLAMI إنشاء شخصيات NPC أكثر ذكاءً وواقعية لتعزيز تجربة الألعاب لدى اللاعبين؛ وفي التفاعلات الاجتماعية الافتراضية، يمكن لـ SOLAMI مساعدة المستخدمين على إنشاء صور رمزية أكثر تخصيصًا وتعزيز انغماس التفاعلات الاجتماعية الافتراضية في التعليم والتدريب؛ يمكن إنشاء معلمين افتراضيين أكثر حيوية وتحسين تأثيرات التدريس.
كما أجرى فريق البحث سلسلة من التجارب، وأظهرت النتائج تفوق تقنية SOLAMI على الطرق الأخرى الموجودة من حيث جودة العمل وجودة الصوت وتأخير الاستدلال. يُظهر بحث المستخدم أيضًا أن المستخدمين راضون جدًا عن الشخصيات الافتراضية ثلاثية الأبعاد المبنية باستخدام تقنية SOLAMI.
في الوقت الحاضر، لا تزال تقنية SOLAMI في مرحلة البحث، لكن إمكانات تطويرها المستقبلية هائلة ومن المتوقع أن تقدم لنا تجربة تفاعلية افتراضية أكثر ذكاءً وإنسانية.
الصفحة الرئيسية للمشروع: https://solami-ai.github.io/
التقرير الفني: https://arxiv.org/abs/2412.00174
فيديو المقدمة الكاملة: https://www.bilibili.com/video/BV1D6zpYHEyc/
وبشكل عام، تُظهر تقنية SOLAMI الإمكانات الهائلة للذكاء الاصطناعي في مجال التفاعل الافتراضي، وهي تستحق التطلع إلى آفاق تطبيقها المستقبلية، وقد تغير تمامًا الطريقة التي نستمتع بها ونتواصل اجتماعيًا ونتعلم. دعونا ننتظر ونرى كيف ستشكل هذه التكنولوجيا العالم الرقمي في المستقبل.