في السنوات الأخيرة، تطورت تقنية الصور الرمزية الافتراضية للذكاء الاصطناعي بسرعة، لكن تفاعلها لا يزال يمثل عنق الزجاجة الرئيسي الذي يقيد تطبيقها. تتصرف العديد من الصور الرمزية الافتراضية للذكاء الاصطناعي بشكل متصلب في المحادثات، وتفتقر إلى الواقعية، ولا يمكنها تحقيق تفاعل طبيعي مع المستخدمين. ولتحقيق هذه الغاية، ظهرت تقنية جديدة تسمى INFP وهي تهدف إلى حل المشكلة الحالية المتمثلة في عدم كفاية التفاعل بين الصور الرمزية الافتراضية للذكاء الاصطناعي في المحادثات بين شخصين، مما يسمح للشخصيات الافتراضية بالتعبير عن المشاعر والأفعال بشكل طبيعي وسلس مثل الأشخاص الحقيقيين أثناء المحادثات. المحادثة تغير تمامًا تجربة التفاعل بين الإنسان والكمبيوتر.
في الآونة الأخيرة، جذبت تقنية جديدة تسمى INFP (التفاعلية والطبيعية والفلاشية والعامة) اهتمامًا واسع النطاق. وتهدف هذه التقنية إلى حل مشكلة عدم كفاية التفاعل بين الصور الرمزية الافتراضية الحالية للذكاء الاصطناعي في المحادثات بين شخصين، مما يسمح للشخصيات الافتراضية بالتفاعل مثل الأشخاص الحقيقيين أثناء المحادثات، وضبط تعبيراتها وحركاتها ديناميكيًا بناءً على محتوى المحادثة.
قل وداعًا لـ "الكوميديا الارتجالية" ورحب بالكورس المزدوج
في الماضي، لم يكن بمقدور الصور الرمزية للذكاء الاصطناعي التحدث إلا إلى أنفسهم، مثل الممثل الكوميدي، أو يمكنهم فقط الاستماع بغباء دون أي ردود فعل، مثل "الشخص الخشبي". إلا أن محادثاتنا البشرية ليست هكذا عندما نتحدث، ننظر إلى بعضنا البعض، ونومئ برأسنا، ونتجهم، وحتى نلقي النكات من وقت لآخر، هذا هو التفاعل الحقيقي!
إن ظهور INFP هو تغيير هذا الموقف المحرج تمامًا! فهو يشبه قائد "الكورس المزدوج"، الذي يمكنه ضبط تعبيرات وحركات الصورة الرمزية للذكاء الاصطناعي ديناميكيًا بناءً على المحادثة الصوتية بينك وبين الذكاء الاصطناعي، مما يجعلك تشعر بذلك. وكأن الأمر يشبه التحدث إلى شخص حقيقي!
"أسرار INFP الفريدة": حيلتان، واحدة لا غنى عنها!
يرجع السبب وراء قوة INFP بشكل أساسي إلى "سرين فريدين":
تقليد الرأس القائم على الحركة:
سيتعلم أولاً التعبيرات والحركات البشرية من عدد كبير من مقاطع فيديو المحادثة الحقيقية، مثل "سيد تقليد الحركة"، وضغط هذه السلوكيات المعقدة في "أكواد العمل".
من أجل جعل الحركات أكثر واقعية، فإنه سيولي أيضًا اهتمامًا خاصًا لـ "تعابير" العينين والفم، تمامًا مثل إعطائهما "لقطة قريبة".
وسيستخدم أيضًا النقاط الرئيسية للوجه للمساعدة في توليد التعبيرات لضمان دقة الحركات وطبيعتها.
بعد ذلك، يقوم بتطبيق "رموز الإجراء" هذه على الصورة الرمزية الثابتة، مما يجعل الصورة الرمزية "حية" على الفور، تمامًا مثل السحر!
توليد الحركة الموجهة بالصوت:
يعد هذا "المولد" أكثر قوة، حيث يمكنه فهم المحادثة الصوتية بينك وبين الذكاء الاصطناعي، تمامًا مثل المعلم الذي يمكنه "تحديد الموقع من خلال الاستماع إلى الصوت".
سيقوم بتحليل من يتحدث ومن يستمع في الصوت، ثم يقوم بضبط حالة الصورة الرمزية للذكاء الاصطناعي ديناميكيًا بحيث يمكنه التبديل بحرية بين "التحدث" و"الاستماع" دون الحاجة إلى تبديل الأدوار يدويًا على الإطلاق.
وهو مجهز أيضًا بـ "بنكي ذاكرة" يقومان بتخزين الإجراءات المختلفة عند "التحدث" و"الاستماع" على التوالي، تمامًا مثل "صندوقي الكنز" لاستخراج الإجراءات الأكثر ملاءمة في أي وقت.
يمكنه أيضًا ضبط الحالة المزاجية وموقف الصورة الرمزية للذكاء الاصطناعي وفقًا لأسلوب صوتك، مما يجعل المحادثة أكثر حيوية وإثارة للاهتمام.
وأخيرًا، يستخدم أيضًا تقنية تسمى "نموذج الانتشار" لتحويل هذه الحركات إلى رسوم متحركة سلسة وطبيعية حتى لا تشعر بأي تأخير.
DyConv: مجموعة بيانات محادثة ضخمة مليئة بـ "القيل والقال"!
من أجل تدريب INFP، "الذكاء الاصطناعي الفائق"، قام الباحثون أيضًا بجمع مجموعة كبيرة جدًا من بيانات المحادثة تسمى DyConv!
هناك أكثر من 200 ساعة من مقاطع الفيديو للمحادثات في مجموعة البيانات هذه. يأتي الأشخاص فيها من جميع أنحاء العالم، كما أن محتوى المحادثات متنوع أيضًا. إنه ببساطة "معسكر اعتقال للقيل والقال".
جودة الفيديو لمجموعة بيانات DyConv عالية جدًا، مما يضمن رؤية وجه الجميع بوضوح.
استخدم الباحثون أيضًا نموذج فصل الكلام الأكثر تقدمًا لاستخراج صوت كل شخص على حدة لتسهيل تعلم الذكاء الاصطناعي.
"الفنون القتالية الثمانية عشر" لـ INFP: لا يمكنك التحدث فحسب، بل يمكنك أيضًا...
لا يستطيع INFP إظهار مواهبه في المحادثات بين شخصين فحسب، بل يمكنه أيضًا التألق في سيناريوهات أخرى:
وضع "جيل رئيس الاستماع": يمكنه تقديم تعبيرات وأفعال مقابلة بناءً على ما يقوله الطرف الآخر، تمامًا مثل الطالب الجيد الذي "يستمع بعناية".
وضع "Talking Head Generation": يمكن أن يجعل الصورة الرمزية تصنع أشكال فم واقعية بناءً على الصوت، تمامًا مثل المعلم "المتكلم من بطنه".
ومن أجل إثبات قوة الـINFP، أجرى الباحثون عدداً كبيراً من التجارب، وأظهرت النتائج:
في مختلف المؤشرات، سحق INFP الأساليب المماثلة الأخرى، مثل جودة الفيديو ومزامنة الشفاه وتنوع الحركة، وحقق نتائج ممتازة.
فيما يتعلق بتجربة المستخدم، اتفق المشاركون أيضًا على أن الفيديو الذي تم إنشاؤه بواسطة INFP أكثر طبيعية وحيوية، ويتوافق مع الصوت بشكل أفضل.
أجرى الباحثون أيضًا تجارب استئصال لإثبات أن كل وحدة في INFP ضرورية.
عنوان المشروع: https://grisoon.github.io/INFP/
أحدث التقدم في تكنولوجيا INFP تغييرات ثورية في التجربة التفاعلية للصور الرمزية الافتراضية للذكاء الاصطناعي، مما جعلها أقرب إلى أساليب التفاعل البشري الحقيقي. في المستقبل، من المتوقع أن يتم استخدام تقنية INFP على نطاق واسع في العديد من المجالات مثل المساعدين الافتراضيين والتعليم عبر الإنترنت والترفيه، مما يوفر للمستخدمين تجربة تفاعلية أكثر طبيعية وحيوية وغامرة.