تحميل ai iris avatar - تنزيل كود المصدر ai iris avatar

ai iris avatar

شفرة المصدر الأخرى

1.0.0

تنزيل

AI-إيريس-الصورة الرمزية

تحدث مع الصورة الرمزية التفصيلية ثلاثية الأبعاد المدعومة بالذكاء الاصطناعي. استخدم نموذج اللغة الكبير (LLM)، وتحويل النص إلى كلام (TTS)، ومحرك الألعاب Unity، ومزامنة الشفاه لإضفاء الحيوية على الشخصية.

الرد السريع-out.mp4

في الفيديو نسأل الشخصية "من هو مايكل جوردان؟". الصورة الرمزية "تجيب" على السؤال بعد تأخير قصير. باستخدام الرسائل السابقة كسياق، يمكننا إجراء محادثات كاملة. لاحظ فيزياء الشعر والوميض!

vfx-out.mp4

عرض الأحداث البعيدة التي يتم تشغيلها من متصفح الويب. بعد تحديد كل مؤثرات بصرية، يتم تشغيل نظام الجسيمات المعني. الاستخدام الشائع هو تأثير جسيمات الألعاب النارية عندما يتبرع شخص ما بمبلغ 5 دولارات على Twitch وما إلى ذلك. أثناء المؤثرات البصرية الممطرة، قد تلاحظ دفقة وارتدادًا عندما تتفاعل القطرة مع الشخصية (أعلى الشعر).

مجموعة الميزات

الوظيفة الأساسية هي نموذج ثلاثي الأبعاد مخصص "يتحدث". يصدر صوتًا ويستخدم مكتبة مزامنة الشفاه الخاصة بـ Oculus لإعطاء انطباع (نأمل أن يكون مقنعًا). هنا مجموعة الميزات:

يعمل محليًا بنسبة 100% على أجهزتك. لا يلزم الاتصال بالإنترنت.
كل شيء قابل للتكوين . قم بتبديل نماذج اللغة أو الأصوات الكبيرة. استبدل النموذج ثلاثي الأبعاد بالكامل أو لون الشعر فقط. إنها شخصيتك.
اختر أي نموذج لغة كبير (LLM) تريده. يعبر معظم حاملي الماجستير في القانون عن تحيزاتهم، أو يركزون على الثقافة الأمريكية، أو يُمنعون من التحدث عن مواضيع مثل السياسة. في تطبيقي، يمكنك استخدام نماذج غير خاضعة للرقابة.
إضافة قاعدة معرفية مخصصة إلى LLM. كتبت قبل بضعة أسابيع عن كيفية استخدام الجيل المعزز للاسترجاع لتوفير بيانات مخصصة لحاملي شهادة LLM. تخيل أنه يمكنك أن تطلب من شخصية من فيلم/لعبة فيديو أن تخبرك المزيد عن عالمها.
سياق الدردشة. تؤثر الرسائل السابقة على الأسئلة اللاحقة.
تتوفر العديد من الأصوات (ذكورا وإناثا). وإذا لم يعجبك أي منها، فاستبدل نموذج تحويل النص إلى كلام (TTS). يعد استنساخ الصوت أيضًا أحد الخيارات (راجع الأسئلة الشائعة حول الاستخدام).
سريع LLM وTTS (مع البث والسرعة العميقة) لوقت استجابة أقل من 4 ثوانٍ (انظر مقاطع الفيديو). إنها في الواقع تبدو وكأنها محادثة في الوقت الحقيقي.
محرك لعبة قوة الوحدة . إذا كانت جيدة بما يكفي مقابل لعبة فيديو بقيمة مليار دولار سنويًا، فهي كافية للجميع.
- يمكنك أيضًا استخدام المكونات الإضافية المتخصصة مثل Magicacloth2 للملابس. أو KvantWig من keijiro (افعل ذلك!).
مزامنة الشفاه لحركة الفم الآلية. يستخدم مفاتيح الشكل ويعمل مع أي نوع صوت. التأخير بين مزامنة الصوت والشفاه قابل للتخصيص. من الطبيعي سماع الصوت بعد تحريك الشفاه.
الرسوم المتحركة الهيكل العظمي 3D. على سبيل المثال، الرسوم المتحركة المختلفة عندما تكون الشخصية خاملة وعندما تتحدث. تقوم كل آلة حالة باختيار المقاطع لتشغيلها بشكل عشوائي. تم دمجها جميعًا في نظام ميكانيكي Unity.
- الرسوم المتحركة التي استخدمتها تأتي من مكتبة Adobe Mixamo.
تحريك الأحداث عن بعد. على سبيل المثال، تشغيل تأثير الجسيمات بناءً على زر في متصفح الويب. الاستخدام الشائع هو تأثير جسيمات الألعاب النارية عندما يتبرع شخص ما بمبلغ 5 دولارات على Twitch وما إلى ذلك.
الميزات الصغيرة التي تجعل الشخصية تنبض بالحياة :
- تحكم العيون. يمكنك تتبع أي جسم بغض النظر عن حركة الجسم بالكامل. التلاميذ مقيدون بعدم "ترك" العينين. بشكل افتراضي، تحتوي حركة العين على تلعثم صغير يُعرف باسم saccade. يعتمد ذلك على الفاصل الزمني ودلتا الزاوية. يمكن إيقاف تشغيله إذا أردت.
- فيزياء الشعر. تم تنفيذها كعظام تتبع فيزياء الربيع (ومجالات الاصطدام). يوفر الرسوم المتحركة الثانوية من خلال الشعر أو المجوهرات. على سبيل المثال الأقراط ترفرف بعد حركة الرأس. مع الرسم بالوزن، يمكنه أيضًا محاكاة المزيد من الأشياء العضوية/الأكثر ليونة. فكر في الأشرطة وأقواس الشعر والقماش وما إلى ذلك.
- وامض. الفاصل الزمني والمدة القابلة للتكوين. يستخدم مفاتيح الشكل داخليا.
- بعض التفاعلات الصغيرة الأخرى. لا أريد أن أفسد عليك الكثير، ولكن أتمنى أن تلاحظ ذلك!
أعد الاتصال في حالة فقدان الاتصال بالخادم.
يمكن تهيئتها لتشغيل عميل Unity على الأجهزة المحمولة . يتطلب تحويل المشروع من HDRP إلى URP. بعد ذلك، ما عليك سوى توجيه WebSocket إلى خادم الكمبيوتر.
مفتوح المصدر.

كيف يعمل هذا؟

يقوم المستخدم بتشغيل عميل Unity الذي يتصل بخادم Python.
يقوم المستخدم بإدخال الاستعلام باستخدام النص. يتم إرساله إلى الخادم من خلال WebSocket.
يأخذ نموذج اللغة الكبير (LLM) الاستعلام والرسائل السابقة (سياق الدردشة) لإنشاء استجابة نصية.
تحويل النص إلى كلام (TTS) يولد الصوت.
يرسل الخادم بايتات من الكلام بصيغة WAV إلى عميل Unity .
يستخدم عميل Unity الصوت لتطبيق مزامنة الشفاه باستخدام مكتبة Oculus Lipsync.
يقوم عميل Unity بتشغيل الصوت. التأخير بين مزامنة الشفاه والصوت قابل للتكوين. ومن الأفضل عادةً تغيير شكل الفم قبل انبعاث الصوت.

لا يعتمد التدفق على أي تنفيذ معين. لا تتردد في مزج ومطابقة LLMs أو TTSs أو أي نماذج ثلاثية الأبعاد مناسبة (تتطلب مفاتيح أشكال محددة). وكما قد تلاحظ، فإن هذه البنية تمنحنا مرونة مطلقة. كما قد تتخيل، الجملة السابقة هي بخس.

لا يوجد التعرف على الكلام، الموجه هو نص فقط. سيكون من السهل إضافة هذه الميزة باستخدام Whisper Fast. انظر أدناه للحصول على التعليمات. TL;DR يرسل GET أو POST إلى /prompt .

ما مدى سرعة عمل هذا؟

باستخدام TTS مع البث وDeepSpeed، عادةً ما أحصل على استجابة أقل من 4 ثوانٍ (من إرسال المطالبة إلى الصوت الأول). إنها صغيرة بما يكفي، بحيث تبدو تلك المحادثة في الوقت الفعلي. في هذه المرحلة، عنق الزجاجة هو LLM. على وحدة معالجة رسومات واحدة، لا يمكنك تشغيل LLM وTTS في نفس الوقت (لقد حاولت، تحقق من الأسئلة الشائعة حول خيار التكوين tts.chunk_size ). يتعين علينا أولاً إنشاء كافة الرموز النصية وبعد ذلك فقط إنشاء الصوت. لقد حاولت تفريغ تحويل النص إلى كلام (TTS) إلى وحدة المعالجة المركزية (CPU)، ولكن هذا أيضًا يواجه صعوبة.

البث يعني أننا نقوم بتقسيم النص الناتج إلى أجزاء أصغر. هناك تداخل صغير لإخفاء انتقالات القطعة. القطعة الأولى الصغيرة تعني وقتًا سريعًا لإصدار الصوت الأول. DeepSpeed هي مكتبة مايكروسوفت لتسريع استنتاج GPT. يعد كل من البث وDeepSpeed اختياريين ولكن يوصى بهما.

دائمًا ما يستغرق السؤال الأول بعد بدء تشغيل الخادم وقتًا أطول (حوالي 10 ثوانٍ) حيث يتعين على الخادم تحميل نماذج الذكاء الاصطناعي. عند استخدامه في محرر Unity، نادرًا ما يكون لديك توقف مؤقت لجمع البيانات المهملة (يمكن ملاحظته نوعًا ما مع الصوت). لكنني سأفاجأ إذا حصلت بالفعل على مشكلة GC في بناء الإنتاج.

يجب أن أقول، أنا مسليا. كنت أتوقع بعض المشاكل عند استخدام نفس وحدة معالجة الرسومات لكل من عرض Unity والذكاء الاصطناعي. كنت أعلم أن تطبيق Android/iOS كان وسيلة احتياطية سهلة لإلغاء تحميل تكلفة Unity على جهاز منفصل. ولكن ليس من الضروري على أجهزتي. من غير المتوقع أن يعمل بسلاسة. لن أشتكي. لقد قمت أيضًا بتقييد Unity بـ 30 إطارًا في الثانية (فقط في حالة).

المواصفات

وحدة معالجة الرسومات: RTX 3060 مع 12 جيجابايت من VRAM. إنها وحدة معالجة رسوميات بقيمة 250 دولارًا، وهي مناسبة بشكل مريح في نطاق المستهلك.
وحدة المعالجة المركزية: ايه ام دي رايزن 5 5600.
ذاكرة الوصول العشوائي: 16 جيجابايت.
نظام التشغيل: ويندوز 11.
القرص الصلب: كثير.
الوحدة: 2022.3.21f1. أحدث LTS في وقت كتابة هذا التقرير.
LLM: جيما:2b-instruct (معلمات 3B). المستندات على أولاما.
تحويل النص إلى كلام: إكس تي إس v2.0.
الدقة الافتراضية: 1280x720. يمكنك الانتقال إلى مستوى أعلى أو ترقية DLSS/FSR.

مزيد من التحسينات

تكميم LLM لمعالجة المزيد من العناصر في وقت واحد. كمنتج ثانوي، ربما يناسب طراز 7B؟
أسرع نموذج تحويل النص إلى كلام. ما عليك سوى اختيار واحد من مكتبة TTS. أو استخدم Piper الذي يعمل حتى على Raspberry Pi.
استخدم مكتبات مثل DeepSpeed وflash-attention وغيرها.
- تم دمج DeepSpeed بالفعل في التطبيق. سيتم اكتشافه تلقائيًا إذا تم تثبيته. راجع INSTALL_AND_USAGE.md لمزيد من التفاصيل.
FSR/DLSS لدقة فيديو أعلى. تحتوي Unity على FSR 1 مدمج.
بعض سحر أداء الوحدة. أنا لست خبيرا. أو لا تستخدم HDRP.
قم بتحسين النموذج ثلاثي الأبعاد، واستخدم تظليلات أقل تكلفة، وأنسجة أصغر، وما إلى ذلك.

إذا ذهبت إلى لوحة التحكم سوف ترى التوقيتات الخاصة بكل مرحلة استجابة. بالنسبة إلى Unity، استخدم ملف التعريف المدمج.

الاستخدام

راجع INSTALL_AND_USAGE.md. ويتضمن أيضًا إرشادات حول كيفية استخدام/توسيع الميزات الحالية.

التعليمات

الأسئلة أدناه تدور حول الفلسفة العامة لهذا التطبيق. للحصول على المزيد من الأسئلة الشائعة الموجهة نحو الاستخدام، راجع INSTALL_AND_USAGE.md.

س: ما هي القيمة المضافة؟

يوضح هذا التطبيق أن لدينا بالفعل التكنولوجيا اللازمة لتقديم صورة رمزية ثلاثية الأبعاد مفصلة وتشغيل عدد قليل من الشبكات المحايدة على وحدة معالجة رسومات واحدة من فئة المستهلك في الوقت الفعلي. إنه قابل للتخصيص ولا يحتاج إلى اتصال بالإنترنت. ويمكنه أيضًا العمل في بنية خادم العميل، لتسهيل العرض على الأجهزة المحمولة على سبيل المثال.

س: لماذا إنشاء نموذج ثلاثي الأبعاد مخصص؟

كان بإمكاني استخدام نموذج Sintel القياسي. لقد خلقت شخصيتي الخاصة لأنني أستطيع ذلك. من سحب القمم، ورسم القوام، وتحريك الفم، وضبط فيزياء الشعر إلى الصورة الرمزية ثلاثية الأبعاد "الناطقة". إنها هواية ممتعة للغاية إذا قلت ذلك بنفسي.

لقد أردت أيضًا اختبار إعادة إسقاط النسيج من صورة مستقرة تم إنشاؤها بالانتشار. على سبيل المثال، يمكنك إضافة "أصلع" إلى الموجه الإيجابي و"شعر" إلى السالب. إنه يسرع سير العمل كثيرًا. للأسف، سيكون لإعادة الإسقاط نقاط بارزة، وما إلى ذلك، لإزالتها يدويًا.

لقد استخدمت Sintel كشبكة أساسية لأنها تحتوي بالفعل على مفاتيح الشكل الأساسية. خصيصًا للتحكم في كل جزء من الفم - ما عليك سوى إضافة برامج التشغيل المتوافقة مع Blender 4.0. هذا جعل من السهل إنشاء مفاتيح الشكل الملزمة. لقد استخدمت بالفعل نموذج Sintel عدة مرات في الماضي، لذلك كان من السهل التفكير في هذا المشروع.

ملاحظة: أنا أكره التزوير.

س: كيف يختلف هذا عن الصور الرمزية المستقرة الناتجة عن الانتشار؟

ربما تكون قد شاهدت شخصيات افتراضية "ناطقة" ومستقرة ومستقرة في الوقت الفعلي. إنها صورة ثابتة مع تجديد منطقة الفم في كل إطار بناءً على الصوت. ستلاحظ أنه غير مستقر. إذا قمت بتوزيع الأسنان في كل إطار، فسوف تتحرك باستمرار. لقد استخدمت الانتشار المستقر كثيرًا. لقد رأيت حصتي من أجزاء الجسم المشوهة (الأيدي!). إنه... ملحوظ بالأسنان. التطبيق الشائع هو SadTalker. حتى أنه يحتوي على امتداد Stable Diffusion web UI.

بدلاً من ذلك، يستخدم تطبيقي تقنية قديمة مملة كانت موجودة في ألعاب الفيديو لسنوات. إذا كان لديك مئات الساعات من الحوار (Baldur's Gate 3، Cyberpunk 2077، وما إلى ذلك)، فلن تتمكن من تحريك كل شيء يدويًا. يتم استخدام أنظمة مثل JALI في كل عنوان رئيسي.

إذا كنت تريد شخصيات متحركة في الوقت الفعلي، فلماذا تستخدم الذكاء الاصطناعي فقط؟ لماذا لا نبحث عن الحلول التي يستخدمها أكبر قطاع ترفيهي في العالم؟ على الأقل يمكنك استخدامه كقاعدة لـ img2img. في السنوات الأخيرة كان لدينا أيضًا VTubers، الذين يتفوقون كل يوم. يعتمد الكثير من هذه الأشياء على التكنولوجيا التي طورها معجبو Hatsune Miku.

س: كيف يختلف هذا عن نيورو سما؟

Neuro-sama هي إحدى قنوات البث الافتراضية الشهيرة. إنها شخصية تعتمد على الذكاء الاصطناعي وتلعب ألعاب الفيديو وتتحدث مع منشئها، فيدال. إليك كيفية تكديس تطبيقي ضده:

محلية 100%. AFAIK لم يتم نشر كيفية عمل Neuro-sama بالضبط. من المفترض أن تحويل النص إلى كلام هو Ashley من MS Azure مع درجة حرارة أعلى. باستخدام تطبيقي، يمكنك فحص الكود. أو افصل كابل RJ45.
3D. جميع مستخدمي VTuber تقريبًا يستخدمون VTubeStudio. إنه أمر رائع إذا كنت تبحث عن مظهر الأنمي. ومع ذلك، قد يرغب البعض في تجربة النماذج ثلاثية الأبعاد. سواء كان ذلك للإضاءة الواقعية أو الفيزياء التفاعلية. أما بالنسبة لي، فقد نشأت وأنا أشاهد Toy Story 1 في المدرسة الابتدائية.
كل شيء قابل للتكوين. قم بتبديل نماذج اللغة أو الأصوات الكبيرة. استبدل النموذج ثلاثي الأبعاد بالكامل أو لون الشعر فقط.
يستخدم محرك اللعبة Unity. يمكنك أن تفعل كل شيء حرفيا.
مفتوح المصدر.

س: ما هو الترخيص؟

يتضمن هذا التطبيق كود المصدر/الأصول التي أنشأها أشخاص آخرون. يحتوي كل مثيل على ملف README.md مخصص في مجلده الفرعي الذي يشرح الترخيص. على سبيل المثال، لقد التزمت بكود مصدر الريبو هذا لمكتبة "Oculus Lipsync"، التي لديها ترخيصها الخاص (اقبله قبل الاستخدام!). XTTS v2.0 مخصص أيضًا للاستخدام غير التجاري فقط. تؤثر الفقرات أدناه فقط على الأشياء التي قمت بإنشائها.

انها GPLv3. إنها إحدى تراخيص الحقوق المتروكة. يجب أن تكون تراخيص GPL/الحقوق المتروكة مألوفة لدى معظم المبرمجين من Blender أو Linux kernel. إنه أمر متطرف للغاية، لكنه تمليه طبيعة التطبيق. وعلى وجه الخصوص، أحد الاستخدامات المحتملة.

لقد شاهدت مؤخرًا "كابوس Apple بقيمة 3500 دولار" للمخرج إيدي بورباك. إنها مراجعة لـ Apple Vision Pro بقيمة 3500 دولار (!). يسمح أحد التطبيقات المقدمة للمستخدم بمواعدة "صديقة" تعمل بالذكاء الاصطناعي. تحتوي الواجهة على صورة مستقرة تم إنشاؤها على اليسار (أشم رائحة PastelDiffusedMix مع Seraphine LoRA؟). الدردشة النصية على اليمين. هل هذا هو أحدث ما توصلت إليه التكنولوجيا لهذا النوع من البرامج؟ إنه كسول.

أوفك. كانت تطبيقات المواعدة عبر الهاتف المحمول مليئة بالخلافات منذ البداية. لا ترغب شركة Tinder and Co. في خسارة العملاء المتكررين. هناك الكثير من عمليات الاحتيال حتى قبل أن نصل إلى التعلم الآلي. هناك الملايين من ملفات تعريف الذكاء الاصطناعي على Tinder. ومع المواعدة المباشرة باستخدام الذكاء الاصطناعي، فهي مشكلة أخرى تمامًا.

س: هل يمكنني استخدام هذا لنماذج واقعية؟

يمكنك استخدام أي نموذج تريد. تستخدم مزامنة الشفاه مفاتيح الشكل التي تتوافق مع نصوص ovrlipsync. من خلال العرض التكنولوجي لـ "الأعداء"، أثبتت Unity قدرتها على تقديم بشر واقعيين.

أنا شخصياً سأستخدم الإنسان الخارق لـ Unreal Engine. سيكون عليك إعادة كتابة رمز الوحدة الخاص بي. مقابل هذا الجهد، ستحصل على منصة حديثة وأصول مجانية عالية الدقة. يمكنك أيضًا محاولة استيراد metahuman إلى Unity.

لسبب ما، لا تحتوي Unity على مسار مدمج للشخصيات البشرية. حتى عند إنشاء الفيلم السينمائي "الأعداء" المرتبط أعلاه، لم يكلفوا أنفسهم عناء جعله قابلاً للحياة على مستوى المجتمع. إنها مجموعة مخصصة من الأدوات المصممة خصيصًا لبرنامج Autodesk Maya. ولم أسمع قط عن تنسيق ملف المقطع رباعي الأبعاد. تهانينا لقائد المشروع! إنه قرار محير. على سبيل المثال، لديهم HairFX الخاص بهم لتمثيل الشعر ومحاكاته. يعتمد على TressFX. لقد قمت بنقل TressFX إلى OpenGL وWebGL وVulkan. أنا أفهم ذلك جيدا. وبعد هذا التطبيق يستخدم بطاقات الشعر! يحتوي Sintel الأصلي على شعر قائم على الخيوط، وكان من المفترض أن تكون هذه عملية تصدير بسيطة. تحتاج هذه الأنظمة إلى التوثيق المناسب.

وفي نهاية المطاف، الأداة هي مجرد أداة. أتمنى أن يكون الاتحاد قد رتب أولوياته. أود أن أقول إن تقديم الأشخاص أمر مهم للغاية في سوق اليوم.

س: هل يمكنني استخدام هذا لنماذج ثنائية الأبعاد/أنيمي؟

نعم، ولكن تأكد من أنك تفهم سبب رغبتك في استخدام محرك ثلاثي الأبعاد لتقنية العرض ثنائي الأبعاد. بالنسبة إلى Guilty Gear Xrd، كان على المؤلفين تعديل المعايير على أساس كل إطار. حتى يومنا هذا، لا تزال تقنية 3D تثير استياء محبي الأنيمي. الاستثناء الوحيد (على حد علمي) هو أرض اللامعة. ويساعد في ذلك تكوين اللقطة المذهل.

بالنظر إلى الرسوم المتحركة الغربية في الوقت الفعلي، فلدينا على سبيل المثال Borderlands. إنه يكرر أسلوب الكتاب الهزلي باستخدام الإضاءة المسطحة والألوان الصامتة وخطوط الحبر السميكة. هناك الكثير من البرامج التعليمية على YouTube للتظليل المسطح، لكنك لن تحصل على نتيجة قريبة دون أن تكون جيدًا في رسم الأنسجة.

على الرغم من أن هذا قد يبدو محبطًا، إلا أنني أريدك أن تفكر في هدفك. هناك سبب يجعل الجميع يستخدمون VTubeStudio وLive2D. إنشاء نماذج ثنائية وثلاثية الأبعاد ليس له أي مقارنة من حيث التعقيد، فهو ليس حتى نفس الشكل الفني.

تجاهل كل ما قلته أعلاه إذا كنت تعمل لدى Riot Games، أو Fortiche، أو Disney/Pixar DreamWorks، أو Sony Pictures Animation.

س: لماذا Unity على Unreal Engine 5؟

حجم تثبيت الوحدة أصغر. وهو يستهدف الهواة. يمكنك فقط كتابة برنامج نصي C# وإفلاته على كائن لإضافة سلوك جديد. في حين أن تجربة المستخدم يمكن أن تكون في كل مكان، إلا أنها لا تحتوي على أي احتكاك في الجوانب الأساسية.

يتفوق Unity على UE5 في سهولة الاستخدام ووقت التكرار. السبب الرئيسي للتبديل إلى UE5 هو أن يكون إنسانًا خارقًا (!) أو إنتاجًا افتراضيًا أو mocap متوافقًا مع معايير الصناعة.

س: ما مدى ذكائه؟

يعتمد على نموذج LLM. الافتراضي gemma:2b-instruct صغير جدًا (3 مليار معلمة). يمكنه إنشاء جمل متماسكة، ولكن هذا هو المدى الذي يمكن أن يصل إليه في الغالب. إذا كان بإمكانك استخدام نموذج 7B المتطور (حتى مع التكميم)، أو نموذج أكبر، فافعله. يمكنك دائمًا استبداله بـ ChatGPT أيضًا. أو استخدم إعداد GPU متعدد. أو، قم بتشغيل Unity على هاتف محمول، أو تشغيل TTS على Raspberry PI، واحصل على VRAM كامل لـ LLM.

س: هل يدعم الرسوم المتحركة الخاصة مثل احمرار الوجه والابتسام وما إلى ذلك؟

لم أقم بإضافة هذا. سيتطلب إضافة حالات خاصة إلى النموذج ثلاثي الأبعاد. على سبيل المثال، قد يكون من الصعب تحريك الفم أثناء مزامنة الشفاه. يتم عادةً احمرار الخدود باستخدام الصور الرمزية ثلاثية الأبعاد عن طريق مزج نسيج خاص في رسم بياني للتظليل.

ومع ذلك، فإن التكنولوجيا الأساسية موجودة بالفعل. إذا كنت تريد اكتشاف المشاعر في النص، فيمكنك استخدام LLM لتحليل المشاعر. لقد أضفت أيضًا التقنية لتشغيل الأحداث باستخدام WebSocket. أجهزة الصراف الآلي بدأت تأثير الجسيمات. يتعامل نصف كود C# مع تشغيل مفاتيح الشكل. الوميض هو وظيفة يتم استدعاؤها كل بضع ثوانٍ. بمجرد إنشاء تفاعل على النموذج ثلاثي الأبعاد، يمكنك البدء به في أي وقت. إنها تستغرق وقتًا طويلاً فقط في الإنشاء.

س: هل حاولت تطبيق تعديل الذكاء الاصطناعي على الإطار المعروض؟ مثل تحويل img2img قبل عرضه للمستخدم؟

نعم، حاولت (لم تتم إضافته إلى هذا الريبو). كانت الخطة الأصلية هي نقل نمط الإطار المقدم إلى صورة ثابتة يتم إنشاؤها بالانتشار. من خلال تجاربي السريعة، بالإضافة إلى مشاكل الأداء، فإن أبسط الحلول لا تتمتع بالجودة اللازمة أو الاستقرار الزمني.

ليس لدينا ميزانية أداء لتشغيل VGG16/19. وهذا يستثني التقنيات "الأصلية" مثل "الخوارزمية العصبية للأسلوب الفني" [Gatys2015] أو "الخسائر الإدراكية لنقل النمط في الوقت الفعلي والدقة الفائقة" [Johnson2016]. لم ينظر أي منهم أيضًا إلى الخفقان. لقد تم تصميمها فقط للصور الثابتة وليس لمقاطع الفيديو. وكانت هناك أعمال أخرى بحثت في هذه المشكلة: [Jamriska2019]، [Texler2020].

أعلم أن Unity حاولت أيضًا نقل النمط في الوقت الفعلي في عام 2020: "نقل النمط في الوقت الفعلي في Unity باستخدام الشبكات العصبية العميقة".

بعد ذلك، نحن في منطقة المحولات (مفاجأة!). في العام الماضي، استخدم "تعزيز البيانات باستخدام نماذج الانتشار (DATUM)" [CVPR-W 2023] الانتشار (مرة أخرى، مفاجأة!). هناك فئة أوراق تحتوي على كود تسمى الترجمة الاصطناعية إلى الحقيقية إذا كنت تريد تتبع أحدث التطورات.

في هذه المرحلة، قررت أن محاولة دمج هذا في التطبيق كان بمثابة زحف للميزات.

كانت هناك حلقة من "ورقتين في الدقيقة" تناولت تقنيات مماثلة: "لعبة الفيديو من Intel تبدو مثل الواقع!". استنادًا إلى "تحسين تحسين الصورة الواقعية" من Intel [Richter2021].

س: هل تم تضمين النموذج ثلاثي الأبعاد؟

نعم، تحقق من .fbx داخلUnity-project/Assets/Sintel.

س: ما هو الاسم؟

جميع مشاريعي لها أسماء نفعية. هذه المرة أردت شيئًا أكثر تميزًا. القزحية هي زهرة أرجوانية زرقاء. القزحية هي جزء من العين. بدا مناسبا؟ خاصة وأن العيون والشعر هما المشكلتان في شخصيات CG.

يذكر الشرفاء

3D

خلاط، معهد الخلاط.
برنامج جيمب وإنكسكيب. أنا معتاد عليهم لدرجة أنني نسيت أن أذكرهم تقريبًا.
سينتل لايت 2.57b من بيندانسي. تستخدم كشبكة أساسية.
21 مجموعة تسريحات الشعر الحقيقية للرجل من فنسنت بيج.
mixamo للرسوم المتحركة.
طن من أدلة الرسوم المتحركة. أعجبتني بشكل خاص مقاطع فيديو السير ويد نيشتات على موقع يوتيوب:
- عيون متحركة: يومض الحرف،
- سير العمل السري لتحريك الحوار.