قفز عبر حواجز اللغة باستخدام الذكاء الاصطناعى للتحدث مع المستخدمين الآخرين عبر الإنترنت من جميع أنحاء العالم! يهدف LanguageLeapai إلى تزويدك بلغة AI في الوقت الفعلي يمكنه فهم لغتك المطلوبة والتحدث بها بطلاقة. (يستهدف اللغة الإنجليزية إلى اليابانية والألمانية حتى الآن)
دليل الإعداد: https://www.youtube.com/watch؟v=bn5uaekipgm
عرض: https://www.youtube.com/watch؟v=UY7SRB60WZ4
يدمج هذا المشروع 3 أنظمة AI مجانية ومفتوحة المصدر:
يحتوي كل من Whisperai و Voicevox على صور Docker على DockerHub ، لذلك سنقوم ببناء وتشغيلهما عبر ملف Conpose. يمكن التفاعل مع DEERL من خلال الاشتراك في خطة مجانية والتفاعل مع API REST حتى 500،000 حد / شهر. إذا لم يكن Deepl متاحًا في بلدك ، فإن خيار استخدام Google Translate متاح بدلاً من ذلك.
يتكون LanguageLeapai من برامج بيثون الرئيسية.
الأول ، Voice_Translator.py ، يسجل الميكروفون الخاص بك كلما تم تعليق مفتاح الدفع إلى الحديث على لوحة المفاتيح. بمجرد إصدار هذا المفتاح ، فإنه يحفظ صوتك في ملف صوتي يتم إرساله بعد ذلك إلى نقطة نهاية Whisperai التي تعمل على التعرف على الكلام التلقائي (ASR) عليها. بعد استجابة تحتوي على خطابك عند استلام النص ، يتم ترجمة هذا النص باستخدام API REST REST.
ثم يتم إرسال النص المترجم إلى Voicevox الذي يقوم بإجراء نص إلى كلام ويقوم بإنشاء ملف صوتي يتم التعبير عنه باللغة اليابانية. ثم يتم تشغيل هذا الملف على مدخلات الميكروفون الخاصة بالتطبيق المستهدف وسماعات السماعات الخاصة بك.
نظرًا لأن Voicevox يأخذ النص الياباني فقط كمدخلات ويولد الكلام باللغة اليابانية ، فإن المشروع يقتصر تقنيًا فقط على اليابانيين كلغة مستهدفة. ومع ذلك ، يمكن استبدال Voicevox بأي نص آخر في برنامج الكلام يمكنه التحدث بلغتك المطلوبة للحصول على إمكانيات لا حدود لها.
تمت إضافة Thorsten كبرنامج TTS الألماني.
السجل الثاني ، subtitler.py ، يسجل إخراج الصوت الخاص بك ويستمع في الخلفية لأي خطاب. بمجرد أن تكتشف أن عبارة/جملة اكتمال ، فإنها تحفظ الصوت في ملف WAV ويرسلها إلى نقطة نهاية Whisperai التي تترجم الكلام من اللغة المستهدفة إلى اللغة الإنجليزية.
ثم يتم عرض هذا النص الإنجليزي على الشاشة باستخدام وحدة Tkinter الخاصة بـ Python ، حيث تعمل بشكل أساسي كترجمات.
جمهور LanguageLeapai المستهدف هو للمستخدمين الذين يرغبون في الدردشة مع شخص آخر ولكن لا يتحدثون نفس اللغة. مثال على ذلك هو مستخدم يتحدث باللغة الإنجليزية يلعب لعبة عبر الإنترنت في خادم اليابان ولكنه يريد استخدام الدردشة الصوتية على الرغم من عدم معرفة اليابانية.
من خلال تشغيل كل من subtitler.py و voice_translator.py ، يمكنهم فهم زملائهم في الفريق الياباني من خلال قراءة الترجمات الإنجليزية الناتجة في الوقت الفعلي. يمكنهم أيضًا التحدث باللغة الإنجليزية وسيسمع زملاء الفريق اليابانيون الخطاب الياباني المترجم الذي تم إنشاؤه بواسطة Voicevox.
ومع ذلك ، ليس هذا هو التطبيق الوحيد لـ LanguageLeapai .
يريد المستخدم ببساطة أن يفهم ما يقال دون حاجة للتحدث. على سبيل المثال مشاهدة فيديو / دفق / فيلم بلغة أخرى دون ترجمات. يمكن للمستخدم اختيار عدم تشغيل Voice_Translator.py وبقع subtitler.py ببساطة.
يفهم المستخدم اللغة الكافية للاستماع والفهم ، لكنه يخشى التحدث باللغة لأسباب مختلفة ، على سبيل المثال عدم الكشف عن هويته / الخوف من العبث أو الإساءة. يمكن للمستخدم اختيار عدم تشغيل subtitler.py ببساطة استخدام voice_translator.py.
يتطلب إنشاء LanguageLeapai 3 خطوات مهمة ، لذلك لا تفوت أي منها!
لتشغيل LanguageLeapai ، تحتاج إلى تشغيل Whisperai و Voicevox أولاً. يمكن تشغيلها إما عبر Docker أو باستخدام Google Colab.
إذا لم يكن وحدة معالجة الرسومات الخاصة بك قوية بما يكفي ، فقد ترغب في التفكير في تشغيل Whisperai و Voicevox باستخدام وحدة معالجة الرسومات من Google Colab.
قم بتحميل ملف Run_whisper_n_voicevox.ipynb إلى Google Drive ، وافتح دفتر الملاحظات مع Google Colab واتبع ببساطة الإرشادات!
لتشغيل الهامس أو Voicevox فقط على السحابة: استخدم إما Run_whisper_colab.ipynb و Run_voicevox_colab.ipynb colab files بدلاً من ذلك!
إذا كنت لا تزال ترغب في تشغيل كل من Whisper و Voicevox على جهاز الكمبيوتر الخاص بك ، فقم بتشغيل هذه الأوامر في المجلد الذي يحتوي على ملف docker-corm.yml.
لتشغيل كل من Whisperai و Voicevox:
docker-compose up -d
للتوقف عن تشغيل الحاويات:
docker-compose down
إذا كنت تقوم بتشغيل نظام Windows الفرعي لـ Linux (WSL) ، فلا تنسى إغلاقه لاستعادة ذاكرة الوصول العشوائي. يجب أن يكون هذا فقط بعد إيقاف الحاويات ويتم القيام به باستخدام البرنامج.
wsl --shutdown
إذا كنت ترغب في تشغيل نسخة ألمانية من Voicevox ، فأنت بحاجة إلى تغيير ملف Docker-Compose إلى الإصدار المقابل. TTS هو الشيء الوحيد الذي يتغير ، لذا تأكد أيضًا من تغيير TARGET_LANGUAGE_CODE
في ملف .env الخاص بك.
لتشغيل كل من Whisperai و Thorsten:
docker-compose -f docker-compose-de.yml up -d
للتوقف عن تشغيل الحاويات:
docker-compose down
تشغيل هذه الأوامر في SRC/ المجلد.
لتشغيل الترجمة الصوتية:
python subtitler.py
لتشغيل المترجم الصوتي:
python voice_translator.py
لإيقاف البرامج النصية Python ، ما عليك سوى الضغط على Ctrl+C
في المحطة.
بعض الأشياء المهمة التي يجب وضعها في الاعتبار أثناء استخدام LanguageLeapai .
لاحظ أن Whisperai ليس هو الأكثر دقة ولن يقوم بنسخ الكلام بشكل صحيح بنسبة 100 ٪ من الوقت ، لذلك استخدم على مسؤوليتك الخاصة. حتى يقرر Openai تحسين مجموعة البيانات التي تم استخدامها لتدريب نماذج الهمس ، يجب القيام بذلك.
أيضًا ، تم تصميم Whisper للتعامل مع طلبات متعددة متزامنة في وقت واحد. ومع ذلك ، لكي يتم تحديث الترجمة في الوقت المناسب ، يتم إرسال طلبات متعددة بشكل غير متزامن ، لذلك قد تُرجع بعض الطلبات خطأ.
إذا كنت تقوم بتشغيل Whisper و Voicevox على السحابة باستخدام Google Colab ، نظرًا لأننا نستخدم Ngrok و LocalTunnel لاستضافة خدماتنا ، فقد يتم إدراج عنوان IP العام العشوائي الذي يقدمونه بواسطة برنامج مكافحة الفيروسات. إذا بدا أن الذكاء الاصطناعى يتوقف عن العمل ، فقد يكون ذلك بسبب حظر مكافحة الفيروسات على اتصالات عناوين IP العامة هذه. قد تقوم بتطوير هذه عناوين IP أو فقط إيقاف حماية الويب المضادة للفيروسات على مسؤوليتك الخاصة .
هناك بعض الشروط والأحكام لاستخدام الأصوات من Voicevox ، لذلك اقرأ على هذه قبل استخدام مكبر صوت معين.
يتم إصدار مدونة LanguageLeapai بموجب ترخيص MIT. انظر الترخيص لمزيد من التفاصيل.