️أداة تحويل الصورة إلى كلام GenAI باستخدام LLM ♨️
أداة الذكاء الاصطناعي التي تنشئ قصة صوتية قصيرة بناءً على سياق الصورة التي تم تحميلها عن طريق المطالبة بنموذج GenAI LLM ونماذج Hugging Face AI مع OpenAI وLangChain. تم نشره على Streamlit & Hugging Space Cloud بشكل منفصل.
قم بتشغيل التطبيق باستخدام Streamlit Cloud
قم بتشغيل التطبيق على Streamlit
قم بتشغيل التطبيق باستخدام HuggingFace Space Cloud
إطلاق التطبيق على HuggingFace Space
العرض التوضيحي:
يمكنك الاستماع إلى الملف الصوتي الخاص بهذه الصور التجريبية التجريبية في مجلد img-audio
المعني
?تصميم النظام
؟يقترب
تطبيق يستخدم نماذج Hugging Face AI لإنشاء نص من صورة، ثم يقوم بعد ذلك بإنشاء صوت من النص.
ينقسم التنفيذ إلى 3 أجزاء:
- صورة إلى نص: يتم استخدام نموذج تحويل الصورة إلى نص (Salesforce/blip-image-captioning-base) لإنشاء سيناريو نصي يعتمد على فهم الذكاء الاصطناعي لسياق الصورة
- تحويل النص إلى قصة: يُطلب من نموذج OpenAI LLM إنشاء قصة قصيرة (50 كلمة: يمكن تعديلها حسب المتطلبات) بناءً على السيناريو الذي تم إنشاؤه. gpt-3.5-توربو
- القصة إلى كلام: يتم استخدام نموذج تحويل النص إلى كلام (espnet/kan-bayashi_ljspeech_vits) لتحويل القصة القصيرة التي تم إنشاؤها إلى ملف صوتي مروي بالصوت
- تم إنشاء واجهة مستخدم باستخدام Streamlit لتمكين تحميل الصورة وتشغيل الملف الصوتي
يمكنك الاستماع إلى الملف الصوتي الخاص بهذه الصورة الاختبارية في مجلد img-audio
المعني
؟متطلبات
- نظام التشغيل
- بيثون dotenv
- محولات
- الشعلة
- com.langchain
- openai
- طلبات
- تبسيط
الاستخدام
- قبل استخدام التطبيق، يجب أن يكون لدى المستخدم رموز شخصية لـ Hugging Face وOpen AI
- يجب على المستخدم تعيين بيئة venv وتثبيت مكتبة ipykernel لتشغيل التطبيق على بيئة تطوير النظام المحلية.
- يجب على المستخدم حفظ الرموز الشخصية في ملف ".env" داخل الحزمة ككائنات سلسلة تحت أسماء الكائنات: HUGGINGFACE_TOKEN وOPENAI_TOKEN
- يمكن للمستخدم بعد ذلك تشغيل التطبيق باستخدام الأمر:streamlit run app.py
- بمجرد تشغيل التطبيق على Streamlit، يمكن للمستخدم تحميل الصورة المستهدفة
- سيبدأ التنفيذ تلقائيًا وقد يستغرق الأمر بضع دقائق حتى يكتمل
- بعد الانتهاء سيعرض التطبيق:
- نص السيناريو الذي تم إنشاؤه بواسطة نموذج HuggingFace لمحول الصورة إلى نص
- القصة القصيرة التي تم إنشاؤها من خلال مطالبة OpenAI LLM
- الملف الصوتي الذي يروي القصة القصيرة الناتجة عن نموذج محول النص إلى كلام
- تم نشر تطبيق Gen AI على السحابة المبسطة ومساحة العناق
◀️ تثبيت
استنساخ المستودع:
git clone https://github.com/GURPREETKAURJETHRA/Image-to-Speech-GenAI-Tool-Using-LLM.git
قم بتثبيت حزم بايثون المطلوبة:
pip install -r requirements.txt
قم بإعداد مفتاح OpenAI API الخاص بك وHugging Face Token عن طريق إنشاء ملف .env في الدليل الجذر للمشروع بالمحتويات التالية:
OPENAI_API_KEY=<your-api-key-here>
HUGGINGFACE_API_TOKEN=<<your-access-token-here>
قم بتشغيل تطبيق Streamlit:
streamlit run app.py
©️ الترخيص
وزعت بموجب ترخيص معهد ماساتشوستس للتكنولوجيا. راجع LICENSE
لمزيد من المعلومات.
إذا أعجبك مشروع LLM هذا، فانتقل إلى هذا الريبو ونرحب بالمساهمات! إذا كان لديك أي اقتراحات لتحسين محول AI Img-Speech، يرجى إرسال طلب سحب.
اتبعني