?️Alat GenAI Gambar ke Ucapan Menggunakan LLM ?♨️
Alat AI yang menghasilkan cerita pendek Audio berdasarkan konteks gambar yang diunggah dengan menggunakan model GenAI LLM, model AI Hugging Face bersama dengan OpenAI & LangChain. Dikerahkan di Streamlit & Memeluk Space Cloud Secara Terpisah.
?Jalankan Aplikasi dengan Streamlit Cloud
Luncurkan Aplikasi Di Streamlit
?Jalankan Aplikasi dengan HuggingFace Space Cloud
Luncurkan Aplikasi Di HuggingFace Space
Demo:
Anda dapat mendengarkan masing-masing file audio dari gambar demo pengujian ini di folder img-audio
masing-masing
?Desain Sistem
?Mendekati
Sebuah aplikasi yang menggunakan model Hugging Face AI untuk menghasilkan teks dari gambar, yang kemudian menghasilkan audio dari teks tersebut.
Eksekusi dibagi menjadi 3 bagian:
- Gambar ke teks: model transformator gambar-ke-teks (Salesforce/blip-image-captioning-base) digunakan untuk menghasilkan skenario teks berdasarkan pemahaman AI pada konteks gambar
- Teks ke cerita: Model OpenAI LLM diminta untuk membuat cerita pendek (50 kata: dapat disesuaikan sesuai kebutuhan) berdasarkan skenario yang dihasilkan. gpt-3.5-turbo
- Story to Speech: model transformator text-to-speech (espnet/kan-bayashi_ljspeech_vits) digunakan untuk mengubah cerita pendek yang dihasilkan menjadi file audio narasi suara
- Antarmuka pengguna dibangun menggunakan streamlit untuk memungkinkan pengunggahan gambar dan memutar file audio
Anda dapat mendengarkan file audio masing-masing dari gambar tes ini di folder img-audio
masing-masing
?Persyaratan
- os
- python-dotenv
- transformator
- obor
- rantailang
- terbuka
- permintaan
- terang benderang
Penggunaan
- Sebelum menggunakan aplikasi, pengguna harus memiliki token pribadi untuk Hugging Face dan Open AI
- Pengguna harus mengatur lingkungan venv dan menginstal perpustakaan ipykernel untuk menjalankan aplikasi pada ide sistem lokal.
- Pengguna harus menyimpan token pribadi dalam file ".env" di dalam paket sebagai objek string dengan nama objek: HUGGINGFACE_TOKEN dan OPENAI_TOKEN
- Pengguna kemudian dapat menjalankan aplikasi menggunakan perintah: streamlit run app.py
- Setelah aplikasi berjalan di streamlit, pengguna dapat mengunggah gambar target
- Eksekusi akan dimulai secara otomatis dan mungkin memerlukan waktu beberapa menit untuk menyelesaikannya
- Setelah selesai, aplikasi akan menampilkan:
- Teks skenario yang dihasilkan oleh model HuggingFace transformator gambar-ke-teks
- Cerita pendek dihasilkan dengan mendorong OpenAI LLM
- File audio menceritakan cerita pendek yang dihasilkan oleh model transformator text-to-speech
- Menerapkan Aplikasi Gen AI di streamlit cloud dan Hugging Space
▶️ Instalasi
Kloning repositori:
git clone https://github.com/GURPREETKAURJETHRA/Image-to-Speech-GenAI-Tool-Using-LLM.git
Instal paket Python yang diperlukan:
pip install -r requirements.txt
Siapkan kunci API OpenAI & Token Wajah Pelukan Anda dengan membuat file .env di direktori root proyek dengan konten berikut:
OPENAI_API_KEY=<your-api-key-here>
HUGGINGFACE_API_TOKEN=<<your-access-token-here>
Jalankan aplikasi Streamlit:
streamlit run app.py
©️ Lisensi
Didistribusikan di bawah Lisensi MIT. Lihat LICENSE
untuk informasi lebih lanjut.
Jika Anda menyukai Proyek LLM ini, kunjungi repo ini dan Kontribusi dipersilakan! Jika Anda memiliki saran untuk meningkatkan AI Img-Speech Converter ini, silakan kirimkan permintaan tarik.?
Ikuti saya