Lompat melintasi hambatan bahasa dengan menggunakan AI untuk berkomunikasi dengan pengguna online lain dari seluruh dunia! Languageleapai bertujuan untuk memberi Anda asisten AI bahasa real-time yang dapat memahami dan berbicara bahasa yang Anda inginkan dengan lancar. (Ditargetkan untuk bahasa Inggris ke Jepang dan Jerman saat ini)
Panduan Pengaturan: https://www.youtube.com/watch?v=BN5UAEKIPGM
Showcase: https://www.youtube.com/watch?v=uy7srb60wz4
Proyek ini mengintegrasikan 3 sistem AI gratis dan sumber terbuka:
Whisperai dan Voicevox keduanya memiliki gambar Docker yang tersedia di Dockerhub, jadi kami akan membangun dan menjalankan keduanya melalui file Docker Compose. Deepl dapat berinteraksi dengan dengan mendaftar untuk rencana gratis dan berinteraksi dengan API REST hingga 500.000 batas / bulan. Jika Deepl tidak tersedia di negara Anda, opsi untuk menggunakan Google Translate sebagai gantinya tersedia.
Languageleapai terdiri dari 2 program Python utama.
Yang pertama, voice_translator.py, merekam mikrofon Anda setiap kali kunci push-to-talk ditahan pada keyboard. Setelah kunci ini dirilis, ia menyimpan suara Anda dalam file audio yang kemudian dikirim ke titik akhir transkripsi Whisperai yang menjalankan pengenalan suara otomatis (ASR) di atasnya. Setelah tanggapan yang berisi pidato Anda saat teks diterima, teks ini kemudian diterjemahkan menggunakan API REST Deept.
Teks yang diterjemahkan kemudian dikirim ke Voicevox yang melakukan teks-ke-speech dan menghasilkan file audio yang disuarakan dalam bahasa Jepang. File ini kemudian diputar ke input mikrofon aplikasi target Anda dan speaker/headphone Anda.
Karena Voicevox hanya mengambil teks Jepang sebagai input dan menghasilkan pidato dalam bahasa Jepang, proyek ini secara teknis hanya terbatas pada bahasa Jepang sebagai bahasa target. Namun, Voicevox dapat diganti dengan program teks lain untuk berbicara yang dapat berbicara bahasa yang Anda inginkan untuk kemungkinan tanpa batas.
Thorsten telah ditambahkan sebagai program TTS Jerman.
Yang kedua, subtitler.py, merekam output audio aplikasi Anda dan mendengarkan latar belakang untuk pidato apa pun. Setelah mendeteksi bahwa frasa/kalimat selesai, ia menyimpan audio ke dalam file WAV dan mengirimkannya ke titik akhir terjemahan Whisperai yang menerjemahkan pidato dari bahasa target ke bahasa Inggris.
Teks bahasa Inggris ini kemudian ditampilkan di layar menggunakan modul Tkinter Python, pada dasarnya bertindak sebagai subtitle.
Target audiens Languageleapai adalah untuk pengguna yang ingin mengobrol dengan yang lain tetapi tidak berbicara bahasa yang sama. Contohnya adalah pengguna berbahasa Inggris yang memainkan game online di server Jepang tetapi ingin menggunakan obrolan suara meskipun tidak tahu bahasa Jepang.
Dengan menjalankan subtitler.py dan voice_translator.py, mereka dapat memahami sesama rekan tim Jepang mereka dengan membaca subtitle bahasa Inggris yang dihasilkan secara real time. Mereka juga dapat berbicara bahasa Inggris dan rekan -rekan setimnya di Jepang akan mendengar pidato Jepang yang diterjemahkan yang dihasilkan oleh Voicevox.
Namun, ini bukan satu -satunya aplikasi languageleapai .
Pengguna hanya ingin memahami apa yang dikatakan tanpa perlu berbicara. Misalnya menonton video / stream / film dalam bahasa lain tanpa subtitle. Pengguna dapat memilih untuk tidak menjalankan voice_translator.py dan cukup menggunakan subtitler.py.
Pengguna memahami bahasa yang cukup untuk mendengarkan dan memahami, tetapi takut berbicara bahasa karena berbagai alasan, misalnya anonimitas / ketakutan mengacaukan atau menyinggung. Pengguna dapat memilih untuk tidak menjalankan subtitler.py dan cukup menggunakan voice_translator.py.
Menyiapkan languageleapai membutuhkan 3 langkah penting, jadi jangan lewatkan salah satu dari mereka!
Untuk menjalankan languageleapai , Anda harus pertama kali menjalankan Whisperai dan voicevox. Mereka dapat dijalankan melalui Docker atau menggunakan Google Colab.
Jika GPU Anda tidak cukup kuat, Anda mungkin ingin mempertimbangkan menjalankan Whisperai dan Voicevox menggunakan GPU Google Colab.
Unggah run_whisper_n_voicevox.ipynb file ke Google Drive, buka notebook dengan Google Colab dan cukup ikuti instruksi!
Untuk menjalankan hanya bisikan atau voicevox di cloud: Gunakan run_whisper_colab.ipynb dan run_voicevox_colab.ipynb file colab sebagai gantinya!
Jika Anda masih ingin menjalankan bisikan dan voicevox di komputer Anda, jalankan perintah ini di folder yang berisi file Docker-Compose.yml.
Untuk menjalankan Whisperai dan Voicevox:
docker-compose up -d
Untuk berhenti menjalankan wadah:
docker-compose down
Jika Anda menjalankan Subsistem Windows untuk Linux (WSL) jangan lupa untuk mematikannya untuk merebut kembali RAM Anda. Ini hanya setelah Anda menghentikan wadah dan selesai menggunakan program.
wsl --shutdown
Jika Anda ingin menjalankan Voicevox versi Jerman, Anda perlu mengubah file komposisi Docker ke yang sesuai. TTS adalah satu -satunya hal yang berubah, jadi pastikan untuk juga mengubah TARGET_LANGUAGE_CODE
di file .env Anda.
Untuk menjalankan Whisperai dan Thorsten:
docker-compose -f docker-compose-de.yml up -d
Untuk berhenti menjalankan wadah:
docker-compose down
Jalankan perintah ini di folder SRC/.
Untuk menjalankan Audio Subtitler:
python subtitler.py
Untuk menjalankan penerjemah suara:
python voice_translator.py
Untuk menghentikan skrip Python, cukup tekan Ctrl+C
di terminal.
Beberapa hal penting yang perlu diingat saat menggunakan languageleapai .
Perhatikan bahwa Whisperai bukan yang paling akurat dan tidak akan menuliskan pidato dengan benar 100% dari waktu, jadi gunakan dengan risiko Anda sendiri. Sampai Openai memutuskan untuk meningkatkan dataset yang digunakan untuk melatih model Whisper, ini harus dilakukan.
Juga, Whisper tidak dirancang untuk menangani beberapa permintaan bersamaan sekaligus. Namun, agar subtitle diperbarui dalam waktu, beberapa permintaan dikirim secara tidak sinkron, sehingga beberapa permintaan dapat mengembalikan kesalahan.
Jika Anda menjalankan Whisper dan Voicevox di cloud menggunakan Google Colab, karena kami menggunakan Ngrok dan LocalTunnel untuk meng -host layanan kami, alamat IP publik acak yang mereka berikan mungkin masuk daftar hitam oleh perangkat lunak antivirus Anda. Jika AI tampaknya berhenti bekerja, itu mungkin karena antivirus Anda menghalangi koneksi ke alamat IP publik ini. Anda dapat memutarbalikkan alamat IP ini atau hanya mematikan perlindungan web antivirus Anda dengan risiko Anda sendiri .
Ada syarat dan ketentuan tertentu untuk menggunakan suara -suara dari Voicevox, jadi bacalah ini sebelum menggunakan pembicara tertentu.
Kode Langalageleapai dirilis di bawah lisensi MIT. Lihat lisensi untuk perincian lebih lanjut.