Unduh JARVIS ChatGPT - Unduh Kode Sumber JARVIS ChatGPT

JARVIS ChatGPT

Kode sumber lainnya

1.0.0

Unduh

Jarvis-Chatgpt: Asisten percakapan yang dilengkapi dengan suara Jarvis

Asisten interaktif berbasis suara yang dilengkapi dengan berbagai suara sintetis (termasuk suara Jarvis dari Ironman)

Gambar oleh Midjourney AI

Pernah bermimpi untuk menanyakan tip sistem yang sangat cerdas untuk meningkatkan baju besi Anda? Sekarang Anda bisa! Yah, mungkin bukan bagian baju besi ... proyek ini mengeksploitasi Openai Whisper, Openai Chatgpt dan IBM Watson.

Motivasi Proyek:

Berkali -kali ide datang pada saat terburuk dan mereka menghilang sebelum Anda memiliki waktu untuk menjelajahinya dengan lebih baik. Tujuan dari proyek ini adalah untuk mengembangkan sistem yang mampu memberikan tips dan pendapat dalam waktu semu tentang apa pun yang Anda minta. Asisten utama akan dapat diakses dari mikrofon resmi di dalam rumah Anda atau ponsel Anda, itu harus berjalan terus -menerus di latar belakang dan ketika dipanggil harus dapat menghasilkan jawaban yang bermakna (dengan suara badass) serta antarmuka dengan PC atau server dan menyimpan/membaca/menulis file yang dapat diakses nanti. Seharusnya dapat menjalankan penelitian, mengumpulkan materi dari internet (mengekstrak konten dari halaman HTML, menyalin video YouTube, menemukan makalah ilmiah ...) dan memberikan ringkasan yang dapat digunakan sebagai konteks untuk membuat keputusan yang tepat. Selain itu, mungkin berinteraksi dengan beberapa gadget eksternal (IoT) tapi itu ekstra.

Demo:

2023-04-11.23-20-03_trim.mp4

14 Juli 2023 Pembaruan: Mode Penelitian

Saya dapat berbagi draf pertama dari mode penelitian. Modalitas ini dipikirkan untuk orang yang sering berurusan dengan makalah penelitian.

Beralih ke mode penelitian dengan mengatakan 'beralih ke mode penelitian'
Inisialisasi ruang kerja baru seperti ini: 'Inisialisasi ruang kerja baru tentang aplikasi serat karbon di industri pesawat ruang angkasa' . Ruang kerja adalah folder yang mengumpulkan dan mengatur hasil penelitian. Protokol ini dibagi lagi menjadi 3 sub-rutin:
1. Identifikasi Kertas Inti: Gunakan API Cendekia Semantik untuk mengidentifikasi beberapa makalah yang sangat relevan;
2. Ekspansi inti: Untuk setiap kertas, menemukan beberapa saran, maka hanya menyimpan saran yang tampaknya mirip dengan setidaknya 2 kertas;
3. Refy Expansion: Gunakan paket saran Refy untuk memperbesar hasil;
Temukan saran seperti: 'Temukan saran yang sutra di kertas dengan judul ...'
Unduh: 'Unduh kertas dengan judul ...'
Query database Anda seperti: 'Apa penulis makalah dengan judul ...?' 'Apa kondisi eksperimental yang ditetapkan untuk kertas dengan judul ...?'

PS: Mode ini tidak super stabil dan perlu dikerjakan

PPS: Proyek ini akan dihentikan untuk beberapa waktu karena saya akan mengerjakan tesis saya sampai 2024. Namun sudah ada begitu banyak hal yang dapat ditingkatkan sehingga saya akan kembali!

Apa yang Anda butuhkan:

PENAFIAN:
Proyek ini mungkin mengkonsumsi kredit openai Anda yang menghasilkan penagihan yang tidak diinginkan;
Saya tidak bertanggung jawab atas tuduhan yang tidak diinginkan;
Pertimbangkan untuk menetapkan batasan konsumsi kredit di akun OpenAI Anda;

Akun Openai dan Kunci API; (Periksa FAQ di bawah ini untuk alternatifnya)
Akun Picovoice dan AccessKey gratis; (opsional)
Akun ElevenLabs dan kunci API gratis (opsional) ;
Langchain API Keys untuk Web Surfing (Berita, Cuaca, Serpapi, Google-Serp, Google-Search ... semuanya gratis)
ffmpeg;
Lingkungan virtual Python (Python> = 3.9 dan <3.10);
Beberapa kredit untuk dibelanjakan untuk chatgpt (Anda bisa mendapatkan tiga bulan penggunaan gratis dengan mendaftar ke openai) (disarankan) ;
Versi CUDA> = 11.2;
Akun Cloud IBM untuk mengeksploitasi model teks-ke-speech berbasis cloud mereka (tutorial) (opsional) ;
Koneksi internet cepat (wajar) (sebagian besar kode bergantung pada API sehingga koneksi yang lebih lambat dapat menghasilkan waktu yang lebih lama untuk merespons);
mic dan speaker;
Mesin Grafis Cuda Capable (versi obor saya: 2.0 dan CUDA V11.7 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117 );
Kesabaran ?

Anda dapat mengandalkan setup.bat baru yang akan melakukan sebagian besar hal untuk Anda.

Tinjauan Github

Skrip utama Anda harus menjalankan: openai_api_chatbot.py Jika Anda ingin menggunakan versi terbaru dari API OpenAI di dalam folder demo, Anda akan menemukan beberapa panduan untuk paket yang digunakan dalam proyek, jika Anda memiliki kesalahan, Anda dapat memeriksa file -file ini terlebih dahulu untuk menargetkan masalah. Sebagian besar disimpan di folder asisten: get_audio.py menyimpan semua fungsi untuk menangani interaksi mic, tools.py mengimplementasikan beberapa aspek dasar dari asisten virtual, voice.py menggambarkan kelas suara kasar (sangat). Agents.py menangani bagian langchain dari sistem (di sini Anda dapat menambahkan atau menghapus alat dari toolkit agen)
Skrip yang tersisa adalah tambahan untuk generasi suara dan tidak boleh diedit.

Tutorial Instalasi

Instalasi Otomatis

Anda dapat menjalankan setup.bat jika Anda menjalankan di Windows/Linux. Script akan melakukan setiap langkah instalasi manual secara berurutan. Merujuk pada mereka jika prosedur harus gagal.
Instalasi otomatis juga akan menjalankan instalasi Vicuna (Panduan Instalasi Vicuna)

Instalasi Manual

Langkah 1: Instalasi, akun, API ...

Lingkungan

Buat lingkungan virtual baru yang kosong dengan Python 3.8 dan aktifkan (. Venv_name Scripts Activate);
pip install -r venv_requirements.txt ; Ini mungkin memakan waktu; Jika Anda mengalami konflik pada paket tertentu, instal secara manual tanpa ==<version> ;
Instal Pytorch secara manual sesuai dengan versi CUDA Anda;
Salin dan tempel file yang akan Anda temukan di folder whisper_edits ke folder whisper lingkungan Anda (. Venv lib situs-situs Whisper ) pengeditan ini akan menambahkan hanya atribut ke model Whisper untuk mengakses dimensinya dengan lebih mudah;
instal TTS;
Jalankan skrip mereka dan periksa semuanya berfungsi (harus mengunduh beberapa model) (Anda dapat menjalankan demos/tts_demo.py ) secara alternatif;
Ubah nama atau hapus folder TTS dan unduh asisten dan skrip lainnya dari repo ini
Pasang Vicuna mengikuti instruksi pada folder Vicuna atau dengan menjalankan:
cd Vicuna
call vicuna.ps1
Instruksi manual akan menginstruksikan Anda untuk mengikuti Panduan Instalasi Vicuna
Tempel semua kunci Anda di file env.txt dan ganti namanya ke .env (ya, hapus ekstensi txt)
Periksa semuanya berfungsi (berikut)

Cek

Verifikasi mesin grafis Anda dan versi CUDA kompatibel dengan pytorch dengan menjalankan torch.cuda.is_available() dan torch.cuda.get_device_name(0) di dalam pyhton; .
Jalankan tests.py . File ini berupaya melakukan operasi dasar yang mungkin menimbulkan kesalahan;
[Peringatan] Periksa FAQ di bawah ini jika Anda memiliki kesalahan;
Anda dapat memeriksa sumber kesalahan dengan menjalankan demo di folder demo;

Langkah 2: Dukungan Bahasa

Untuk memiliki jawaban yang diucapkan dalam bahasa Anda, Anda harus terlebih dahulu memeriksa apakah bahasa Anda didukung oleh generator ucapan di https://cloud.ibm.com/docs/text-toech?topic=text-to-feech-voices ;
Jika didukung, tambahkan atau ubah bahasa di dalam VirtualAssistant.__init__() ;

Ingat: Whisper yang dimuat adalah yang sedang. Jika berkinerja buruk dalam bahasa Anda, tingkatkan ke yang lebih besar di __main__() di whisper_model = whisper.load_model("large") ; Tapi saya harap memori GPU Anda juga besar.

Langkah 3: Menjalankan ( `openai_api_chatbot.py` ):

Saat berjalan, Anda akan melihat banyak informasi yang ditampilkan. Saya terus berusaha untuk meningkatkan keterbacaan eksekusi, seluruh proyek adalah beta besar, memaafkan sedikit variasi dari layar di bawah ini. Ngomong -ngomong, inilah yang terjadi secara umum saat Anda menekan 'lari':

Inisialisasi awal berlangsung, Anda harus mendengar lonceng ketika asisten siap;
Saat menunggu untuk memicu kata -kata ditampilkan, Anda harus mengatakan Jarvis untuk memanggil asisten. Pada titik ini, percakapan akan dimulai dan Anda dapat berbicara dalam bahasa apa pun yang Anda inginkan (jika Anda mengikuti langkah 2). Percakapan akan berakhir ketika Anda 1) mengucapkan kata berhenti 2) mengatakan sesuatu dengan satu kata (seperti 'ok') 3) saat Anda berhenti mengajukan pertanyaan selama lebih dari 30 detik

Setelah kata ajaib diucapkan, kata mendengarkan ... kemudian harus muncul. Pada titik ini, Anda dapat mengajukan pertanyaan. Ketika Anda selesai, tunggu saja (3 detik) untuk jawaban yang akan diserahkan;
Skrip akan mengonversi audio yang direkam menjadi teks menggunakan Whisper;
Teks akan dianalisis dan keputusan akan dibuat. Jika asisten percaya perlu mengambil tindakan untuk merespons (seperti mencari percakapan masa lalu), agen Langchain akan membuat rencana dan menggunakan alat mereka untuk menjawab.
Selain itu, skrip kemudian akan memperluas chat_history dengan pertanyaan Anda, itu akan mengirimkan permintaan dengan API dan akan memperbarui riwayat segera setelah menerima jawaban lengkap dari ChatGPT (ini mungkin memakan waktu hingga 5-10 detik, pertimbangkan secara eksplisit meminta jawaban singkat jika Anda terburu-buru);
Fungsi say() akan melakukan duplikasi suara untuk berbicara dengan Jarvis/suara seseorang; Jika argumennya tidak dalam bahasa Inggris, IBM Watson akan mengirimkan respons dari salah satu model teks-ke-speech mereka yang bagus. Jika semuanya gagal, fungsi akan bergantung pada pyttsx3 yang merupakan alternatif yang cepat namun tidak keren;

Ketika salah satu dari kata kunci berhenti dikatakan, skrip akan meminta chatgpt untuk memberikan judul untuk percakapan dan akan menyimpan obrolan di file .txt dengan format 'surterdate_title.txt';
Asisten kemudian akan kembali tidur;

Saya membuat beberapa petunjuk dan menutup percakapan

Kata kunci:

Untuk menghentikan atau menyimpan obrolan, katakan saja 'terima kasih' di beberapa titik;
Untuk memanggil suara Jarvis hanya mengatakan 'Jarvis' di beberapa titik;

tidak ideal yang saya tahu tetapi bekerja untuk saat ini

Sejarah:

sedang mengerjakan:

Perluas alat pemrosesan dokumen
Temukan alternatif gratis untuk agen langchain

mengikuti:

Memperbaiki bug panjang obrolan (saat obrolan terlalu lama tidak dapat diproses dengan chatgpt 3.5 turbo)
Memori memperluas
Laporan Kecelakaan
Sempurnakan kemampuan

Menunggu chatgpt4 ke:

Tambahkan Input Multimodal (yaitu "Apakah Anda Pikir 'Ini' [Memegang Pesawat Kertas] Bisa Terbang" -> Kamera -> Chatgpt4 -> "Anda harus meningkatkan ujung sayap")
Perpanjang memori proyek ke gambar, PDF, kertas ...

Periksa updateHistory.md proyek untuk wawasan lebih lanjut.

Selamat bersenang-senang!

Kesalahan dan FAQ

Kategori: Instal, Umum, Runtime

Instal: Saya memiliki paket yang bertentangan saat menginstal venv_requirements.txt , apa yang harus saya lakukan?

Pastikan Anda memiliki versi Python yang tepat (3.7) di .venv (> python --version dengan lingkungan virtual diaktifkan).
Cobalah untuk mengedit venv_requirements.txt dan hapus persyaratan versi dari dependensi yang terburuk.
Lurus Hapus paket dari file txt dan instal secara manual sesudahnya.

Instal: Saya bertemu kesalahan saat menjalankan openai_api_chatbot.py mengatakan: typeError: loadLibrary () Argumen 1 harus str, bukan tidak ada yang salah?

Masalahnya adalah Whisper. Anda harus menginstalnya ulang secara manual dengan pip install whisper-openai

Instal: Saya tidak dapat mengimpor 'openai.embeddings_utils'

Cobalah untuk pip install --upgrade openai .
Ini terjadi karena OpenAI meningkatkan persyaratan minimum mereka. Saya mengalami masalah ini dan menyelesaikannya dengan secara manual mengunduh embeddings_utils.py di dalam ./<your_venv>/lib/site-packages/openai/

3. Jika masalah tetap ada dengan `` `datalib``` angkat masalah dan saya akan memberikan Anda file 4 yang hilang. Tingkatkan ke Python 3.8 (Buat Env baru dan instal ulang TTS, Persyaratan)

Instal: Saya menemukan kesalahan ModuleNotFoundError: Tidak ada modul bernama '<beberapa modul>'

Persyaratan tidak diperbarui setiap komit. Meskipun ini mungkin menghasilkan kesalahan, Anda dapat dengan cepat menginstal modul yang hilang, pada saat yang sama membuat lingkungan tetap bersih dari konflik ketika saya mencoba paket baru (dan saya mencoba banyak dari mereka)

Jalankan Waktu: Saya menemukan beberapa memori oom saat memuat model bisikan, apa artinya?

Ini berarti model yang Anda pilih terlalu besar untuk memori perangkat CUDA Anda. Sayangnya, tidak banyak yang dapat Anda lakukan kecuali memuat model yang lebih kecil. Jika model yang lebih kecil tidak memuaskan Anda, Anda mungkin ingin berbicara 'lebih jelas' atau membuat permintaan yang lebih lama untuk membiarkan model memprediksi lebih akurat apa yang Anda katakan. Ini kedengarannya tidak nyaman tapi, dalam kasus saya, sangat meningkatkan bahasa Inggris saya :)

Jalankan waktu: Token panjang maksimal untuk chatgpt-3.5-turbo adalah 4096 tetapi menerima ... token.

Ini adalah bug yang masih ada, jangan berharap untuk pernah melakukan percakapan yang lama dengan asisten Anda karena hanya akan memiliki cukup memori untuk mengingat seluruh percakapan di beberapa titik. Perbaikan sedang dalam pengembangan, itu mungkin terdiri dari mengadopsi pendekatan 'geser jendela' bahkan jika itu dapat menyebabkan pengulangan beberapa konsep.

Umum: Saya menyelesaikan kredit/demo openai saya, apa yang dapat saya lakukan?

Online saja. Harganya tidak terlalu buruk dan Anda mungkin akan membayar beberapa dolar sebulan karena penetapan harga tergantung pada penggunaan (dengan pengujian berat saya akhirnya mengkonsumsi setara dengan ~ 4 dolar sebulan selama uji coba gratis saya). Anda dapat menetapkan batasan pada konsumsi token bulanan Anda.
Gunakan mode hybrid di mana tugas-tugas paling intensif kredit dieksekusi secara lokal secara gratis dan sisanya dilakukan secara online.
Pasang vicuna dan jalankan mode offline hanya dengan kinerja terbatas.

Umum: Untuk berapa lama proyek ini akan diperbarui?

Saat ini (April 2023) saya bekerja hampir tanpa henti dalam hal ini. Saya mungkin akan beristirahat di musim panas karena saya akan mengerjakan tesis saya.

Jika Anda memiliki pertanyaan, Anda dapat menghubungi saya dengan mengangkat masalah dan saya akan melakukan yang terbaik untuk membantu sesegera mungkin.

Gianmarco Guarnier

Memperluas

Informasi Tambahan