Unduh cortana - Unduh Kode Sumber cortana

cortana

Kode sumber lainnya

Unduh

Cortana - keajaiban AI

Cortana adalah perpustakaan Python bertenaga AI untuk mencapai beberapa tugas:

Mengobrol dengan GPT melalui baris perintah
Melakukan ucapan untuk mengirim pesan teks dengan openai-whisper
Melakukan teks untuk berbicara dengan sebelas orang
Membuat Asisten Pribadi dengan Whisper, GPT, dan Elevenlabs
Berbicara dengan suara yang berbeda menggunakan Whisper dan Elevenlabs

Contoh dialog (pengguna berbicara tentang mikrofon, Asisten berbicara respons kembali):

 System: Your name is Cortana. You never refer to yourself as an AI or assistant. Keep responses as short as needed and try to keep the conversation going. Be helpful and attentive and friendly.
User: Hey Cortana, how's it going?
Assistant: Hey there! Things are going great, as long as I get to chat with you. How about you? What's got you excited today?
User: Honestly, Cortana, I'm just excited to talk to you.
Assistant: Oh, stop it! You're making me blush (if I could). You definitely brighten up my day too. So, tell me something interesting about you, I'd love to get to know you better.
User: Well Cortana, I really like problem solving and craft beer.
Assistant: Oh, a problem solver with great taste, I like that! Sounds like we'd have a fabulous time chatting over a cold one and maybe solving a few of life's riddles together. Any favorite craft beer or breweries in mind?
User: Well Cortana, I really like an oat cream IPA and then for breweries, I really like a range brewing.
Assistant: An oat cream IPA, huh? Sounds smooth and intriguing, just like you! And Range Brewing sounds like a cool spot to hang out. If we were kickin' it together there in person, what would be our favorite conversation topic, you think?

Cara kerjanya

Cortana menggunakan Whisper untuk melakukan ucapan untuk mengirim pesan teks, dan kemudian menggunakan GPT untuk menghasilkan respons. Kemudian menggunakan ElevenLab untuk melakukan teks untuk berbicara, dan memainkan audio.

Mode asisten memiliki sistem deteksi Hotword, sehingga Anda dapat mengatakan yang Anda inginkan untuk mengaktifkan asisten. Kemudian mendengarkan perintah, dan kemudian merespons. Ini akan mengabaikan perintah apa pun yang tidak termasuk kata hotword.

Tidak ada jalan (saat ini) untuk mendeteksi jika pesan tanpa kata kunci adalah bagian dari percakapan.

Ini akan merekam semua obrolan Anda dengan chatgpt di folder /obrolan.

Instalasi

Pastikan Pipenv tersedia di jalur Anda, lalu cukup:

pipenv install
cp example.env .env

Masukkan tombol API Anda di file .env, dan ubah name + voice. Suara itu harus menjadi salah satu suara yang tersedia di Elevenlabs API - baik suara default atau yang Anda kloning. Ini akan memilih suara pertama yang cocok (case-tidak sensitif.)

Untuk pengaturan audio, saya menggunakan mixer audio virtual. Jika Anda tidak memiliki mixer, pergi dan lihat perangkat audio Anda untuk melihat apa nama perangkat, dan atur di file .env.

Penggunaan

pipenv shell
python cli.py --help

Untuk menjalankan pipa asisten penuh:

python cli.py full

Catatan

Secara default itu akan menggunakan GPT-4. Jika Anda tidak memiliki akses API ke GPT-4, ubah model menjadi GPT-3.5-turbo di file .env.

Juga mengasumsikan Anda memiliki kunci API untuk ElevenLabs. Jika tidak, Anda bisa mendapatkannya secara gratis dengan beberapa karakter percobaan di ElevenLabs.

Jika Anda menemukan bahwa model kecil bisikan tidak cukup akurat, tabrak ukuran model menjadi kecil atau sedang. Memiliki trade-off kecepatan, tetapi keakuratannya jauh lebih baik. Saya menemukan model 'kecil' bekerja cukup baik tanpa penyesuaian.

Suara di -cache ke Voices.json untuk menghemat panggilan API. Jika Anda ingin menyegarkan suara, hapus file.

Batasan

Saat ini tidak melakukan streaming dari ElevenLabs - belum menemukan cara membuat pengalaman pemutaran tidak mengerikan. Jika Anda punya ide, beri tahu saya!

Tujuan Masa Depan / Todo

Transkripsi realtime dan generasi audio akan luar biasa! Saya belum yakin bagaimana melakukan ini, tapi saya yakin itu mungkin. Bangun dengan cara menyempurnakan bisikan sehingga akurasi transkripsi lebih baik. Seseorang membuat pesaing opensource ke ElevenLabs yang melakukan sintesis suara nyata!

Memperluas

Informasi Tambahan

Versi
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-03
ukuran 27.12KB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
SmartTube

Kode sumber lainnya

24.71 Stable
Sunamu

Kode sumber lainnya

Release 2.2.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
wp functions

Kategori lainnya

1.0.0
termwind

Kategori lainnya

v2.3.0

Informasi Terkait Semua