Cortana هي مكتبة Python التي تعمل بالطاقة من الذكاء الاصطناعى لتحقيق العديد من المهام:
مثال على الحوار (يتحدث المستخدم في الميكروفون ، ويتحدث المساعد عن الردود):
System: Your name is Cortana. You never refer to yourself as an AI or assistant. Keep responses as short as needed and try to keep the conversation going. Be helpful and attentive and friendly.
User: Hey Cortana, how's it going?
Assistant: Hey there! Things are going great, as long as I get to chat with you. How about you? What's got you excited today?
User: Honestly, Cortana, I'm just excited to talk to you.
Assistant: Oh, stop it! You're making me blush (if I could). You definitely brighten up my day too. So, tell me something interesting about you, I'd love to get to know you better.
User: Well Cortana, I really like problem solving and craft beer.
Assistant: Oh, a problem solver with great taste, I like that! Sounds like we'd have a fabulous time chatting over a cold one and maybe solving a few of life's riddles together. Any favorite craft beer or breweries in mind?
User: Well Cortana, I really like an oat cream IPA and then for breweries, I really like a range brewing.
Assistant: An oat cream IPA, huh? Sounds smooth and intriguing, just like you! And Range Brewing sounds like a cool spot to hang out. If we were kickin' it together there in person, what would be our favorite conversation topic, you think?
يستخدم Cortana Whisper لإجراء الكلام للنص ، ثم يستخدم GPT لإنشاء استجابة. ثم يستخدم Elevenlabs لإجراء نص إلى الكلام ، ويلعب الصوت.
يحتوي وضع المساعد على نظام اكتشاف الكلمات الساخنة ، بحيث يمكنك قول ما تريده لتنشيط المساعد. ثم يستمع لأمر ، ثم يستجيب. سوف يتجاهل أي أوامر لا تتضمن الكلمة الساخنة.
ليس له أي طريقة (في الوقت الحالي) لاكتشاف ما إذا كانت رسالة بدون كلمة ساخنة جزءًا من المحادثة.
سوف يسجل جميع الدردشات الخاصة بك مع chatgpt في مجلد /دردشات.
تأكد من توفر Pipenv على طريقك ، ثم ببساطة:
pipenv install
cp example.env .env
أدخل مفاتيح API في ملف .env ، وقم بتغيير الاسم + الصوت. يجب أن يكون الصوت أحد الأصوات المتوفرة في API Elevenlabs - إما الأصوات الافتراضية أو الصوتية التي استنساخها. سوف يختار الصوت الأول الذي يتطابق (غير حساس للحالة.)
لإعداد الصوت ، أستخدم خلاط صوت افتراضي. إذا لم يكن لديك خلاط ، فانتقل وانظر في أجهزة الصوت الخاصة بك لمعرفة ماهية أسماء الأجهزة ، وقم بتعيينها في ملف .env.
pipenv shell
python cli.py --help
لتشغيل خط أنابيب مساعد كامل:
python cli.py full
بشكل افتراضي ، سوف يستخدم GPT-4. إذا لم يكن لديك وصول API إلى GPT-4 ، فقم بتغيير النموذج إلى GPT-3.5-TURBO في ملف .env.
يفترض أيضًا أن لديك مفتاح API لـ Elevenlabs. إذا لم تقم بذلك ، فيمكنك الحصول على واحدة مجانًا مع بعض الشخصيات التجريبية في Elevenlabs.
إذا وجدت أن النموذج الصغير الهامس ليس دقيقًا بما فيه الكفاية ، فقم بتصوير حجم النموذج إلى صغير أو متوسط. لديه مفاضلة السرعة ، ولكن الدقة أفضل بكثير. أجد أن الطراز "الصغير" يعمل بشكل جيد دون أي صقل دقيق.
يتم تخزين الأصوات مؤقتًا إلى Voices.Json لتوفير مكالمات API. إذا كنت ترغب في تحديث الأصوات ، فقم بحذف الملف.
حاليًا لا يتدفق من Elevenlabs - لم يكتشف بعد كيفية جعل تجربة التشغيل غير مروعة. إذا كان لديك أي أفكار ، يرجى إعلامي!
النسخ الحقيقي وتوليد الصوت سيكون مذهلاً! لست متأكدًا من كيفية القيام بذلك بعد ، لكنني متأكد من أنه ممكن. بناء في طريقة لضبط الهمس بحيث تكون دقة النسخ أفضل. شخص ما يصنع منافسًا لـ OpenSource لـ Elevenlabs الذي يقوم بتخليق الصوت في الوقت الفعلي!