تنزيل VoiceStreamAI - تنزيل كود مصدر VoiceStreamAI

VoiceStreamAI

كود الذكاء الاصطناعي

1.0.0

تنزيل

VoiceStreamAI

VoiceStreamAI هو خادم يستند إلى Python 3 وحل عميل JavaScript يتيح دفق الصوت والنسخ في الوقت الفعلي تقريبًا باستخدام WebSocket. يستخدم النظام نظام Huggingface's Voice Activity Detection (VAD) ونموذج Whisper الخاص بـ OpenAI (الهمس الأسرع هو النموذج الافتراضي) للتعرف على الكلام ومعالجته بشكل دقيق.

سمات

تدفق الصوت في الوقت الحقيقي من خلال WebSocket.
تصميم معياري لسهولة التكامل بين تقنيات VAD وASR المختلفة.
تنفيذ نمط المصنع والاستراتيجية لإدارة المكونات المرنة.
إطار اختبار الوحدة للتطوير القوي.
استراتيجيات معالجة قطع الصوت القابلة للتخصيص.
دعم النسخ متعدد اللغات.
يدعم المقابس الآمنة مع الشهادة الاختيارية ووسيطات الملفات الرئيسية

فيديو تجريبي

العميل التجريبي

Client Demo

التشغيل مع دوكر

لن يرشدك هذا بالتفصيل حول كيفية استخدام CUDA في عامل الإرساء، انظر على سبيل المثال هنا.

ومع ذلك، هذه هي أوامر Linux:

distribution= $( . /etc/os-release ; echo $ID$VERSION_ID ) 
&& curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg 
&& curl -s -L https://nvidia.github.io/libnvidia-container/ $distribution /libnvidia-container.list | 
sed ' s#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g ' | 
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

sudo nvidia-ctk runtime configure --runtime=docker

sudo systemctl restart docker

يمكنك إنشاء صورة الحاوية باستخدام:

sudo docker build -t VoiceStreamAI .

بعد الحصول على رمز VAD الخاص بك (راجع الأقسام التالية)، قم بتشغيل:

sudo docker volume create huggingface_models

sudo docker run --gpus all -p 8765:8765 -v huggingface_models:/root/.cache/huggingface  -e PYANNOTE_AUTH_TOKEN= ' VAD_TOKEN_HERE ' VoiceStreamAI

ستسمح لك عناصر "الحجم" بعدم إعادة تنزيل نماذج المعانقة في كل مرة تقوم فيها بإعادة تشغيل الحاوية. إذا لم تكن بحاجة إلى هذا، فما عليك سوى استخدام:

sudo docker run --gpus all -p 8765:8765 -e PYANNOTE_AUTH_TOKEN= ' VAD_TOKEN_HERE ' VoiceStreamAI

عادي، التثبيت اليدوي

لإعداد خادم VoiceStreamAI ، تحتاج إلى Python 3.8 أو إصدار أحدث والحزم التالية:

transformers
pyannote.core
pyannote.audio
websockets
asyncio
sentence-transformers
faster-whisper

قم بتثبيت هذه الحزم باستخدام النقطة:

pip install -r requirements.txt

بالنسبة لجانب العميل، فأنت بحاجة إلى متصفح ويب حديث يدعم JavaScript.

التكوين والاستخدام

تكوين الخادم

يمكن تخصيص خادم VoiceStreamAI من خلال وسيطات سطر الأوامر، مما يسمح لك بتحديد إعدادات المكونات والمضيف والمنفذ وفقًا لاحتياجاتك.

--vad-type : يحدد نوع مسار اكتشاف النشاط الصوتي (VAD) الذي سيتم استخدامه (الافتراضي: pyannote ) .
--vad-args : سلسلة JSON تحتوي على وسيطات إضافية لخط أنابيب VAD. (مطلوب pyannote : '{"auth_token": "VAD_AUTH_HERE"}' )
--asr-type : يحدد نوع خط أنابيب التعرف التلقائي على الكلام (ASR) الذي سيتم استخدامه (الافتراضي: faster_whisper ).
--asr-args : سلسلة JSON تحتوي على وسيطات إضافية لخط أنابيب ASR (يمكن للمرء على سبيل المثال تغيير model_name لـ whisper)
--host : يضبط عنوان المضيف لخادم WebSocket (الافتراضي: 127.0.0.1 ).
--port : يضبط المنفذ الذي يستمع إليه الخادم (الافتراضي: 8765 ).
--certfile : المسار إلى شهادة SSL (ملف الشهادة) في حالة استخدام مقابس الويب الآمنة (الافتراضي: None )
--keyfile : المسار إلى ملف مفتاح SSL في حالة استخدام مقابس الويب الآمنة (الافتراضي: None )

لتشغيل الخادم بالتكوين القياسي:

احصل على مفتاح نموذج اكتشاف النشاط الصوتي على https://huggingface.co/pyannote/segmentation
قم بتشغيل الخادم باستخدام Python 3.x، يرجى إضافة مفتاح VAD في سطر الأوامر:

python3 -m src.main --vad-args ' {"auth_token": "vad token here"} '

يمكنك رؤية جميع خيارات سطر الأوامر باستخدام الأمر:

python3 -m src.main --help

استخدام العميل

افتح ملف client/index.html في متصفح الويب.
أدخل عنوان WebSocket (الافتراضي هو ws://localhost:8765 ).
تكوين طول مقطع الصوت والإزاحة. انظر أدناه.
حدد اللغة للنسخ.
انقر فوق "اتصال" لإنشاء اتصال WebSocket.
استخدم "بدء البث" و"إيقاف البث" للتحكم في التقاط الصوت.

نظرة عامة على التكنولوجيا

خادم Python : يدير اتصالات WebSocket، ويعالج التدفقات الصوتية، ويتعامل مع اكتشاف النشاط الصوتي والنسخ.
WebSockets : يستخدم للاتصال في الوقت الحقيقي بين الخادم والعميل.
اكتشاف النشاط الصوتي : يكتشف النشاط الصوتي في الدفق الصوتي لتحسين المعالجة.
تحويل الكلام إلى نص : يستخدم نموذج Whisper الأسرع أو نموذج OpenAI's Whisper (openai/whisper-large-v3) للحصول على نسخ دقيق. Faster Whisper هو الإعداد الافتراضي لأنه أسرع بكثير

نظرة عامة فنية

إعدادات

أنماط المصنع والاستراتيجية

يمكن توسيع كل من مكونات VAD وASR بسهولة لدمج التقنيات الجديدة واستخدام النماذج بواجهة مختلفة عن خطوط أنابيب HuggingFace. يمكن إضافة إستراتيجيات معالجة/تقطيع جديدة في server.py، واستخدامها بواسطة عملاء محددين يقومون بتعيين مفتاح "process_strategy" في ملف التكوين.

اكتشاف النشاط الصوتي (VAD)

يمكّن اكتشاف النشاط الصوتي (VAD) في VoiceStreamAI النظام من التمييز بين مقاطع الكلام وغير الكلام داخل التدفق الصوتي. الغرض الأساسي من تطبيق VAD هو تعزيز كفاءة ودقة عملية تحويل الكلام إلى نص:

يقلل الحمل الحسابي : من خلال تحديد ومعالجة تلك المقاطع التي تحتوي على كلام فقط، يقلل VAD بشكل كبير من الموارد الحسابية المطلوبة للنسخ. يعد هذا أمرًا مهمًا نظرًا لأن خط أنابيب التعرف على الكلام يستغرق 7 ثوانٍ على جهاز Tesla T4 (16 جيجا بايت) - ضع ذلك في الاعتبار عند تعيين طول القطعة.
تحسين دقة النسخ : تؤدي معالجة مقاطع الصوت فقط إلى تقليل فرص إساءة تفسير الضوضاء غير المتعلقة بالكلام على أنها كلام، وبالتالي تحسين الدقة الإجمالية للنسخ.
تحسين استخدام الشبكة : في سياق البث، يؤدي إرسال مقاطع صوتية فقط عبر الشبكة، بدلاً من تدفق الصوت بالكامل، إلى تحسين استخدام النطاق الترددي.

يستخدم VoiceStreamAI نموذج Huggingface VAD لضمان اكتشاف موثوق للكلام في ظروف صوتية متنوعة.

استراتيجية المعالجة "SilenceAtEndOfChunk"

تم تصميم إستراتيجية التخزين المؤقت لتحقيق التوازن بين المعالجة في الوقت الفعلي تقريبًا وضمان الالتقاط الكامل والدقيق لمقاطع الكلام. وإليك كيفية إدارة التخزين المؤقت:

المعالجة المستندة إلى القطعة : تتم معالجة دفق الصوت إلى أجزاء ذات طول قابل للتخصيص لكل عميل (الإعدادات الافتراضية هي 5 ثوانٍ)
معالجة الصمت : تم تحديد الحد الأدنى لإزاحة الصمت للسماح بالاستماع المستمر والتقاط الصوت بعد نهاية المقطع الواحد. وهذا يضمن عدم قطع الكلمات الموجودة على حدود الأجزاء، وبالتالي الحفاظ على سياق الكلام واكتماله. يؤدي هذا إلى توفير زمن وصول إضافي للأجزاء الكثيفة جدًا من الكلام، حيث لن يتم النسخ حتى يتم تحديد التوقف المؤقت.
إدارة المخزن المؤقت الديناميكي : يقوم النظام بإدارة المخازن المؤقتة لكل عميل ديناميكيًا. عند وصول بيانات صوتية جديدة، يتم إلحاقها بالمخزن المؤقت للعميل. بمجرد وصول المخزن المؤقت إلى طول القطعة، تتم معالجته، ويتم مسح المخزن المؤقت، ويكون جاهزًا للبيانات الجديدة.

Buffering Mechanism

رسائل التكوين الخاصة بالعميل

في VoiceStreamAI ، يمكن أن يكون لكل عميل تكوين فريد يخصص عملية النسخ وفقًا لاحتياجاته الخاصة. يتم تحقيق هذا الإعداد المخصص من خلال نظام مراسلة حيث يرسل عميل JavaScript تفاصيل التكوين إلى خادم Python. يشرح هذا القسم كيفية تنظيم هذه التكوينات ونقلها.

يمكن أن يتضمن تكوين العميل معلمات مختلفة مثل تفضيلات اللغة وطول القطعة وإزاحة القطعة. على سبيل المثال:

language : تحديد لغة النسخ. إذا تم التعيين على أي شيء آخر غير "متعدد اللغات"، فسيجبر ذلك على أن يكون استنتاج Whisper بهذه اللغة
processing_strategy : يحدد نوع المعالجة لهذا العميل، وهو نوع من نمط الإستراتيجية. الإستراتيجية في الوقت الحالي لا تستخدم OOP ولكن يتم تنفيذها في if/else في server.py
chunk_length_seconds : يحدد طول كل قطعة صوتية تريد معالجتها
chunk_offset_seconds : يحدد وقت الصمت في نهاية كل قطعة مطلوبة لمعالجة الصوت (المستخدمة بواسطة Processing_strategy nr 1).

نقل التكوين

التهيئة : عندما يقوم العميل بتهيئة اتصال مع الخادم، يمكنه إرسال رسالة تكوين بشكل اختياري. هذه الرسالة عبارة عن كائن JSON يحتوي على أزواج قيمة المفتاح التي تمثل الإعدادات المفضلة للعميل.
إعداد عميل JavaScript : في العميل التجريبي، يتم جمع التكوين من عناصر واجهة المستخدم (مثل القوائم المنسدلة وحقول الإدخال). بمجرد بدء تدفق الصوت، يتم إنشاء كائن JSON وإرساله إلى الخادم عبر WebSocket. على سبيل المثال:

 function sendAudioConfig ( ) {
    const audioConfig = {
        type : "config" ,
        data : {
            chunk_length_seconds : 5 ,
            chunk_offset_seconds : 1 ,
            processing_strategy : 1 ,
            language : language ,
        } ,
    } ;
    websocket . send ( JSON . stringify ( audioConfig ) ) ;
}

اختبار

عند تنفيذ استراتيجية ASR أو Vad أو Buffering جديدة، يمكنك اختبارها باستخدام:

pip install -r requirements-dev.txt
export PYANNOTE_AUTH_TOKEN= < VAD_TOKEN_HERE >
ASR_TYPE=faster_whisper python -m unittest test.server.test_server

يرجى التأكد من وجود متغيرات النهاية، على سبيل المثال، لرمز مصادقة VAD. توجد العديد من الاختبارات الأخرى، على سبيل المثال لاختبار ASR المستقل.

مجالات التحسين

التحديات مع قطع الصوت الصغيرة في الهمس

فقدان السياق : قد تفتقر المقاطع الصوتية الأقصر إلى سياق كافٍ، مما يؤدي إلى قيام Whisper بإساءة تفسير الكلام أو الفشل في التقاط الفروق الدقيقة في الحوار.
تباين الدقة : يمكن أن تختلف دقة النسخ باختلاف طول المقطع الصوتي. قد تؤدي المقاطع الأصغر إلى نسخ أقل موثوقية مقارنة بالمقاطع الأطول.

الاعتماد على الملفات الصوتية

حاليًا، يقوم VoiceStreamAI بمعالجة الصوت عن طريق حفظ أجزاء من الملفات ثم تشغيل هذه الملفات من خلال النماذج.

تطوير

شوكة واستنساخ هذا المستودع. تثبيت التبعيات والأدوات ذات الصلة.

pip install -r requirements.txt
pip install -r requirements-dev.txt
npm install -g [email protected] [email protected]

أضف تعديلاتك إلى المستودع وقم بتشغيل عمليات فحص نمط التعليمات البرمجية يدويًا، أو قم بدمجها في IDE/المحرر الخاص بك.

 # For Python
flake8 src/ test/
black --line-length 79 src/ test/
isort src/ test/

# For JavaScript
jshint client/ * .js
eslint client/ * .js

أخيرًا، قم بالدفع وإنشاء طلب سحب.

المساهمين

أليساندرو ساكويا - [email protected]

هذا المشروع مفتوح للمساهمات. لا تتردد في تفرع المستودع وإرسال طلبات السحب.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-01-05
الحجم 14MB
من Github

تطبيقات ذات صلة

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
node telegram bot api

كود الذكاء الاصطناعي

v0.50.0
typebot.io

كود الذكاء الاصطناعي

v3.1.2
python wechaty getting started

كود الذكاء الاصطناعي

1.0.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
wp functions

فئات أخرى

1.0.0
termwind

فئات أخرى

v2.3.0

أخبار ذات صلة الكل