هذا هو الريبو الرئيسي لـ Whisper-تطبيق نسخ صوتي مجاني ومفتوح المصدر وسهل الاستخدام. يستخدم Stage Whisper نموذج التعلم الآلي Whisper من Openai لإنتاج نسخ دقيقة للغاية من ملفات الصوت ، ويسمح أيضًا للمستخدمين بتخزين وتعديل النسخ باستخدام واجهة مستخدم رسومية بسيطة وبسيطة.
يتكون الهمس المسرح من مكونين متصلان:
سيتطلب إصدار 1.0 في نهاية المطاف من Stage Whisper (من الناحية المثالية) أي برنامج إضافي. في الوقت الحالي ، ستحتاج إلى التثبيت التالي على جهازك لتطوير الهمس على المسرح. من الممكن حاليًا العمل بشكل منفصل على واجهة الإلكترون أو الواجهة الخلفية لـ Python ، لذلك إذا كنت تخطط للعمل فقط على واحد أو آخر ، فعليك فقط تثبيت المتطلبات الخاصة بهذا المكون.
هناك أي عدد من الطرق لتثبيت كل هذه التبعيات على محطة العمل الخاصة بك ، ولكن فيما يلي مثال على كيفية تثبيت كل ما سبق على جهاز Mac (تخطي أي خطوة لشيء قمت بتثبيته بالفعل):
# Install Homebrew
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) "
# Install Python, Node, Rust, ffmpeg, and Yarn
brew install python node rust ffmpeg yarn
# Install Poetry
curl -sSL https://install.python-poetry.org | POETRY_HOME=/etc/poetry python3 -
تثبيت التبعيات:
cd backend
poetry install
على الرغم من أن الغرض الأساسي للواجهة الخلفية سيكون تشغيله كخدمة لتطبيق الإلكترون للاتصال به ، إلا أنه يمكن أيضًا تشغيله كنص مستقل. للقيام بذلك ، قم بالتشغيل:
poetry run python stagewhisper --input /path/to/audio/file.mp3
cd electron
yarn
yarn dev
في وقت سابق من هذا العام ، أصدرت Openai Whisper ، نظام التعرف على الكلام التلقائي (ASR) الذي يتم تدريبه على "680،000 ساعة من البيانات التي يتم جمعها من المهام المتعددة والمهام التي تم جمعها من الويب." يمكنك معرفة المزيد من خلال قراءة الورقة [PDF] أو النظر إلى الأمثلة على موقع Openai.
كما لاحظ دان نغوين على تويتر ، يمكن أن يكون هذا "هبة من أجل غرف الأخبار".
المشكلة الوحيدة ، كما أشار @stpetersterne ، هي أن جميع الصحفيين (أو غيرهم ممن يمكنهم الاستفادة من هذا النوع من أدوات النسخ) مرتاحون لخط الأوامر وتثبيت التبعيات المطلوبة لتشغيل الهمس.
هدفنا هو حزم الهمس بطريقة أسهل في الاستخدام بحيث يمكن للمستخدمين التقنيين الاستفادة من هذه الشبكة العصبية.
جاء بيتر باسم المشروع ، المسرح الهاوية.
أنشأت @Petersterne و @Filmgirl (كريستينا وارن) المشروع ، و @Harrislapiroff و @crazy4pi314 (سارة كايزر) يقودون التطوير مع Oenu (Adam Newton-Flows) قيادة تطوير الواجهة.
نود أن نتعاون مع أي شخص لديه أفكار حول كيفية حزم Whisper بسهولة أكبر وتجعل من السهل استخدامه للمستخدمين غير التقنيين.
المشروع حاليا في المراحل المبكرة من التطوير. لدينا نموذج أولي يعمل يستخدم أطر الإلكترون والموانتين لإنشاء تطبيق يتيح للمستخدمين إدخال ملفات الصوت ، ونسخها باستخدام Whisper ، ثم إدارة النسخ الناتجة وتحريرها. سيكون التطبيق متاحًا لـ MacOS و Windows و Linux. نحن نعمل حاليًا على تنفيذ التحسينات الرئيسية ونأمل في إصدار نسخة تجريبية قريبًا.
سيتم فتح أي رمز نقوم بتوزيعه واتباع شروط ترخيص أي من المشاريع التي نستخدمها. تم ترخيص Whisper ، لكن بعض تبعياتها (FFMPEG) مرخصة بموجب شروط مختلفة. سنكون متأكدين من الالتزام بأي/جميع شروط الترخيص ، وفي حالة عدم تمكننا من تجميع FFMPEG مع الهمس على المسرح ، سنجعل من السهل الحصول عليها قدر الإمكان للمستخدم النهائي. سيتم ترخيص أي رمز خاص بالهمس بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.