WhisperKit عبارة عن حزمة Swift تدمج نموذج التعرف على الكلام Whisper الشهير من OpenAI مع إطار عمل CoreML من Apple من أجل الاستدلال المحلي الفعال على أجهزة Apple.
تحقق من التطبيق التجريبي على TestFlight.
[منشور مدونة] [Python Tools Repo]
تثبيت
مدير الحزم سويفت
المتطلبات الأساسية
خطوات اكس كود
الحزمة. سويفت
البيرة المنزلية
ابدء
مثال سريع
اختيار النموذج
توليد النماذج
سويفت كلي
المساهمة وخريطة الطريق
رخصة
الاقتباس
يمكن دمج WhisperKit في مشروع Swift الخاص بك باستخدام Swift Package Manager.
نظام التشغيل MacOS 14.0 أو الأحدث.
Xcode 15.0 أو الأحدث.
افتح مشروع Swift الخاص بك في Xcode.
انتقل إلى File
> Add Package Dependencies...
.
أدخل عنوان URL لمستودع الحزمة: https://github.com/argmaxinc/whisperkit
.
اختر نطاق الإصدار أو الإصدار المحدد.
انقر فوق Finish
لإضافة WhisperKit إلى مشروعك.
إذا كنت تستخدم WhisperKit كجزء من حزمة Swift، فيمكنك تضمينه في تبعيات Package.swift الخاصة بك على النحو التالي:
التبعيات: [ .package(url: "https://github.com/argmaxinc/WhisperKit.git"، من: "0.9.0")،]،
ثم أضف WhisperKit
باعتباره تبعية لهدفك:
.هدف( الاسم: "YourApp"، التبعيات: ["WhisperKit"])،
يمكنك تثبيت تطبيق سطر الأوامر WhisperKit
باستخدام Homebrew عن طريق تشغيل الأمر التالي:
الشراب تثبيت Whisperkit-cli
للبدء في استخدام WhisperKit، تحتاج إلى تهيئته في مشروعك.
يوضح هذا المثال كيفية نسخ ملف صوتي محلي:
import WhisperKit// تهيئة WhisperKit باستخدام الإعدادات الافتراضية TaskTask { Let Pipe = Try? انتظر WhisperKit () دع النسخ = حاول؟ في انتظار الأنبوب!.transcribe(audioPath: "path/to/your/audio.{wav,mp3,m4a,flac}")?.text print(transcription)}
يقوم WhisperKit تلقائيًا بتنزيل النموذج الموصى به للجهاز إذا لم يتم تحديده. يمكنك أيضًا تحديد نموذج معين عن طريق تمرير اسم النموذج:
دع الأنابيب = حاول؟ في انتظار WhisperKit(WhisperKitConfig(model: "large-v3"))
تدعم هذه الطريقة أيضًا البحث الشامل، بحيث يمكنك استخدام أحرف البدل لتحديد نموذج:
دع الأنابيب = حاول؟ في انتظار WhisperKit(WhisperKitConfig(model: "distil*large-v3"))
لاحظ أن البحث عن النموذج يجب أن يُرجع نموذجًا واحدًا من مستودع المصدر، وإلا فسيتم ظهور خطأ.
للحصول على قائمة بالنماذج المتاحة، راجع مستودع HuggingFace الخاص بنا.
يأتي WhisperKit أيضًا مع أدوات repo whisperkittools
الداعمة التي تتيح لك إنشاء ونشر إصداراتك المضبوطة بدقة من Whisper بتنسيق CoreML إلى HuggingFace. بمجرد إنشائها، يمكن تحميلها ببساطة عن طريق تغيير اسم الريبو إلى الاسم المستخدم لتحميل النموذج:
Let config = WhisperKitConfig(model: "large-v3"، modelRepo: "username/your-model-repo")let Pipe = حاول؟ في انتظار WhisperKit (التكوين)
يسمح Swift CLI بالاختبار السريع وتصحيح الأخطاء خارج مشروع Xcode. لتثبيته قم بتشغيل الأمر التالي:
استنساخ بوابة https://github.com/argmaxinc/whisperkit.gitcd whisperkit
ثم قم بإعداد البيئة وتنزيل النموذج المطلوب.
قم بالإعداد جعل نموذج التحميل MODEL=large-v3
ملحوظة :
سيؤدي هذا إلى تنزيل النموذج المحدد بواسطة MODEL
فقط (راجع ما هو متاح في HuggingFace repo، حيث نستخدم البادئة openai_whisper-{MODEL}
)
قبل تشغيل download-model
، تأكد من تثبيت git-lfs
إذا كنت تريد تنزيل جميع الطرز المتوفرة إلى المجلد المحلي لديك، فاستخدم هذا الأمر بدلاً من ذلك:
إنشاء نماذج التحميل
يمكنك بعد ذلك تشغيلها عبر واجهة سطر الأوامر (CLI) باستخدام:
تشغيل سريع whisperkit-cli نسخ --model-path "Models/whisperkit-coreml/openai_whisper-large-v3" --audio-path "path/to/your/audio.{wav,mp3,m4a,flac}"
والتي يجب أن تطبع نسخة من الملف الصوتي. إذا كنت ترغب في بث الصوت مباشرة من الميكروفون، فاستخدم:
تشغيل سريع whisperkit-cli نسخ --model-path "Models/whisperkit-coreml/openai_whisper-large-v3" --stream
هدفنا هو جعل WhisperKit أفضل وأفضل بمرور الوقت ونود مساعدتك! ما عليك سوى البحث في رمز "TODO" عن مجموعة متنوعة من الميزات التي لم يتم إنشاؤها بعد. يرجى الرجوع إلى إرشادات المساهمة الخاصة بنا لإرسال المشكلات وطلبات السحب ومعايير الترميز، حيث لدينا أيضًا خريطة طريق عامة للميزات التي نتطلع إلى بنائها في المستقبل.
تم إصدار WhisperKit بموجب ترخيص MIT. راجع الترخيص لمزيد من التفاصيل.
إذا كنت تستخدم WhisperKit لشيء رائع أو تجده مفيدًا، فيرجى إرسال ملاحظة إلينا على [email protected]!
إذا كنت تستخدم WhisperKit للعمل الأكاديمي، فإليك BibTeX:
@misc{whisperkit-argmax، العنوان = {WhisperKit}، المؤلف = {Argmax, Inc.}، السنة = {2024}، URL = {https://github.com/argmaxinc/WhisperKit}}