WhisperKit 是一個 Swift 軟體包,它將 OpenAI 流行的 Whisper 語音辨識模型與 Apple 的 CoreML 框架整合在一起,以便在 Apple 裝置上進行高效的本地推理。
查看 TestFlight 上的演示應用程式。
[部落格文章] [Python 工具儲存庫]
安裝
斯威夫特套件管理器
先決條件
Xcode步驟
包.swift
自製
入門
快速範例
選型
生成模型
斯威夫特命令列介面
貢獻和路線圖
執照
引文
WhisperKit 可以使用 Swift 套件管理器整合到您的 Swift 專案中。
macOS 14.0 或更高版本。
Xcode 15.0 或更高版本。
在 Xcode 中開啟您的 Swift 專案。
導航至File
> Add Package Dependencies...
輸入套件儲存庫 URL:https: https://github.com/argmaxinc/whisperkit
。
選擇版本範圍或特定版本。
按一下Finish
將 WhisperKit 新增到您的專案中。
如果您將 WhisperKit 作為 swift 套件的一部分使用,則可以將其包含在 Package.swift 依賴項中,如下所示:
依賴項:[ .package(url:“https://github.com/argmaxinc/WhisperKit.git”,來自:“0.9.0”),],
然後加入WhisperKit
作為目標的依賴項:
。 名稱:“你的應用程式”, 依賴項:[“WhisperKit”]),
您可以透過執行以下命令使用 Homebrew 安裝WhisperKit
命令列應用程式:
釀造安裝whisperkit-cli
要開始使用 WhisperKit,您需要在專案中對其進行初始化。
此範例示範如何轉錄本機音訊檔案:
import WhisperKit// 使用預設設定初始化 WhisperKitTask { let pipeline = try?等待 WhisperKit() 讓轉錄 = 嘗試?等待管道!
如果未指定,WhisperKit 會自動下載裝置的建議型號。您也可以透過傳入模型名稱來選擇特定模型:
讓管道=嘗試?等待 WhisperKit(WhisperKitConfig(型號:“large-v3”))
該方法還支援全域搜索,因此您可以使用通配符來選擇模型:
讓管道=嘗試?等待 WhisperKit(WhisperKitConfig(model: "distil*large-v3"))
請注意,模型搜尋必須從來源儲存庫傳回單一模型,否則將引發錯誤。
有關可用模型的列表,請參閱我們的 HuggingFace 儲存庫。
WhisperKit 還附帶支援儲存庫whisperkittools
,可讓您建立 CoreML 格式的 Whisper 微調版本並將其部署到 HuggingFace。生成後,只需將存儲庫名稱更改為用於上傳模型的名稱即可加載它們:
let config = WhisperKitConfig(model: "large-v3", modelRepo: "username/your-model-repo")let pipeline = 嘗試嗎?等待 WhisperKit(配置)
Swift CLI 允許在 Xcode 專案之外進行快速測試和偵錯。要安裝它,請執行以下命令:
git 克隆 https://github.com/argmaxinc/whisperkit.gitcd Whisperkit
然後,設定環境並下載所需的模型。
進行設定 使下載模型 MODEL=large-v3
筆記:
這將只下載MODEL
指定的模型(請參閱我們的 HuggingFace 儲存庫中可用的內容,其中我們使用前綴openai_whisper-{MODEL}
)
在執行download-model
之前,請確保已安裝 git-lfs
如果您想將所有可用模型下載到本機資料夾,請改用以下命令:
製作下載模型
然後您可以透過 CLI 運行它們:
快速運行 Whisperkit-cli transcribe --model-path "Models/whisperkit-coreml/openai_whisper-large-v3" --audio-path "path/to/your/audio.{wav,mp3,m4a,flac}"
它應該列印音訊檔案的轉錄。如果您想直接從麥克風傳輸音頻,請使用:
快速運行 Whisperkit-cli transcribe --model-path "Models/whisperkit-coreml/openai_whisper-large-v3" --stream
我們的目標是隨著時間的推移讓 WhisperKit 變得越來越好,我們希望得到您的幫助!只需在程式碼中搜尋“TODO”即可找到各種尚未建置的功能。請參閱我們關於提交問題、拉取請求和編碼標準的貢獻指南,其中我們還提供了我們期待在未來構建的功能的公共路線圖。
WhisperKit 是根據 MIT 許可證發布的。有關更多詳細信息,請參閱許可證。
如果您使用 WhisperKit 來做一些很酷的事情或只是覺得它有用,請給我們留言:[email protected]!
如果您使用 WhisperKit 進行學術工作,這裡是 BibTeX:
@misc{whisperkit-argmax,標題 = {WhisperKit},作者 = {Argmax, Inc.},年份 = {2024},URL = {https://github.com/argmaxinc/WhisperKit}}