WhisperKit은 Apple 장치에서 효율적인 로컬 추론을 위해 OpenAI의 인기 있는 Whisper 음성 인식 모델과 Apple의 CoreML 프레임워크를 통합한 Swift 패키지입니다.
TestFlight에서 데모 앱을 확인해 보세요.
[블로그 게시물] [Python 도구 저장소]
설치
스위프트 패키지 관리자
전제 조건
Xcode 단계
패키지.스위프트
홈브류
시작하기
빠른 예
모델 선택
모델 생성
스위프트 CLI
기여 및 로드맵
특허
소환
WhisperKit은 Swift 패키지 관리자를 사용하여 Swift 프로젝트에 통합될 수 있습니다.
macOS 14.0 이상.
Xcode 15.0 이상.
Xcode에서 Swift 프로젝트를 엽니다.
File
> Add Package Dependencies...
로 이동합니다.
패키지 저장소 URL( https://github.com/argmaxinc/whisperkit
을 입력하세요.
버전 범위 또는 특정 버전을 선택합니다.
Finish
클릭하여 WhisperKit을 프로젝트에 추가하세요.
Swift 패키지의 일부로 WhisperKit을 사용하는 경우 다음과 같이 Package.swift 종속성에 이를 포함할 수 있습니다.
종속성: [ .package(url: "https://github.com/argmaxinc/WhisperKit.git", 출처: "0.9.0"),],
그런 다음 WhisperKit
대상에 대한 종속성으로 추가하십시오.
.목표( 이름: "YourApp", 종속성: ["WhisperKit"]),
다음 명령을 실행하여 Homebrew를 사용하여 WhisperKit
명령줄 앱을 설치할 수 있습니다.
양조 설치 Whisperkit-cli
WhisperKit을 시작하려면 프로젝트에서 초기화해야 합니다.
이 예에서는 로컬 오디오 파일을 텍스트로 변환하는 방법을 보여줍니다.
import WhisperKit// 기본 설정으로 WhisperKit 초기화Task { letpipe = try? WhisperKit()를 기다려 전사를 시키세요 = 시도해 보시겠습니까? 파이프를 기다립니다!.transcribe(audioPath: "path/to/your/audio.{wav,mp3,m4a,flac}")?.text print(transcription)}
WhisperKit은 지정되지 않은 경우 장치에 권장되는 모델을 자동으로 다운로드합니다. 모델 이름을 전달하여 특정 모델을 선택할 수도 있습니다.
파이프하자 = 시도해 보시겠어요? WhisperKit(WhisperKitConfig(model: "large-v3"))를 기다립니다.
이 방법은 전역 검색도 지원하므로 와일드카드를 사용하여 모델을 선택할 수 있습니다.
파이프하자 = 시도해 보시겠어요? WhisperKit(WhisperKitConfig(model: "distil*large-v3"))를 기다립니다.
모델 검색은 소스 저장소에서 단일 모델을 반환해야 합니다. 그렇지 않으면 오류가 발생합니다.
사용 가능한 모델 목록은 HuggingFace 저장소를 참조하세요.
WhisperKit에는 또한 CoreML 형식의 Whisper의 미세 조정된 버전을 생성하고 HuggingFace에 배포할 수 있는 지원 리포지토리 whisperkittools
함께 제공됩니다. 생성된 후에는 저장소 이름을 모델 업로드에 사용된 이름으로 간단히 변경하여 로드할 수 있습니다.
let config = WhisperKitConfig(모델: "large-v3", modelRepo: "username/your-model-repo")letpipe = 시도해 보시겠습니까? WhisperKit(config)을 기다립니다
Swift CLI를 사용하면 Xcode 프로젝트 외부에서 빠르게 테스트하고 디버깅할 수 있습니다. 설치하려면 다음을 실행하세요.
자식 클론 https://github.com/argmaxinc/whisperkit.gitcd 속삭임킷
그런 다음 환경을 설정하고 원하는 모델을 다운로드하십시오.
설정하다 다운로드 모델 MODEL=large-v3을 만듭니다.
메모 :
그러면 MODEL
에 지정된 모델만 다운로드됩니다(접두사 openai_whisper-{MODEL}
사용하는 HuggingFace 저장소에서 사용 가능한 항목 참조).
download-model
실행하기 전에 git-lfs가 설치되어 있는지 확인하세요.
사용 가능한 모든 모델을 로컬 폴더에 다운로드하려면 대신 이 명령을 사용하십시오.
다운로드 모델 만들기
그런 다음 다음을 사용하여 CLI를 통해 실행할 수 있습니다.
신속한 실행 Whisperkit-cli transcribe --model-path "Models/whisperkit-coreml/openai_whisper-large-v3" --audio-path "path/to/your/audio.{wav,mp3,m4a,flac}"
오디오 파일의 사본을 인쇄해야 합니다. 마이크에서 직접 오디오를 스트리밍하려면 다음을 사용하세요.
신속한 실행 Whisperkit-cli transcribe --model-path "Models/whisperkit-coreml/openai_whisper-large-v3" --stream
우리의 목표는 시간이 지남에 따라 WhisperKit을 점점 더 좋게 만드는 것입니다. 여러분의 도움을 기다립니다! 아직 구축되지 않은 다양한 기능을 보려면 "TODO" 코드를 검색하세요. 이슈 제출, 끌어오기 요청 및 코딩 표준에 대한 기여 지침을 참조하세요. 여기에는 향후 구축할 기능에 대한 공개 로드맵도 있습니다.
WhisperKit은 MIT 라이선스에 따라 출시됩니다. 자세한 내용은 라이센스를 참조하세요.
WhisperKit을 멋진 용도로 사용하거나 유용하다고 생각하시면 [email protected]으로 메모를 남겨주세요!
학술 작업에 WhisperKit을 사용하는 경우 BibTeX는 다음과 같습니다.
@misc{whisperkit-argmax, 제목 = {WhisperKit}, 작성자 = {Argmax, Inc.}, 연도 = {2024}, URL = {https://github.com/argmaxinc/WhisperKit}}