ดาวน์โหลด:
LocalVocal ช่วยให้คุณสามารถถอดเสียงคำพูดเป็นข้อความในเครื่องของคุณ และแปลเป็นภาษาใดก็ได้ไปพร้อมๆ กัน ✅ ไม่ต้องใช้ GPU ✅ ไม่มีค่าใช้จ่ายคลาวด์ ✅ ไม่มีเครือข่าย และ ✅ ไม่มีการหยุดทำงาน! ความเป็นส่วนตัวมาก่อน - ข้อมูลทั้งหมดจะอยู่บนเครื่องของคุณ
หากปลั๊กอินฟรีนี้มีคุณค่า ให้ลองเพิ่ม ⭐ ลงใน repo GH นี้ ให้คะแนนบน OBS สมัครรับข้อมูลช่อง YouTube ของฉันที่ฉันโพสต์การอัปเดต และสนับสนุนงานของฉันใน GitHub, Patreon หรือ OpenCollective
ภายในปลั๊กอินกำลังเรียกใช้ Whisper ของ OpenAI เพื่อประมวลผลคำพูดแบบเรียลไทม์และคาดการณ์การถอดเสียง กำลังใช้โปรเจ็กต์ Whisper.cpp จาก ggerganov เพื่อรันเครือข่าย Whisper บน CPU และ GPU อย่างมีประสิทธิภาพ การแปลเสร็จสิ้นด้วย CTranslate2
ทำสิ่งต่างๆ ได้มากขึ้นด้วย LocalVocal:
การแปลแบบเรียลไทม์
แปลคำบรรยายแอปพลิเคชันใด ๆ
การแปลแบบเรียลไทม์ด้วย DeepL
การแปลแบบเรียลไทม์ด้วย OpenAI
ChatGPT + การอ่านออกเสียงข้อความ
โพสต์คำบรรยายไปยัง YouTube
การแปลแบบเรียลไทม์ LLM ท้องถิ่น
บทช่วยสอนการใช้งาน
คุณสมบัติปัจจุบัน:
ถอดเสียงเป็นข้อความแบบเรียลไทม์ใน 100 ภาษา
แสดงคำบรรยายบนหน้าจอโดยใช้แหล่งข้อความ
ส่งคำบรรยายไปยังไฟล์ .txt หรือ .srt (เพื่ออ่านโดยแหล่งภายนอกหรือการเล่นวิดีโอ) โดยมีและไม่มีตัวเลือกการรวม
คำบรรยายที่ซิงค์พร้อมการประทับเวลาการบันทึก OBS
ส่งคำบรรยายบนสตรีม RTMP เช่น YouTube, Twitch
นำโมเดล Whisper ของคุณเองมาด้วย (GGML ใดก็ได้)
แปลคำบรรยายแบบเรียลไทม์เป็นภาษาหลัก (ทั้งการแปล Whisper ในตัวและโมเดล NMT)
รองรับการเร่งความเร็ว CUDA, hipBLAS (AMD ROCm), Apple Arm64, AVX และ SSE
กรองหรือแทนที่ส่วนใดส่วนหนึ่งของคำอธิบายภาพที่สร้างขึ้น
การถอดเสียงเป็นคำบางส่วนสำหรับประสบการณ์สตรีมมิ่งคำบรรยาย
โมเดล Whisper ที่ได้รับการปรับแต่งอย่างดีมากกว่า 100 แบบสำหรับหลายภาษาจาก HuggingFace
แผนการทำงาน:
ตัวเลือกการแปลในตัวที่แข็งแกร่งยิ่งขึ้น
ตัวเลือกเอาต์พุตเพิ่มเติม: .vtt, .ssa, .sub ฯลฯ
การแยกเสียงของลำโพง (การตรวจจับลำโพงในสตรีมเสียงหลายคน)
ตรวจสอบปลั๊กอินอื่น ๆ ของเรา:
การลบพื้นหลังจะลบพื้นหลังออกจากเว็บแคมโดยไม่มีหน้าจอสีเขียว
การตรวจจับจะตรวจจับและติดตามวัตถุมากกว่า 80 ประเภทแบบเรียลไทม์ภายใน OBS
CleanStream สำหรับคำเติมแบบเรียลไทม์ (เอ่อ อืม) และการลบคำหยาบคายออกจากสตรีมเสียงสด
แหล่งที่มาของ URL/API ที่อนุญาตให้ดึงข้อมูลสดจาก API และแสดงใน OBS
Squawk เพิ่มความสามารถการอ่านออกเสียงข้อความในท้องถิ่นที่เหมือนจริงในตัว OBS
ตรวจสอบรุ่นล่าสุดสำหรับการดาวน์โหลดและคำแนะนำในการติดตั้ง
ปลั๊กอินนี้มาพร้อมกับโมเดล Tiny.en และจะดาวน์โหลดโมเดล Whisper อื่นๆ โดยอัตโนมัติผ่านเมนูแบบเลื่อนลง นอกจากนี้ยังมีตัวเลือกในการเลือกไฟล์โมเดล GGML Whisper ภายนอก หากคุณมีไฟล์นั้นอยู่บนดิสก์
รับโมเดลเพิ่มเติมจาก https://ggml.ggerganov.com/ และ HuggingFace ทำตามคำแนะนำบน Whisper.cpp เพื่อสร้างโมเดลของคุณเองหรือดาวน์โหลดโมเดลอื่นๆ เช่น โมเดลกลั่น
ปลั๊กอินนี้สร้างและทดสอบบน Mac OSX (Intel และ Apple Silicon), Windows (มีและไม่มี Nvidia CUDA) และ Linux
เริ่มต้นด้วยการโคลน repo นี้ไปยังไดเร็กทอรีที่คุณเลือก
การใช้สคริปต์ไปป์ไลน์ CI ภายในเครื่องคุณเพียงแค่เรียกสคริปต์ zsh ซึ่งสร้างสำหรับสถาปัตยกรรมที่ระบุใน $MACOS_ARCH (อย่างใดอย่างหนึ่ง x86_64
หรือ arm64
)
$ MACOS_ARCH="x86_64" ./.github/scripts/build-macos -c รีลีส
สคริปต์ข้างต้นน่าจะสำเร็จและไฟล์ปลั๊กอิน (เช่น obs-localvocal.plugin
) จะอยู่ในโฟลเดอร์ ./release/Release
นอกรูท คัดลอกไฟล์ .plugin
ไปยังไดเร็กทอรี OBS ~/Library/Application Support/obs-studio/plugins
หากต้องการรับไฟล์ตัวติดตั้ง .pkg
ให้เรียกใช้ตัวอย่าง
$ ./.github/scripts/package-macos -c รีลีส
(โปรดทราบว่าผลลัพธ์อาจจะอยู่ในโฟลเดอร์ Release
และไม่ใช่โฟลเดอร์ install
อย่างที่ pakage-macos
คาดหวัง ดังนั้นคุณจะต้องเปลี่ยนชื่อโฟลเดอร์จาก build_x86_64/Release
เป็น build_x86_64/install
)
เพื่อให้สร้างบน Ubuntu ได้สำเร็จ ให้โคลน repo ก่อน จากนั้นจึงคัดลอกจากไดเร็กทอรี repo:
$ sudo apt ติดตั้ง -y libssl-dev $ ./.github/scripts/build-linux
คัดลอกผลลัพธ์ไปยังโฟลเดอร์ OBS มาตรฐานบน Ubuntu
$ sudo cp -R release/RelWithDebInfo/lib/* /usr/lib/ $ sudo cp -R release/RelWithDebInfo/share/* /usr/share/
หมายเหตุ: คู่มือปลั๊กอิน OBS อย่างเป็นทางการแนะนำให้เพิ่มปลั๊กอินลงในโฟลเดอร์ ~/.config/obs-studio/plugins
สิ่งนี้เกี่ยวข้องกับวิธีที่คุณ ติดตั้ง OBS
ในกรณีที่วิธีการข้างต้นไม่ได้ผล ให้ลองคัดลอกไฟล์ไปยังโฟลเดอร์ ~/.config
:
$ mkdir -p ~/.config/obs-studio/plugins/obs-localvocal/bin/64bit $ cp -R release/RelWithDebInfo/lib/x86_64-linux-gnu/obs-plugins/* ~/.config/obs-studio/plugins/obs-localvocal/bin/64bit/ $ mkdir -p ~/.config/obs-studio/plugins/obs-localvocal/data $ cp -R release/RelWithDebInfo/share/obs/obs-plugins/obs-localvocal/* ~/.config/obs-studio/plugins/obs-localvocal/data/
สำหรับ distros อื่นๆ ที่คุณไม่สามารถใช้สคริปต์บิลด์ CI คุณสามารถสร้างปลั๊กอินได้ดังต่อไปนี้
โคลนพื้นที่เก็บข้อมูลและติดตั้งการขึ้นต่อกันเหล่านี้โดยใช้ตัวจัดการแพ็คเกจของการแจกจ่ายของคุณ:
libssl (พร้อมส่วนหัวของการพัฒนา)
สร้างสคริปต์บิลด์ CMake (ปรับโฟลเดอร์หากจำเป็น)
cmake -B build-dir --preset linux-x86_64 -DUSE_SYSTEM_CURL=ON -DCMAKE_INSTALL_PREFIX=./output_dir
สร้างปลั๊กอินและคัดลอกไฟล์ไปยังไดเร็กทอรีเอาต์พุต
cmake --build build-dir --target ติดตั้ง
คัดลอกปลั๊กอินไปยังโฟลเดอร์ปลั๊กอิน OBS
mkdir -p ~/.config/obs-studio/plugins/bin/64bit cp -R ./output_dir/lib/obs-plugins/* ~/.config/obs-studio/plugins/bin/64bit/
หมายเหตุ ปลั๊กอินอาจอยู่ใน
./output_dir/lib64/obs-plugins
-plugins แทน ทั้งนี้ขึ้นอยู่กับระบบของคุณ
คัดลอกข้อมูลปลั๊กอินไปยังโฟลเดอร์ปลั๊กอิน OBS - อาจจำเป็นเฉพาะในการติดตั้งครั้งแรกเท่านั้น
mkdir -p ~/.config/obs-studio/plugins/data.mkdir cp -R ./output_dir/share/obs/obs-plugins/obs-localvocal/* ~/.config/obs-studio/plugins/data/
ใช้สคริปต์ CI อีกครั้ง ตัวอย่างเช่น:
> .github/scripts/Build-Windows.ps1 - การเปิดตัวการกำหนดค่า
บิลด์ควรมีอยู่ในโฟลเดอร์ ./release
นอกรูท คุณสามารถติดตั้งไฟล์ในไดเร็กทอรี OBS ได้ด้วยตนเอง
> คัดลอกรายการ -Recurse -Force "releaseRelease*" -Destination "C:Program Filesobs-studio"
ขณะนี้ LocalVocal จะสร้างด้วยการสนับสนุน CUDA โดยอัตโนมัติผ่านไบนารีที่สร้างไว้ล่วงหน้าของ Whisper.cpp จาก https://github.com/locaal-ai/locaal-ai-dep-whispercpp สคริปต์ CMake จะดาวน์โหลดไฟล์ที่จำเป็นทั้งหมด
หากต้องการสร้างด้วย cuda ให้เพิ่ม ACCELERATION
เป็นตัวแปรสภาพแวดล้อม (ด้วย cpu
, hipblas
หรือ cuda
) และสร้างเป็นประจำ
> $env:ACCELERATION="cuda"> .github/scripts/Build-Windows.ps1 - การเปิดตัวการกำหนดค่า