ดาวน์โหลด pyannote audio - ดาวน์โหลด pyannote audio ซอร์สโค้ด

pyannote audio

ซอร์สโค้ดอื่น ๆ

Version 3.3.1

ดาวน์โหลด

ใช้ชุดเครื่องมือโอเพ่นซอร์ส pyannote.audio ในการผลิตหรือไม่ ลองเปลี่ยนไปใช้ pyannoteAI เพื่อตัวเลือกที่ดีขึ้นและเร็วขึ้น

ชุดเครื่องมือแยกเสียงลำโพง `pyannote.audio`

pyannote.audio เป็นชุดเครื่องมือโอเพ่นซอร์สที่เขียนด้วยภาษา Python สำหรับการแยกเสียงของผู้พูด ขึ้นอยู่กับเฟรมเวิร์กการเรียนรู้ของเครื่อง PyTorch มันมาพร้อมกับโมเดลและไปป์ไลน์ที่ได้รับการฝึกล่วงหน้าที่ล้ำสมัย ซึ่งสามารถปรับแต่งข้อมูลของคุณเองเพิ่มเติมเพื่อประสิทธิภาพที่ดียิ่งขึ้น

TL;ดร

ติดตั้ง pyannote.audio ด้วย pip install pyannote.audio
ยอมรับเงื่อนไขผู้ใช้ pyannote/segmentation-3.0
ยอมรับเงื่อนไขผู้ใช้ pyannote/speaker-diarization-3.1
สร้างโทเค็นการเข้าถึงที่ hf.co/settings/tokens

 from pyannote . audio import Pipeline
pipeline = Pipeline . from_pretrained (
    "pyannote/speaker-diarization-3.1" ,
    use_auth_token = "HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" )

# send pipeline to GPU (when available)
import torch
pipeline . to ( torch . device ( "cuda" ))

# apply pretrained pipeline
diarization = pipeline ( "audio.wav" )

# print the result
for turn , _ , speaker in diarization . itertracks ( yield_label = True ):
    print ( f"start= { turn . start :.1f } s stop= { turn . end :.1f } s speaker_ { speaker } " )
# start=0.2s stop=1.5s speaker_0
# start=1.8s stop=3.9s speaker_1
# start=4.2s stop=5.7s speaker_0
# ...

ไฮไลท์

- ท่อที่ผ่านการฝึกอบรม (และรุ่น) บน ? ศูนย์กลางโมเดล
- ประสิทธิภาพที่ล้ำสมัย (ดูเกณฑ์มาตรฐาน)
- API แรกของ Python
⚡ การฝึก multi-GPU ด้วย pytorch-lighting

เอกสารประกอบ

บันทึกการเปลี่ยนแปลง
คำถามที่พบบ่อย
โมเดล
- อธิบายงานที่มีอยู่
- การใช้แบบจำลองที่เตรียมไว้ล่วงหน้า
- การฝึกอบรม การปรับแต่ง และการถ่ายโอนการเรียนรู้
ไปป์ไลน์
- อธิบายไปป์ไลน์ที่มีอยู่
- การใช้ไปป์ไลน์ที่เตรียมไว้ล่วงหน้า
- การปรับไปป์ไลน์ที่ฝึกไว้ล่วงหน้ากับข้อมูลของคุณเอง
- ฝึกอบรมการวางท่อ
มีส่วนร่วม
- เพิ่มรูปแบบใหม่
- การเพิ่มงานใหม่
- การเพิ่มไปป์ไลน์ใหม่
- แบ่งปันโมเดลและท่อที่ผ่านการฝึกอบรมมาแล้ว
บล็อก
- 02-12-2022 > "ฉันมาถึงอันดับที่ 1 ในงาน Ego4D 2022 ได้อย่างไร ที่ 1 ในงาน Albayzin 2022 และอันดับที่ 6 ในงาน VoxSRC 2022 ความท้าทายในการแยกแยะผู้พูด"
- 23-10-2022 > "โมเดลการแบ่งส่วนผู้พูดเพียงรายเดียวเพื่อควบคุมทั้งหมด"
- 05-08-2021 > "การสตรีมการตรวจจับกิจกรรมเสียงด้วย pyannote.audio"
วิดีโอ
- ความรู้เบื้องต้นเกี่ยวกับการแยกเสียงวิทยากร / JSALT 2023 summer school / 90 นาที
- รูปแบบการแบ่งกลุ่มวิทยากร / Interspeech 2021 / 3 นาที
- pyannote.audio / ICASSP 2020 / 8 นาที เปิดตัวครั้งแรก
การสนับสนุนของชุมชน (ไม่ได้รับการดูแลโดยทีมงานหลัก)
- 05-04-2024 > การแยกเสียงของผู้พูดแบบออฟไลน์ (speaker-diarization-3.1) โดย Simon Ottenhaus
- 24-09-2024 > การประเมินไปป์ไลน์การแยกคำพูดที่ได้รับการฝึก pyannote โดย Clément Pagés

เกณฑ์มาตรฐาน

เมื่อแกะกล่อง คาดว่าไปป์ไลน์การแยกเสียงลำโพง pyannote.audio v3.1 จะดีกว่า (และเร็วกว่า) มาก (และเร็วกว่า) มากเมื่อเทียบกับ v2.x ตัวเลขเหล่านี้เป็นอัตราความผิดพลาดในการแปลงข้อมูล (เป็น %):

เกณฑ์มาตรฐาน	เวอร์ชัน 2.1	เวอร์ชัน 3.1	pyannoteAI
ไอเชลล์-4	14.1	12.2	11.9
อาลีมีตติ้ง (ช่อง 1)	27.4	24.4	22.5
AMI (IHM)	18.9	18.8	16.6
เอเอ็มไอ (SDM)	27.1	22.4	20.9
เอวา-เอวีดี	66.3	50.0	39.8
โทรกลับบ้าน (ส่วนหนึ่ง 2)	31.6	28.4	22.2
DIHARD 3 (เต็ม)	26.9	21.7	17.2
รายได้21	17.0	9.4	9.0
อีโก้ 4ดี (ผู้พัฒนา)	61.5	51.2	43.8
MSDWild	32.8	25.3	19.8
ร.ม	22.5	22.2	18.4
รีเพอเร (เฟส2)	8.2	7.8	7.6
VoxConverse (v0.3)	11.2	11.3	9.4

อัตราความผิดพลาดในการเปลี่ยนไดอะไรเซชัน (เป็น%)

การอ้างอิง

หากคุณใช้ pyannote.audio โปรดใช้ข้อมูลอ้างอิงต่อไปนี้:

 @inproceedings { Plaquet23 ,
  author = { Alexis Plaquet and Hervé Bredin } ,
  title = { {Powerset multi-class cross entropy loss for neural speaker diarization} } ,
  year = 2023 ,
  booktitle = { Proc. INTERSPEECH 2023 } ,
}

 @inproceedings { Bredin23 ,
  author = { Hervé Bredin } ,
  title = { {pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe} } ,
  year = 2023 ,
  booktitle = { Proc. INTERSPEECH 2023 } ,
}

การพัฒนา

คำสั่งด้านล่างนี้จะตั้งค่า hooks และแพ็คเกจล่วงหน้าที่จำเป็นสำหรับการพัฒนาไลบรารี pyannote.audio

pip install -e .[dev,testing]
pre-commit install

ทดสอบ

pytest

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน Version 3.3.1
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-11-16
ขนาด 50MB
มาจาก Github

แอปที่เกี่ยวข้อง

audio share

2024-11-02
แอพเสียง Heylink

2023-07-28
เครื่องเสียงแม็ค

2023-07-18
คลิปเสียงเพลงแม็ค เวอร์ชั่น Android

2023-07-17
Realtek เสียง Realtek ALC HD

2009-05-30
Realtek เสียง Realtek ALC HD

2009-05-30

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด

pyannote audio

ชุดเครื่องมือแยกเสียงลำโพง pyannote.audio