ดาวน์โหลด aTrain - ดาวน์โหลดซอร์สโค้ด aTrain

aTrain

ซอร์สโค้ดอื่น ๆ

v1.1.0

ดาวน์โหลด

การถอดเสียงบทสัมภาษณ์ที่สามารถเข้าถึงได้

aTrain เป็นเครื่องมือสำหรับการถอดเสียงการบันทึกเสียงพูดโดยอัตโนมัติโดยใช้โมเดลการเรียนรู้ของเครื่องที่ล้ำสมัยโดยไม่ต้องอัปโหลดข้อมูลใดๆ ได้รับการพัฒนาโดยนักวิจัยที่ Business Analytics และ Data Science-Center ที่มหาวิทยาลัย Graz และทดสอบโดยนักวิจัยจาก Know-Center Graz

ข่าวใหญ่! บทความแนะนำ aTrain ได้รับการตีพิมพ์ใน Journal of Behavioral and Experimental Finance โปรดอ้างอิงบทความที่ตีพิมพ์หากคุณใช้ aTrain สำหรับการวิจัยของคุณ: Take the aTrain ขอแนะนำอินเทอร์เฟซสำหรับการถอดเสียงบทสัมภาษณ์ที่สามารถเข้าถึงได้

ผู้ใช้ Windows (10 และ 11) สามารถติดตั้ง aTrain ผ่านทาง Microsoft app store (ลิงก์) หรือโดยการดาวน์โหลดตัวติดตั้งจากเว็บไซต์ BANDAS-Center (ลิงก์)

สำหรับ Linux ให้ทำตามคำแนะนำใน Wiki ของเรา

สามารถดูวิดีโอการติดตั้งและสาธิตได้ที่นี่

aTrain มอบสิทธิประโยชน์ดังต่อไปนี้:

รวดเร็วและแม่นยำ
aTrain ให้การเข้าถึงที่เป็นมิตรต่อผู้ใช้ในการใช้งานโมเดล Whisper ของ OpenAI ที่เร็วขึ้น ทำให้มั่นใจได้ถึงคุณภาพการถอดเสียงที่ดีที่สุดในระดับเดียวกัน (ดู Wollin-Geiring และคณะ 2023) จับคู่กับความเร็วที่สูงขึ้นบนคอมพิวเตอร์เฉพาะที่ของคุณ การถอดเสียงเมื่อเลือกรุ่นคุณภาพสูงสุดจะใช้เวลาเพียงประมาณสามเท่าของความยาวเสียงบน CPU แบบพกพาปัจจุบันที่พบในโน้ตบุ๊กธุรกิจระดับกลาง (เช่น Core i5 12th Gen, Ryzen Series 6000)

การตรวจจับลำโพง
aTrain มีโหมดการตรวจจับผู้พูดโดยใช้ pyannote.audio และสามารถวิเคราะห์แต่ละส่วนของข้อความเพื่อพิจารณาว่าเป็นของผู้พูดคนไหน

การรักษาความเป็นส่วนตัวและการปฏิบัติตาม GDPR
aTrain ประมวลผลการบันทึกเสียงพูดที่ให้มาแบบออฟไลน์โดยสมบูรณ์บนอุปกรณ์ของคุณเอง และไม่ส่งการบันทึกหรือการถอดเสียงไปยังอินเทอร์เน็ต สิ่งนี้ช่วยให้นักวิจัยรักษาข้อกำหนดความเป็นส่วนตัวของข้อมูลที่เกิดจากแนวปฏิบัติด้านจริยธรรมหรือเพื่อให้สอดคล้องกับข้อกำหนดทางกฎหมาย เช่น GDPR

รองรับหลายภาษา ?
aTrain สามารถประมวลผลการบันทึกเสียงพูดได้ใน 57 ภาษาต่อไปนี้: แอฟริกา, อาหรับ, อาร์เมเนีย, อาเซอร์ไบจาน, เบลารุส, บอสเนีย, บัลแกเรีย, คาตาลัน, จีน, โครเอเชีย, เช็ก, เดนมาร์ก, ดัตช์, อังกฤษ, เอสโตเนีย, ฟินแลนด์, ฝรั่งเศส, กาลิเซีย, เยอรมัน , กรีก, ฮิบรู, ฮินดี, ฮังการี, ไอซ์แลนด์, อินโดนีเซีย, อิตาลี, ญี่ปุ่น, กันนาดา, คาซัค, เกาหลี, ลัตเวีย, ลิทัวเนีย, มาซิโดเนีย มาเลย์ มราฐี เมารี เนปาล นอร์เวย์ เปอร์เซีย โปแลนด์ โปรตุเกส โรมาเนีย รัสเซีย เซอร์เบีย สโลวัก สโลวีเนีย สเปน สวาฮีลี สวีเดน ตากาล็อก ทมิฬ ไทย ตุรกี ยูเครน อูรดู เวียดนาม และเวลส์ .

เอาต์พุตที่รองรับ MAXQDA, ATLAS.ti และ NVivo ?
aTrain นำเสนอไฟล์การถอดเสียงที่สามารถนำเข้าไปยังเครื่องมือยอดนิยมที่สุดสำหรับการวิเคราะห์เชิงคุณภาพได้อย่างราบรื่น ATLAS.ti, MAXQDA และ NVivo สิ่งนี้ทำให้คุณสามารถเล่นเสียงสำหรับส่วนข้อความที่เกี่ยวข้องได้โดยตรงโดยคลิกที่การประทับเวลา ไปที่บทช่วยสอน

รองรับ NVIDIA GPU
aTrain สามารถทำงานบน CPU หรือ NVIDIA GPU (จำเป็นต้องติดตั้งชุดเครื่องมือ CUDA) NVIDIA GPU ที่เปิดใช้งาน CUDA ช่วยเพิ่มความเร็วของการถอดเสียงและการตรวจจับลำโพงได้อย่างมาก โดยลดเวลาการถอดเสียงลงเหลือ 20% ของความยาวเสียงในโน้ตบุ๊กสำหรับเล่นเกมระดับเริ่มต้นปัจจุบัน

ภาพหน้าจอที่ 1	ภาพหน้าจอที่ 2

เกณฑ์มาตรฐาน

สำหรับการทดสอบเวลาในการประมวลผลของ aTrain-core เราได้ถอดเสียงการสนทนาระหว่าง Christine Lagarde และ Andrea Enria ที่ฟอรัม ECB ครั้งที่ 5 ว่าด้วยการกำกับดูแลด้านการธนาคารประจำปี 2023 ซึ่งเผยแพร่บน YouTube โดยธนาคารกลางยุโรปภายใต้ใบอนุญาต Creative Commons ซึ่งดาวน์โหลดเป็นไฟล์วิดีโอ MP4 ความละเอียด 320p ไฟล์นี้มีระยะเวลา 22 นาทีพอดีและถูกถอดเสียงบนอุปกรณ์คอมพิวเตอร์ต่างๆ ที่เปิดใช้งานการตรวจจับผู้พูด รูปด้านล่างแสดงเวลาการประมวลผลของการถอดเสียงแต่ละครั้ง

เวลาถอดเสียงสำหรับ 00:22:00 ไฟล์:

อุปกรณ์คอมพิวเตอร์	ขนาดใหญ่-v3	กลั่นขนาดใหญ่-v3
ซีพียู: RYZEN 6850U	00:33:02	00:13:30
ซีพียู: แอปเปิ้ล M1	00:33:15	00:21:40
ซีพียู: Intel i9-10940X	00:10:25	00:04:36
จีพียู: RTX 2080 Ti	00:01:44	00:01:06

ความต้องการของระบบ

รองรับ Windows อย่างสมบูรณ์

รองรับ Debian พร้อมคำแนะนำการติดตั้ง Wiki ด้วยตนเอง

ขณะนี้ไม่มีการสนับสนุน MacOS

หากคุณต้องการใช้ Windows Server ตรวจสอบให้แน่ใจว่าได้ติดตั้ง WebView2 แล้ว:
https://developer.microsoft.com/en-us/microsoft-edge/webview2/#download

การติดตั้งสำหรับผู้ใช้ ?

เพียงเข้าถึงตัวติดตั้งจาก Microsoft App Store
https://apps.microsoft.com/store/detail/atrain/9N15Q44SZNS2

การติดตั้งสำหรับนักพัฒนา

คุณต้องมี python >=3.10
หากคุณต้องการความช่วยเหลือในการติดตั้ง โปรดดูแหล่งข้อมูลเหล่านี้:
https://www.python.org/downloads/release/python-31011/

ตั้งค่าสภาพแวดล้อมเสมือน

 python -m venv venv

เปิดใช้งานสภาพแวดล้อมเสมือน

 .venvScriptsactivate

ติดตั้ง aTrain

 pip install aTrain@git+https://github.com/JuergenFleiss/aTrain.git --extra-index-url https://download.pytorch.org/whl/cu118

ดาวน์โหลด ffmpeg และรุ่นที่จำเป็นทั้งหมดจาก Whisper และ pyannote.audio พร้อมสคริปต์คอนโซล หมายเหตุ: เวอร์ชันผู้ใช้ใน Microsoft Store มีเนื้อหาเหล่านั้นรวมอยู่ด้วยแล้ว

 aTrain init

เรียกใช้แอปด้วยสคริปต์คอนโซล

 aTrain start

จะสร้างปฏิบัติการแบบสแตนด์อโลนได้อย่างไร?

เราใช้ pyinstaller เพื่อตรึงโค้ดของ aTrain และสร้างไฟล์ปฏิบัติการแบบสแตนด์อโลน
หากคุณต้องการสร้างแพ็คเกจโค้ดของคุณเอง ให้ทำตามขั้นตอนเหล่านี้:

โคลนและติดตั้ง aTrain ใน โหมดแก้ไขได้

 git clone https://github.com/JuergenFleiss/aTrain.git
cd aTrain
pip install -e . --extra-index-url https://download.pytorch.org/whl/cu118

ดาวน์โหลด ffmpeg และรุ่นที่จำเป็นทั้งหมดจาก Whisper และ pyannote.audio พร้อมสคริปต์คอนโซล

 aTrain init

ติดตั้ง pyinstaller

 pip install pyinstaller

สร้างไฟล์ปฏิบัติการโดยใช้คำสั่งที่ให้ไว้ในไฟล์ "build.spec"

 pyinstaller build.spec

ยินดีด้วย! คุณเพิ่งสร้างไฟล์ปฏิบัติการแบบสแตนด์อโลนสำหรับ aTrain

หากต้องการเปิด aTrain เวอร์ชันนี้ เพียงไปที่โฟลเดอร์เอาท์พุต (./dist/aTrain) และเปิดไฟล์ปฏิบัติการ (เช่น aTrain.exe สำหรับ Windows)

หากคุณต้องการก้าวไปอีกขั้นและสร้างตัวติดตั้ง MSIX สำหรับ aTrain คุณสามารถใช้ Advanced Installer Express ได้
สำหรับข้อมูลเกี่ยวกับวิธีการใช้ Advanced Installer Express โปรดดูเอกสารประกอบ