aTrain เป็นเครื่องมือสำหรับการถอดเสียงการบันทึกเสียงพูดโดยอัตโนมัติโดยใช้โมเดลการเรียนรู้ของเครื่องที่ล้ำสมัยโดยไม่ต้องอัปโหลดข้อมูลใดๆ ได้รับการพัฒนาโดยนักวิจัยที่ Business Analytics และ Data Science-Center ที่มหาวิทยาลัย Graz และทดสอบโดยนักวิจัยจาก Know-Center Graz
ข่าวใหญ่! บทความแนะนำ aTrain ได้รับการตีพิมพ์ใน Journal of Behavioral and Experimental Finance โปรดอ้างอิงบทความที่ตีพิมพ์หากคุณใช้ aTrain สำหรับการวิจัยของคุณ: Take the aTrain ขอแนะนำอินเทอร์เฟซสำหรับการถอดเสียงบทสัมภาษณ์ที่สามารถเข้าถึงได้
ผู้ใช้ Windows (10 และ 11) สามารถติดตั้ง aTrain ผ่านทาง Microsoft app store (ลิงก์) หรือโดยการดาวน์โหลดตัวติดตั้งจากเว็บไซต์ BANDAS-Center (ลิงก์)
สำหรับ Linux ให้ทำตามคำแนะนำใน Wiki ของเรา
สามารถดูวิดีโอการติดตั้งและสาธิตได้ที่นี่
aTrain มอบสิทธิประโยชน์ดังต่อไปนี้:
รวดเร็วและแม่นยำ
aTrain ให้การเข้าถึงที่เป็นมิตรต่อผู้ใช้ในการใช้งานโมเดล Whisper ของ OpenAI ที่เร็วขึ้น ทำให้มั่นใจได้ถึงคุณภาพการถอดเสียงที่ดีที่สุดในระดับเดียวกัน (ดู Wollin-Geiring และคณะ 2023) จับคู่กับความเร็วที่สูงขึ้นบนคอมพิวเตอร์เฉพาะที่ของคุณ การถอดเสียงเมื่อเลือกรุ่นคุณภาพสูงสุดจะใช้เวลาเพียงประมาณสามเท่าของความยาวเสียงบน CPU แบบพกพาปัจจุบันที่พบในโน้ตบุ๊กธุรกิจระดับกลาง (เช่น Core i5 12th Gen, Ryzen Series 6000)
การตรวจจับลำโพง
aTrain มีโหมดการตรวจจับผู้พูดโดยใช้ pyannote.audio และสามารถวิเคราะห์แต่ละส่วนของข้อความเพื่อพิจารณาว่าเป็นของผู้พูดคนไหน
การรักษาความเป็นส่วนตัวและการปฏิบัติตาม GDPR
aTrain ประมวลผลการบันทึกเสียงพูดที่ให้มาแบบออฟไลน์โดยสมบูรณ์บนอุปกรณ์ของคุณเอง และไม่ส่งการบันทึกหรือการถอดเสียงไปยังอินเทอร์เน็ต สิ่งนี้ช่วยให้นักวิจัยรักษาข้อกำหนดความเป็นส่วนตัวของข้อมูลที่เกิดจากแนวปฏิบัติด้านจริยธรรมหรือเพื่อให้สอดคล้องกับข้อกำหนดทางกฎหมาย เช่น GDPR
รองรับหลายภาษา ?
aTrain สามารถประมวลผลการบันทึกเสียงพูดได้ใน 57 ภาษาต่อไปนี้: แอฟริกา, อาหรับ, อาร์เมเนีย, อาเซอร์ไบจาน, เบลารุส, บอสเนีย, บัลแกเรีย, คาตาลัน, จีน, โครเอเชีย, เช็ก, เดนมาร์ก, ดัตช์, อังกฤษ, เอสโตเนีย, ฟินแลนด์, ฝรั่งเศส, กาลิเซีย, เยอรมัน , กรีก, ฮิบรู, ฮินดี, ฮังการี, ไอซ์แลนด์, อินโดนีเซีย, อิตาลี, ญี่ปุ่น, กันนาดา, คาซัค, เกาหลี, ลัตเวีย, ลิทัวเนีย, มาซิโดเนีย มาเลย์ มราฐี เมารี เนปาล นอร์เวย์ เปอร์เซีย โปแลนด์ โปรตุเกส โรมาเนีย รัสเซีย เซอร์เบีย สโลวัก สโลวีเนีย สเปน สวาฮีลี สวีเดน ตากาล็อก ทมิฬ ไทย ตุรกี ยูเครน อูรดู เวียดนาม และเวลส์ .
เอาต์พุตที่รองรับ MAXQDA, ATLAS.ti และ NVivo ?
aTrain นำเสนอไฟล์การถอดเสียงที่สามารถนำเข้าไปยังเครื่องมือยอดนิยมที่สุดสำหรับการวิเคราะห์เชิงคุณภาพได้อย่างราบรื่น ATLAS.ti, MAXQDA และ NVivo สิ่งนี้ทำให้คุณสามารถเล่นเสียงสำหรับส่วนข้อความที่เกี่ยวข้องได้โดยตรงโดยคลิกที่การประทับเวลา ไปที่บทช่วยสอน
รองรับ NVIDIA GPU
aTrain สามารถทำงานบน CPU หรือ NVIDIA GPU (จำเป็นต้องติดตั้งชุดเครื่องมือ CUDA) NVIDIA GPU ที่เปิดใช้งาน CUDA ช่วยเพิ่มความเร็วของการถอดเสียงและการตรวจจับลำโพงได้อย่างมาก โดยลดเวลาการถอดเสียงลงเหลือ 20% ของความยาวเสียงในโน้ตบุ๊กสำหรับเล่นเกมระดับเริ่มต้นปัจจุบัน
ภาพหน้าจอที่ 1 | ภาพหน้าจอที่ 2 |
---|---|
สำหรับการทดสอบเวลาในการประมวลผลของ aTrain-core เราได้ถอดเสียงการสนทนาระหว่าง Christine Lagarde และ Andrea Enria ที่ฟอรัม ECB ครั้งที่ 5 ว่าด้วยการกำกับดูแลด้านการธนาคารประจำปี 2023 ซึ่งเผยแพร่บน YouTube โดยธนาคารกลางยุโรปภายใต้ใบอนุญาต Creative Commons ซึ่งดาวน์โหลดเป็นไฟล์วิดีโอ MP4 ความละเอียด 320p ไฟล์นี้มีระยะเวลา 22 นาทีพอดีและถูกถอดเสียงบนอุปกรณ์คอมพิวเตอร์ต่างๆ ที่เปิดใช้งานการตรวจจับผู้พูด รูปด้านล่างแสดงเวลาการประมวลผลของการถอดเสียงแต่ละครั้ง
เวลาถอดเสียงสำหรับ 00:22:00 ไฟล์:
อุปกรณ์คอมพิวเตอร์ | ขนาดใหญ่-v3 | กลั่นขนาดใหญ่-v3 |
---|---|---|
ซีพียู: RYZEN 6850U | 00:33:02 | 00:13:30 |
ซีพียู: แอปเปิ้ล M1 | 00:33:15 | 00:21:40 |
ซีพียู: Intel i9-10940X | 00:10:25 | 00:04:36 |
จีพียู: RTX 2080 Ti | 00:01:44 | 00:01:06 |
รองรับ Windows อย่างสมบูรณ์
รองรับ Debian พร้อมคำแนะนำการติดตั้ง Wiki ด้วยตนเอง
ขณะนี้ไม่มีการสนับสนุน MacOS
หากคุณต้องการใช้ Windows Server ตรวจสอบให้แน่ใจว่าได้ติดตั้ง WebView2 แล้ว:
https://developer.microsoft.com/en-us/microsoft-edge/webview2/#download
เพียงเข้าถึงตัวติดตั้งจาก Microsoft App Store
https://apps.microsoft.com/store/detail/atrain/9N15Q44SZNS2
คุณต้องมี python >=3.10
หากคุณต้องการความช่วยเหลือในการติดตั้ง โปรดดูแหล่งข้อมูลเหล่านี้:
https://www.python.org/downloads/release/python-31011/
ตั้งค่าสภาพแวดล้อมเสมือน
python -m venv venv
เปิดใช้งานสภาพแวดล้อมเสมือน
.venvScriptsactivate
ติดตั้ง aTrain
pip install aTrain@git+https://github.com/JuergenFleiss/aTrain.git --extra-index-url https://download.pytorch.org/whl/cu118
ดาวน์โหลด ffmpeg และรุ่นที่จำเป็นทั้งหมดจาก Whisper และ pyannote.audio พร้อมสคริปต์คอนโซล หมายเหตุ: เวอร์ชันผู้ใช้ใน Microsoft Store มีเนื้อหาเหล่านั้นรวมอยู่ด้วยแล้ว
aTrain init
เรียกใช้แอปด้วยสคริปต์คอนโซล
aTrain start
เราใช้ pyinstaller เพื่อตรึงโค้ดของ aTrain และสร้างไฟล์ปฏิบัติการแบบสแตนด์อโลน
หากคุณต้องการสร้างแพ็คเกจโค้ดของคุณเอง ให้ทำตามขั้นตอนเหล่านี้:
โคลนและติดตั้ง aTrain ใน โหมดแก้ไขได้
git clone https://github.com/JuergenFleiss/aTrain.git
cd aTrain
pip install -e . --extra-index-url https://download.pytorch.org/whl/cu118
ดาวน์โหลด ffmpeg และรุ่นที่จำเป็นทั้งหมดจาก Whisper และ pyannote.audio พร้อมสคริปต์คอนโซล
aTrain init
ติดตั้ง pyinstaller
pip install pyinstaller
สร้างไฟล์ปฏิบัติการโดยใช้คำสั่งที่ให้ไว้ในไฟล์ "build.spec"
pyinstaller build.spec
ยินดีด้วย! คุณเพิ่งสร้างไฟล์ปฏิบัติการแบบสแตนด์อโลนสำหรับ aTrain
หากต้องการเปิด aTrain เวอร์ชันนี้ เพียงไปที่โฟลเดอร์เอาท์พุต (./dist/aTrain) และเปิดไฟล์ปฏิบัติการ (เช่น aTrain.exe สำหรับ Windows)
หากคุณต้องการก้าวไปอีกขั้นและสร้างตัวติดตั้ง MSIX สำหรับ aTrain คุณสามารถใช้ Advanced Installer Express ได้
สำหรับข้อมูลเกี่ยวกับวิธีการใช้ Advanced Installer Express โปรดดูเอกสารประกอบ
GIF และไอคอนใน aTrain มาจาก tenor และ flaticon