โมเดลการสังเคราะห์เสียงพูด Fish Speech 1.5 ที่เพิ่งเปิดตัวใหม่ของ Fish Audio ได้ก่อให้เกิดพายุในด้านการสังเคราะห์เสียงพูด รุ่นนี้ไม่เพียงแต่ได้รับการปรับปรุงที่สำคัญในด้านความแม่นยำ ความเสถียร และความสามารถข้ามภาษาเท่านั้น แต่สิ่งที่น่าประทับใจยิ่งกว่านั้นคือได้เพิ่มการรองรับภาษาใหม่ 5 ภาษา และจะเปิดตัวฟังก์ชันการสนทนาแบบเรียลไทม์ที่ราบรื่นซึ่งนำเสนออย่างที่ไม่เคยมีมาก่อนในเร็วๆ นี้ ประโยชน์ต่อผู้ใช้ ประสิทธิภาพอันทรงพลังนั้นได้มาจากข้อมูลการฝึกอบรมหลายภาษามากกว่า 1 ล้านชั่วโมง และได้อันดับที่สองในการจัดอันดับ TTS-Arena ที่ไม่เปิดเผยตัวตน บทความนี้จะเจาะลึกคุณสมบัติและคุณประโยชน์ของ Fish Speech 1.5
เมื่อเร็วๆ นี้ Fish Audio ได้สร้างภาพยนตร์บล็อกบัสเตอร์ - Fish Speech1.5 โมเดลการสังเคราะห์เสียงพูดใหม่นี้เป็นเพียง "เสียง" ที่ดื่มด่ำ ไม่เพียงแต่เหนือกว่ารุ่นก่อนในด้านความแม่นยำ ความเสถียร และความสามารถข้ามภาษา นอกจากนี้ Fish Speech 1.5 จะเปิดตัวเวอร์ชันจริงเร็วๆ นี้ - ฟังก์ชั่นการสนทนาที่ไร้รอยต่อตามเวลาช่วยให้ผู้ใช้สามารถเลือกคลังเสียงสำหรับการแชทแบบโต้ตอบได้ทุกที่ทุกเวลา
"ความรู้" ของ Fish Speech1.5 ค่อนข้างลึกซึ้ง มีการ "แทะ" ข้อมูลการฝึกอบรมหลายภาษามากกว่า 1 ล้านชั่วโมงเพื่อพัฒนาทักษะที่เป็นเอกลักษณ์ ปัจจุบันมีความเชี่ยวชาญใน 13 ภาษา รวมถึงภาษาอังกฤษ จีน และญี่ปุ่น . นี่ไม่ใช่การพูดโอ้อวด ฉันได้อันดับที่สองในการจัดอันดับ TTS-Arena ที่ไม่เปิดเผยตัวตน!
ฟังก์ชั่นการโคลนเสียงของ Fish Speech1.5 สามารถเรียกว่า "Flash" ได้ โดยมีเวลาหน่วงน้อยกว่า 150 มิลลิวินาที มันถูกสร้างขึ้นแบบเรียลไทม์! ที่สำคัญกว่านั้น Fish Speech1.5 ยังเปิดซอร์สโมเดลที่ได้รับการฝึกอบรมล่วงหน้าอย่างไม่เห็นแก่ตัว ไม่ว่าคุณจะอยาก "ปรับแต่ง" ตัวเองที่บ้าน หรือเลือกบริการคลาวด์ คุณก็ทำได้ง่ายๆ!
คุณสมบัติหลัก:
การสังเคราะห์คำพูดแบบไม่มีตัวอย่างและไม่กี่ตัวอย่าง: คุณจะต้องฟังตัวอย่างเสียงเพียง 10 ถึง 30 วินาทีเท่านั้น และจะสามารถเลียนแบบได้อย่างสมบูรณ์แบบและสร้างเอาต์พุตการสังเคราะห์เสียงพูดคุณภาพสูง มันเหมือนกับการแสดงเลียนแบบขั้นสุดยอด ตราบใดที่คุณกล้าที่จะ "แสดง" มันก็กล้าที่จะ "เรียนรู้"!
การสนับสนุนหลายภาษาและข้ามภาษา: คุณยังคงกังวลเกี่ยวกับอุปสรรคทางภาษาหรือไม่ Fish Speech1.5 ได้ช่วยคุณกำจัดอุปสรรคแล้ว! เพียงคัดลอกและวางสิ่งที่คุณต้องการพูดลงในช่องป้อนข้อมูลและก็สามารถทำได้อย่างง่ายดาย ปัจจุบันรองรับภาษาอังกฤษ ญี่ปุ่น เกาหลี จีน ฝรั่งเศส เยอรมัน อาหรับ และสเปน ตอนนี้คุณสามารถสนทนากับเพื่อน ๆ จากทั่วทุกมุมโลกได้แล้ว!
ไม่มีการพึ่งพาหน่วยเสียง: โมเดลการสังเคราะห์เสียงพูดแบบดั้งเดิมมักจะอาศัยหน่วยเสียง แต่ Fish Speech1.5 ใช้แนวทางที่แตกต่างออกไป มีความสามารถในการสรุปข้อมูลทั่วไปขั้นสูงและสามารถประมวลผลข้อความในสคริปต์ภาษาใดก็ได้ นี่เป็นเพียงการปฏิวัติในโลกการสังเคราะห์เสียงพูด!
แม่นยำสูง: สำหรับบทความภาษาอังกฤษความยาว 5 นาที อัตราข้อผิดพลาดของ Fish Speech1.5 ต่ำถึง 2% ซึ่งเป็นตัวเลขที่ค่อนข้างน่าทึ่ง!
รวดเร็ว: Fish Speech1.5 ก็เร็วเช่นกัน บนแล็ปท็อป Nvidia RTX4060 ค่าสัมประสิทธิ์เรียลไทม์อยู่ที่ประมาณ 1:5 ในขณะที่ Nvidia RTX4090 ค่าสัมประสิทธิ์เรียลไทม์สูงถึง 1:15! ความรู้สึก "บินได้"!
Fish Speech1.5 ยังรองรับการปรับใช้ในพื้นที่:
WebUI: มี Web UI ที่เรียบง่ายและใช้งานง่าย เข้ากันได้กับเบราว์เซอร์กระแสหลักเช่น Chrome, Firefox และ Edge ช่วยให้คุณสัมผัสประสบการณ์ความสนุกของการสังเคราะห์เสียงพูดได้ทุกที่ทุกเวลา
GUI: นอกจากนี้ยังมีอินเทอร์เฟซแบบกราฟิก PyQt6 ที่สามารถทำงานได้อย่างราบรื่นกับเซิร์ฟเวอร์ API ซึ่งรองรับระบบ Linux, Windows และ macOS ถือเป็นข่าวดีสำหรับ "Three Musketeers"!
ง่ายต่อการปรับใช้: คุณยังสามารถปรับใช้ Fish Speech1.5 กับระบบ Linux, Windows และ MacOS ได้อย่างง่ายดาย เพื่อลดการสูญเสียความเร็ว
ที่อยู่เว็บไซต์อย่างเป็นทางการ: https://fish.audio/zh-CN/
ที่อยู่โครงการ: https://github.com/fishaudio/fish-speech
โดยรวมแล้ว ด้วยฟังก์ชันอันทรงพลัง วิธีการปรับใช้ที่สะดวก และข้อดีของโอเพ่นซอร์ส Fish Speech 1.5 จึงสามารถดึงดูดความสนใจอย่างกว้างขวางในด้านการสังเคราะห์เสียงพูด และมอบประสบการณ์การโต้ตอบด้วยเสียงที่สะดวกและชาญฉลาดยิ่งขึ้นให้กับผู้ใช้ ประสิทธิภาพ ความแม่นยำ และการสนับสนุนหลายภาษาให้การสนับสนุนด้านเทคนิคที่มีประสิทธิภาพสำหรับสถานการณ์การใช้งานต่างๆ ยินดีต้อนรับเข้าสู่เว็บไซต์อย่างเป็นทางการและที่อยู่โครงการสำหรับข้อมูลเพิ่มเติม