อ้าปากแล้วคุกเข่า! Fish Audio เปิดตัว Fish Speech 1.5 เพิ่ม 5 ภาษาใหม่ และจะเปิดตัวฟังก์ชันการสนทนาแบบเรียลไทม์ที่ไร้รอยต่อ

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-18 10:00:02

โมเดลการสังเคราะห์เสียงพูด Fish Speech 1.5 ที่เพิ่งเปิดตัวใหม่ของ Fish Audio ได้ก่อให้เกิดพายุในด้านการสังเคราะห์เสียงพูด รุ่นนี้ไม่เพียงแต่ได้รับการปรับปรุงที่สำคัญในด้านความแม่นยำ ความเสถียร และความสามารถข้ามภาษาเท่านั้น แต่สิ่งที่น่าประทับใจยิ่งกว่านั้นคือได้เพิ่มการรองรับภาษาใหม่ 5 ภาษา และจะเปิดตัวฟังก์ชันการสนทนาแบบเรียลไทม์ที่ราบรื่นซึ่งนำเสนออย่างที่ไม่เคยมีมาก่อนในเร็วๆ นี้ ประโยชน์ต่อผู้ใช้ ประสิทธิภาพอันทรงพลังนั้นได้มาจากข้อมูลการฝึกอบรมหลายภาษามากกว่า 1 ล้านชั่วโมง และได้อันดับที่สองในการจัดอันดับ TTS-Arena ที่ไม่เปิดเผยตัวตน บทความนี้จะเจาะลึกคุณสมบัติและคุณประโยชน์ของ Fish Speech 1.5

เมื่อเร็วๆ นี้ Fish Audio ได้สร้างภาพยนตร์บล็อกบัสเตอร์ - Fish Speech1.5 โมเดลการสังเคราะห์เสียงพูดใหม่นี้เป็นเพียง "เสียง" ที่ดื่มด่ำ ไม่เพียงแต่เหนือกว่ารุ่นก่อนในด้านความแม่นยำ ความเสถียร และความสามารถข้ามภาษา นอกจากนี้ Fish Speech 1.5 จะเปิดตัวเวอร์ชันจริงเร็วๆ นี้ - ฟังก์ชั่นการสนทนาที่ไร้รอยต่อตามเวลาช่วยให้ผู้ใช้สามารถเลือกคลังเสียงสำหรับการแชทแบบโต้ตอบได้ทุกที่ทุกเวลา

"ความรู้" ของ Fish Speech1.5 ค่อนข้างลึกซึ้ง มีการ "แทะ" ข้อมูลการฝึกอบรมหลายภาษามากกว่า 1 ล้านชั่วโมงเพื่อพัฒนาทักษะที่เป็นเอกลักษณ์ ปัจจุบันมีความเชี่ยวชาญใน 13 ภาษา รวมถึงภาษาอังกฤษ จีน และญี่ปุ่น . นี่ไม่ใช่การพูดโอ้อวด ฉันได้อันดับที่สองในการจัดอันดับ TTS-Arena ที่ไม่เปิดเผยตัวตน!

ฟังก์ชั่นการโคลนเสียงของ Fish Speech1.5 สามารถเรียกว่า "Flash" ได้ โดยมีเวลาหน่วงน้อยกว่า 150 มิลลิวินาที มันถูกสร้างขึ้นแบบเรียลไทม์! ที่สำคัญกว่านั้น Fish Speech1.5 ยังเปิดซอร์สโมเดลที่ได้รับการฝึกอบรมล่วงหน้าอย่างไม่เห็นแก่ตัว ไม่ว่าคุณจะอยาก "ปรับแต่ง" ตัวเองที่บ้าน หรือเลือกบริการคลาวด์ คุณก็ทำได้ง่ายๆ!

คุณสมบัติหลัก:

การสังเคราะห์คำพูดแบบไม่มีตัวอย่างและไม่กี่ตัวอย่าง: คุณจะต้องฟังตัวอย่างเสียงเพียง 10 ถึง 30 วินาทีเท่านั้น และจะสามารถเลียนแบบได้อย่างสมบูรณ์แบบและสร้างเอาต์พุตการสังเคราะห์เสียงพูดคุณภาพสูง มันเหมือนกับการแสดงเลียนแบบขั้นสุดยอด ตราบใดที่คุณกล้าที่จะ "แสดง" มันก็กล้าที่จะ "เรียนรู้"!

การสนับสนุนหลายภาษาและข้ามภาษา: คุณยังคงกังวลเกี่ยวกับอุปสรรคทางภาษาหรือไม่ Fish Speech1.5 ได้ช่วยคุณกำจัดอุปสรรคแล้ว! เพียงคัดลอกและวางสิ่งที่คุณต้องการพูดลงในช่องป้อนข้อมูลและก็สามารถทำได้อย่างง่ายดาย ปัจจุบันรองรับภาษาอังกฤษ ญี่ปุ่น เกาหลี จีน ฝรั่งเศส เยอรมัน อาหรับ และสเปน ตอนนี้คุณสามารถสนทนากับเพื่อน ๆ จากทั่วทุกมุมโลกได้แล้ว!

ไม่มีการพึ่งพาหน่วยเสียง: โมเดลการสังเคราะห์เสียงพูดแบบดั้งเดิมมักจะอาศัยหน่วยเสียง แต่ Fish Speech1.5 ใช้แนวทางที่แตกต่างออกไป มีความสามารถในการสรุปข้อมูลทั่วไปขั้นสูงและสามารถประมวลผลข้อความในสคริปต์ภาษาใดก็ได้ นี่เป็นเพียงการปฏิวัติในโลกการสังเคราะห์เสียงพูด!

แม่นยำสูง: สำหรับบทความภาษาอังกฤษความยาว 5 นาที อัตราข้อผิดพลาดของ Fish Speech1.5 ต่ำถึง 2% ซึ่งเป็นตัวเลขที่ค่อนข้างน่าทึ่ง!

รวดเร็ว: Fish Speech1.5 ก็เร็วเช่นกัน บนแล็ปท็อป Nvidia RTX4060 ค่าสัมประสิทธิ์เรียลไทม์อยู่ที่ประมาณ 1:5 ในขณะที่ Nvidia RTX4090 ค่าสัมประสิทธิ์เรียลไทม์สูงถึง 1:15! ความรู้สึก "บินได้"!

Fish Speech1.5 ยังรองรับการปรับใช้ในพื้นที่:

WebUI: มี Web UI ที่เรียบง่ายและใช้งานง่าย เข้ากันได้กับเบราว์เซอร์กระแสหลักเช่น Chrome, Firefox และ Edge ช่วยให้คุณสัมผัสประสบการณ์ความสนุกของการสังเคราะห์เสียงพูดได้ทุกที่ทุกเวลา

GUI: นอกจากนี้ยังมีอินเทอร์เฟซแบบกราฟิก PyQt6 ที่สามารถทำงานได้อย่างราบรื่นกับเซิร์ฟเวอร์ API ซึ่งรองรับระบบ Linux, Windows และ macOS ถือเป็นข่าวดีสำหรับ "Three Musketeers"!

ง่ายต่อการปรับใช้: คุณยังสามารถปรับใช้ Fish Speech1.5 กับระบบ Linux, Windows และ MacOS ได้อย่างง่ายดาย เพื่อลดการสูญเสียความเร็ว

ที่อยู่เว็บไซต์อย่างเป็นทางการ: https://fish.audio/zh-CN/

ที่อยู่โครงการ: https://github.com/fishaudio/fish-speech

โดยรวมแล้ว ด้วยฟังก์ชันอันทรงพลัง วิธีการปรับใช้ที่สะดวก และข้อดีของโอเพ่นซอร์ส Fish Speech 1.5 จึงสามารถดึงดูดความสนใจอย่างกว้างขวางในด้านการสังเคราะห์เสียงพูด และมอบประสบการณ์การโต้ตอบด้วยเสียงที่สะดวกและชาญฉลาดยิ่งขึ้นให้กับผู้ใช้ ประสิทธิภาพ ความแม่นยำ และการสนับสนุนหลายภาษาให้การสนับสนุนด้านเทคนิคที่มีประสิทธิภาพสำหรับสถานการณ์การใช้งานต่างๆ ยินดีต้อนรับเข้าสู่เว็บไซต์อย่างเป็นทางการและที่อยู่โครงการสำหรับข้อมูลเพิ่มเติม