เมื่อเร็วๆ นี้ Meta AI ได้เปิดโมเดลภาษาหลายภาษาที่เรียกว่า SPIRIT LM ซึ่งเป็นเครื่องมืออันทรงพลังที่สามารถผสมข้อความและคำพูดได้อย่างอิสระ โดยอิงตามโมเดลภาษาข้อความที่ได้รับการฝึกอบรมล่วงหน้าซึ่งมีพารามิเตอร์ 7 พันล้านตัว และขยายไปสู่รูปแบบการพูดผ่าน การฝึกอบรมอย่างต่อเนื่อง SPIRIT LM ไม่เพียงแต่สามารถเข้าใจและสร้างข้อความและคำพูดเท่านั้น แต่ที่สำคัญกว่านั้น มันสามารถผสมผสานทั้งสองอย่างเข้าด้วยกันเพื่อให้บรรลุฟังก์ชั่นหลายอย่าง เช่น การรู้จำเสียงพูด การสังเคราะห์เสียงพูด การจำแนกคำพูด ฯลฯ โดยเฉพาะอย่างยิ่งในการแสดงออกทางอารมณ์และสามารถสร้างธรรมชาติได้มากขึ้น และเสียงที่สะเทือนอารมณ์ด้วยการออกแบบสองเวอร์ชัน: "Basic Edition" และ "Expression Edition"
เมื่อเร็วๆ นี้ Meta AI ได้เปิดซอร์สโมเดลภาษามัลติโมดัลพื้นฐานที่เรียกว่า SPIRIT LM ซึ่งสามารถผสมข้อความและคำพูดได้อย่างอิสระ เปิดความเป็นไปได้ใหม่สำหรับงานเสียงและข้อความหลายโมดัล
SPIRIT LM ใช้โมเดลภาษาข้อความที่ได้รับการฝึกอบรมล่วงหน้าจำนวน 7 พันล้านพารามิเตอร์ และขยายไปสู่รูปแบบคำพูดผ่านการฝึกอบรมอย่างต่อเนื่องเกี่ยวกับหน่วยข้อความและคำพูด สามารถเข้าใจและสร้างข้อความได้เหมือนกับโมเดลข้อความขนาดใหญ่ และยังสามารถเข้าใจและสร้างคำพูดได้อีกด้วย มันยังผสมผสานข้อความและคำพูดเข้าด้วยกันเพื่อสร้างเอฟเฟกต์มหัศจรรย์ต่างๆ ได้! ตัวอย่างเช่น คุณสามารถใช้มันเพื่อการรู้จำเสียงพูด และแปลงคำพูดเป็นได้ ข้อความ คุณยังสามารถใช้สำหรับการสังเคราะห์คำพูดเพื่อแปลงข้อความเป็นคำพูด คุณยังสามารถใช้สำหรับการจำแนกคำพูดเพื่อกำหนดอารมณ์ของคำพูด
สิ่งที่ทรงพลังยิ่งกว่านั้นคือ SPIRIT LM เก่งในเรื่อง "การแสดงออกทางอารมณ์" เป็นพิเศษ มันสามารถจดจำและสร้างน้ำเสียงและสไตล์เสียงที่หลากหลาย ทำให้เสียงของ AI ฟังดูเป็นธรรมชาติและสื่ออารมณ์มากขึ้น คุณสามารถจินตนาการได้ว่าเสียงที่สร้างโดย SPIRIT LM ไม่ใช่เสียงเครื่องจักรที่เย็นชาอีกต่อไป แต่เหมือนกับเสียงคนจริงที่พูด เต็มไปด้วยความสุข ความโกรธ ความโศกเศร้า และความสุข!
เพื่อให้ AI มี "อารมณ์" ดีขึ้น นักวิจัย Meta ยังได้พัฒนา SPIRIT LM สองเวอร์ชันเป็นพิเศษ:
"รุ่นพื้นฐาน" (BASE): เวอร์ชันนี้เน้นที่ข้อมูลเสียงพูดเป็นหลัก ซึ่งเป็น "องค์ประกอบพื้นฐาน" ของคำพูด
"เวอร์ชันที่แสดงออก" (EXPRESSIVE): นอกเหนือจากข้อมูลฟอนิมแล้ว เวอร์ชันนี้ยังเพิ่มข้อมูลโทนและสไตล์ซึ่งทำให้เสียงของ AI สดใสและแสดงออกมากขึ้น
แล้ว SPIRIT LM ทำทุกอย่างนี้ได้อย่างไร?
พูดง่ายๆ ก็คือ SPIRIT LM ได้รับการฝึกฝนโดยใช้ LLAMA2 ซึ่งเป็นโมเดลข้อความขนาดใหญ่ที่ทรงพลังอย่างยิ่งที่ Meta เปิดตัวก่อนหน้านี้ นักวิจัย "ป้อน" ข้อมูลข้อความและคำพูดจำนวนมากให้กับ LLAMA2 และนำวิธี "การฝึกอบรมแบบสอดแทรก" พิเศษมาใช้ เพื่อให้ LLAMA2 สามารถเรียนรู้กฎของข้อความและคำพูดได้ในเวลาเดียวกัน
เพื่อทดสอบความสามารถ "การแสดงออกทางอารมณ์" ของ SPIRIT LM นักวิจัยของ Meta ยังได้ออกแบบเกณฑ์มาตรฐานการทดสอบใหม่ - "เกณฑ์มาตรฐานการรักษาความรู้สึกของคำพูดและข้อความ" (STSP) เกณฑ์มาตรฐานการทดสอบนี้ประกอบด้วยคำพูดและข้อความที่หลากหลายที่แสดงอารมณ์ที่แตกต่างกันเพื่อทดสอบว่าโมเดล AI สามารถจดจำและสร้างคำพูดและข้อความที่มีอารมณ์สอดคล้องกันได้อย่างแม่นยำหรือไม่ ผลลัพธ์แสดงให้เห็นว่า "เวอร์ชันการแสดงออก" ของ SPIRIT LM ทำงานได้ดีในการกักเก็บอารมณ์ และปัจจุบันเป็นโมเดล AI แรกที่สามารถเก็บข้อมูลทางอารมณ์ในรูปแบบต่างๆ ได้!
แน่นอนว่านักวิจัย Meta ยังยอมรับว่า SPIRIT LM ยังมีอีกหลายด้านที่ต้องปรับปรุง ตัวอย่างเช่น ปัจจุบัน SPIRIT LM รองรับเฉพาะภาษาอังกฤษและจำเป็นต้องขยายไปยังภาษาอื่นๆ ในอนาคต ขนาดโมเดลของ SPIRIT LM นั้นไม่ใหญ่พอ และจำเป็นต้องขยายขนาดโมเดลต่อไปและปรับปรุงประสิทธิภาพของโมเดลใน อนาคต
SPIRIT LM เป็นความก้าวหน้าครั้งสำคัญของ Meta ในสาขา AI โดยเป็นการเปิดประตูให้เราสู่โลก AI ที่ "มีเสียงและอารมณ์" ฉันเชื่อว่าในอนาคตอันใกล้นี้ เราจะได้เห็นแอปพลิเคชั่นที่น่าสนใจมากขึ้นที่พัฒนาขึ้นจาก SPIRIT LM เพื่อให้ AI ไม่เพียงแต่พูดได้คล่องเท่านั้น แต่ยังแสดงอารมณ์ได้เหมือนคนจริงๆ และสื่อสารกับเราอย่างเป็นธรรมชาติและจริงใจมากขึ้น!
ที่อยู่โครงการ: https://speechbot.github.io/spiritlm/
ที่อยู่กระดาษ: https://arxiv.org/pdf/2402.05755
โดยรวมแล้ว โอเพ่นซอร์สของ SPIRIT LM นำมาซึ่งโอกาสใหม่ ๆ ในการพัฒนา AI หลายรูปแบบ ความสามารถในการแสดงออกทางอารมณ์อันทรงพลังและความสามารถในการประมวลผลข้อมูลข้ามรูปแบบถือเป็นการประกาศนวัตกรรมในอนาคตในลักษณะที่ AI โต้ตอบกับมนุษย์ เราหวังว่าจะมีการนำ SPIRIT LM ไปใช้ในภาษาและสถานการณ์การใช้งานเพิ่มเติมในอนาคต