Meta AI ได้เปิดตัวโมเดลภาษาหลายภาษาพื้นฐานที่เรียกว่า SPIRIT LM อย่างน่าตกใจ ซึ่งเป็นความสำเร็จครั้งสำคัญที่สามารถผสมข้อความและคำพูดได้อย่างอิสระ! โดยอิงตามโมเดลภาษาข้อความที่ได้รับการฝึกอบรมล่วงหน้าซึ่งมีพารามิเตอร์ 7 พันล้านพารามิเตอร์ และขยายไปยังโหมดคำพูดผ่านการฝึกอบรมอย่างต่อเนื่อง ทำให้เข้าใจถึงความเข้าใจแบบสองโมดัลและสร้างข้อความและคำพูด และยังผสมผสานทั้งสองอย่างเข้าด้วยกัน ทำให้เกิดเอฟเฟกต์การใช้งานที่ไม่คาดคิด บรรณาธิการของ Downcodes จะนำคุณไปสู่ความเข้าใจเชิงลึกเกี่ยวกับฟังก์ชันอันทรงพลังของ SPIRIT LM และความก้าวหน้าทางเทคโนโลยีที่อยู่เบื้องหลัง
เมื่อเร็วๆ นี้ Meta AI ได้เปิดซอร์สโมเดลภาษามัลติโมดัลพื้นฐานที่เรียกว่า SPIRIT LM ซึ่งสามารถผสมข้อความและคำพูดได้อย่างอิสระ เปิดความเป็นไปได้ใหม่สำหรับงานเสียงและข้อความหลายโมดัล
SPIRIT LM ใช้โมเดลภาษาข้อความที่ได้รับการฝึกอบรมล่วงหน้าจำนวน 7 พันล้านพารามิเตอร์ และขยายไปสู่รูปแบบคำพูดผ่านการฝึกอบรมอย่างต่อเนื่องเกี่ยวกับหน่วยข้อความและคำพูด สามารถเข้าใจและสร้างข้อความได้เหมือนกับโมเดลข้อความขนาดใหญ่ และยังสามารถเข้าใจและสร้างคำพูดได้อีกด้วย มันยังผสมผสานข้อความและคำพูดเข้าด้วยกันเพื่อสร้างเอฟเฟกต์มหัศจรรย์ต่างๆ ได้! ตัวอย่างเช่น คุณสามารถใช้มันเพื่อการรู้จำเสียงพูด และแปลงคำพูดเป็นได้ ข้อความ คุณยังสามารถใช้สำหรับการสังเคราะห์คำพูดเพื่อแปลงข้อความเป็นคำพูด คุณยังสามารถใช้สำหรับการจำแนกคำพูดเพื่อกำหนดอารมณ์ของคำพูด
สิ่งที่ทรงพลังยิ่งกว่านั้นคือ SPIRIT LM เก่งในเรื่อง "การแสดงออกทางอารมณ์" เป็นพิเศษ มันสามารถจดจำและสร้างน้ำเสียงและสไตล์เสียงที่หลากหลาย ทำให้เสียงของ AI ฟังดูเป็นธรรมชาติและสื่ออารมณ์มากขึ้น คุณสามารถจินตนาการได้ว่าเสียงที่สร้างโดย SPIRIT LM ไม่ใช่เสียงเครื่องจักรที่เย็นชาอีกต่อไป แต่เหมือนกับเสียงคนจริงที่พูด เต็มไปด้วยความสุข ความโกรธ ความโศกเศร้า และความสุข!
เพื่อให้ AI มี "อารมณ์" ดีขึ้น นักวิจัย Meta ยังได้พัฒนา SPIRIT LM สองเวอร์ชันเป็นพิเศษ:
"รุ่นพื้นฐาน" (BASE): เวอร์ชันนี้เน้นที่ข้อมูลเสียงพูดเป็นหลัก ซึ่งเป็น "องค์ประกอบพื้นฐาน" ของคำพูด
"เวอร์ชันที่แสดงออก" (EXPRESSIVE): นอกเหนือจากข้อมูลฟอนิมแล้ว เวอร์ชันนี้ยังเพิ่มข้อมูลโทนและสไตล์ ซึ่งสามารถทำให้เสียงของ AI สดใสและแสดงออกได้มากขึ้น
แล้ว SPIRIT LM ทำทุกอย่างนี้ได้อย่างไร?
พูดง่ายๆ ก็คือ SPIRIT LM ได้รับการฝึกฝนโดยใช้ LLAMA2 ซึ่งเป็นโมเดลข้อความขนาดใหญ่ที่ทรงพลังอย่างยิ่งที่ Meta เปิดตัวก่อนหน้านี้ นักวิจัย "ป้อน" ข้อมูลข้อความและคำพูดจำนวนมากให้กับ LLAMA2 และนำวิธี "การฝึกอบรมแบบสอดแทรก" พิเศษมาใช้ เพื่อให้ LLAMA2 สามารถเรียนรู้กฎของข้อความและคำพูดได้ในเวลาเดียวกัน
เพื่อทดสอบความสามารถ "การแสดงออกทางอารมณ์" ของ SPIRIT LM นักวิจัยของ Meta ยังได้ออกแบบเกณฑ์มาตรฐานการทดสอบใหม่ - "เกณฑ์มาตรฐานการรักษาความรู้สึกของคำพูดและข้อความ" (STSP) เกณฑ์มาตรฐานการทดสอบนี้ประกอบด้วยคำพูดและข้อความที่หลากหลายซึ่งแสดงอารมณ์ที่แตกต่างกันเพื่อทดสอบว่าโมเดล AI สามารถจดจำและสร้างคำพูดและข้อความที่มีอารมณ์ที่สอดคล้องกันได้อย่างแม่นยำหรือไม่ ผลลัพธ์แสดงให้เห็นว่า "เวอร์ชันการแสดงออก" ของ SPIRIT LM ทำงานได้ดีในการกักเก็บอารมณ์ และปัจจุบันเป็นโมเดล AI แรกที่สามารถเก็บข้อมูลทางอารมณ์ในรูปแบบต่างๆ ได้!
แน่นอนว่านักวิจัย Meta ยังยอมรับว่า SPIRIT LM ยังมีอีกหลายด้านที่ต้องปรับปรุง ตัวอย่างเช่น ปัจจุบัน SPIRIT LM รองรับเฉพาะภาษาอังกฤษและจำเป็นต้องขยายไปยังภาษาอื่นๆ ในอนาคต ขนาดโมเดลของ SPIRIT LM นั้นไม่ใหญ่พอ และจำเป็นต้องขยายขนาดโมเดลต่อไปและปรับปรุงประสิทธิภาพของโมเดลใน อนาคต
SPIRIT LM เป็นความก้าวหน้าครั้งสำคัญของ Meta ในสาขา AI โดยเป็นการเปิดประตูให้เราสู่โลก AI ที่ "มีเสียงและอารมณ์" ฉันเชื่อว่าในอนาคตอันใกล้นี้ เราจะได้เห็นแอปพลิเคชั่นที่น่าสนใจมากขึ้นที่พัฒนาขึ้นจาก SPIRIT LM เพื่อให้ AI ไม่เพียงแต่พูดได้คล่องเท่านั้น แต่ยังแสดงอารมณ์ได้เหมือนคนจริงๆ และสื่อสารกับเราอย่างเป็นธรรมชาติและจริงใจมากขึ้น!
ที่อยู่โครงการ: https://speechbot.github.io/spiritlm/
ที่อยู่กระดาษ: https://arxiv.org/pdf/2402.05755
โดยรวมแล้ว โอเพ่นซอร์สของ SPIRIT LM ได้นำความก้าวหน้าที่น่าตื่นเต้นมาสู่สาขา AI แบบหลายรูปแบบ การเกิดขึ้นดังกล่าวเป็นการประกาศว่า AI จะบรรลุความก้าวหน้าที่ยิ่งใหญ่ยิ่งขึ้นในการโต้ตอบด้วยเสียงและการแสดงออกทางอารมณ์ในอนาคต บรรณาธิการของ Downcodes จะยังคงชดใช้ต่อไป โปรดติดตามข่าวสารล่าสุดเกี่ยวกับเรื่องนี้!