เล็กแต่ทรงพลัง! ทีมงาน 10 คนสร้าง Llama 3.1 405B ที่ได้รับการปรับแต่งครั้งแรก

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-22 08:32:01

ในด้าน AI มียักษ์ใหญ่มากมายและมีการแข่งขันที่ดุเดือด อย่างไรก็ตาม Nous Research ซึ่งเป็นบริษัทสตาร์ทอัพที่ประกอบด้วยบุคลากรเพียง 10 คน ประสบความสำเร็จในการท้าทายอำนาจของยักษ์ใหญ่ด้านเทคโนโลยีด้วยความแข็งแกร่งทางเทคนิคที่แข็งแกร่งและแนวคิดโอเพ่นซอร์ส รุ่น Hermes3 ที่เพิ่งเปิดตัวได้รับการปรับแต่งอย่างละเอียดโดยใช้ Llama 3.1 ด้วยขนาดพารามิเตอร์ 405B และประสิทธิภาพอันน่าทึ่ง มีการดาวน์โหลดมากกว่า 33 ล้านครั้ง ทำให้เป็นผลิตภัณฑ์มหัศจรรย์ในอุตสาหกรรม AI บทความนี้จะเจาะลึกถึงประสิทธิภาพที่ยอดเยี่ยมของรุ่น Hermes3 วิธีการฝึกอบรมที่มีประสิทธิภาพ และจิตวิญญาณแห่งนวัตกรรมของ Nous Research

ทีมเล็กๆ เพียง 10 คนเท่านั้นที่กล้าท้าทายสถานะของ Meta ยักษ์ใหญ่ด้านเทคโนโลยี นี่เป็นเพียงเวอร์ชันในชีวิตจริงของ David ที่เอาชนะ Goliath!

สตาร์ทอัพรายนี้ชื่อ Nous Research ไม่ใช่บุคคลที่ไม่รู้จัก Hermes3 ที่พวกเขาเพิ่งเปิดตัวได้รับการปรับแต่งอย่างละเอียดตามรุ่น 405B ของ Llama3.1 แม้ว่าทีมจะมีคนจำนวนน้อย แต่ความแข็งแกร่งของพวกเขาก็ไม่สามารถประมาทได้ ทีมงานทั้ง 10 คนนี้ประสบความสำเร็จในการปรับแต่งโมเดลต่างๆ เช่น Mistral, Yi, Llama ฯลฯ และมีการดาวน์โหลดมากกว่า 33 ล้านครั้ง มันเป็นเพียงเครื่องที่ขายดีในอุตสาหกรรม AI!

การเกิดขึ้นของ Hermes3 เปรียบเสมือนการยิงที่แขนในโลก AI แม้หลังจากการหาปริมาณ FP8 แล้ว ประสิทธิภาพก็ยังคงทรงพลังอย่างน่าทึ่ง การเพิ่มประสิทธิภาพนี้ไม่เพียงแต่ลดความต้องการ VRAM และดิสก์ของโมเดลลงอย่างมาก แต่ยังช่วยให้ Hermes3 ทำงานบนโหนดเดียว ซึ่งเป็นข่าวดีสำหรับนักพัฒนา!

ในแง่ของความสามารถในการสนทนา Hermes3 เป็นเพียงผู้รอบรู้เท่านั้น ไม่ว่าจะเป็นความทรงจำระยะยาว บทสนทนาหลายรอบ การแสดงบทบาทสมมติ หรือบทพูดคนเดียวภายใน ก็สามารถจัดการได้อย่างง่ายดาย ต้องขอบคุณหน้าต่างบริบท 128K ของ Llama3.1 ทำให้ Hermes3 เป็นนักการทูตผู้ช่ำชองในการรักษาการสนทนาให้สอดคล้องกัน

แต่ความสามารถของ Hermes3 ไม่ได้หยุดอยู่แค่นั้น โดยแสดงให้เห็นถึงชุดความสามารถขั้นสูงที่นอกเหนือไปจากการสร้างแบบจำลองภาษาแบบดั้งเดิม เพื่อทำความเข้าใจและประเมินคุณภาพของข้อความที่สร้างขึ้นด้วยวิธีที่ซับซ้อนและเหมาะสมยิ่ง ซึ่งหมายความว่าไม่เพียงแต่สามารถเป็นผู้พูดที่มีคารมคมคายเท่านั้น แต่ยังเป็นผู้วิจารณ์ข้อความที่เข้มงวดอีกด้วย!

สิ่งที่น่าทึ่งยิ่งกว่านั้นคือ Hermes3 ยังรวมความสามารถของตัวแทนหลายอย่าง รวมถึงเอาต์พุตที่มีโครงสร้าง เอาท์พุตของขั้นตอนกลาง และการสร้างบทพูดภายในเพื่อให้เกิดการตัดสินใจที่โปร่งใส นี่ก็เหมือนกับการเตรียมสมองที่โปร่งใสให้ AI ทำให้เรามองเห็นกระบวนการคิดของมันได้

กระบวนการฝึกฝนของ Hermes3 เรียกได้ว่าเป็นการฝึกฝนที่ชั่วร้ายในโลก AI ผ่านสองขั้นตอน: การปรับแต่งแบบละเอียดภายใต้การดูแล (SFT) และการเพิ่มประสิทธิภาพการตั้งค่าโดยตรง (DPO) ทีมงานใช้เวลา 5 เดือนเต็มในการคัดกรองและสร้างชุดข้อมูล SFT และความทุ่มเทและความอดทนของพวกเขานั้นสร้างแรงบันดาลใจได้อย่างยอดเยี่ยม

Nous Research ซึ่งเป็นกลุ่มวิจัยประยุกต์เอกชนที่ก่อตั้งขึ้นในปี 2023 และมีสำนักงานใหญ่ในนิวยอร์ก เป็นเพียงผู้บุกรุกป่าเถื่อนในโลก AI พวกเขาเชื่อมั่นในพลังของโอเพ่นซอร์สและให้คำมั่นที่จะท้าทายข้อจำกัดด้านนวัตกรรมของเทคโนโลยีปิด สโลแกนของบริษัทร้อนแรง: เราท้าทายสมมติฐานที่ว่าเทคโนโลยีแบบปิดจะครอบครองจุดสูงสุดของนวัตกรรมเสมอ และส่งมอบโค้ดโอเพ่นซอร์สที่ทรงพลังแทน

ในเวลาเพียงหนึ่งปี Nous Research ได้เปิดตัวชุดข้อมูล 5 ชุดและแบบจำลอง 89 แบบ ดูเหมือนว่าจะประกาศให้โลกได้รับรู้: ขนาดไม่สำคัญ แต่ความแข็งแกร่งคือราชา!

ที่อยู่กระดาษ: https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf

ข้อมูลเบื้องต้นอย่างเป็นทางการ: https://nousresearch.com/freedom-at-the-frontier-hermes-3/

ความสำเร็จของ Nous Research และ Hermes3 ไม่เพียงแต่พิสูจน์ถึงพลังของโอเพ่นซอร์สเท่านั้น แต่ยังนำความมีชีวิตชีวาและความเป็นไปได้ใหม่ๆ มาสู่สาขา AI อีกด้วย ทีมขนาดเล็กสามารถสร้างปาฏิหาริย์ได้ ซึ่งเป็นกำลังใจที่ยอดเยี่ยมสำหรับผู้ปฏิบัติงานด้าน AI ทุกคนอย่างไม่ต้องสงสัย ในอนาคต เรารอดูกันว่า Nous Research จะนำผลลัพธ์ที่น่าประหลาดใจไปมากกว่านี้อย่างไร