Answer.AI และ LightOn ร่วมกันเปิดตัวโมเดลภาษาโอเพ่นซอร์ส ModernBERT ซึ่งเป็นการปรับปรุงที่สำคัญเหนือ Google BERT และมีการปรับปรุงความเร็ว ประสิทธิภาพ และคุณภาพอย่างมีนัยสำคัญ ModernBERT ประมวลผลเร็วกว่า BERT สี่เท่า ใช้หน่วยความจำน้อยกว่า และสามารถรองรับข้อความได้มากถึง 8192 โทเค็น ซึ่งเร็วกว่ารุ่นที่มีอยู่ 16 เท่า นอกจากนี้ยังสร้างความก้าวหน้าครั้งยิ่งใหญ่ในการเข้ารหัสโค้ดการเขียนโปรแกรมเป็นครั้งแรก โดยได้คะแนนมากกว่า 80 คะแนนในชุดข้อมูลถามตอบของ StackOverflow ซึ่งสร้างสถิติใหม่ ที่สำคัญกว่านั้น ModernBERT ช่วยลดต้นทุนการประมวลผลข้อความขนาดใหญ่ได้อย่างมาก และสามารถทำงานบนฮาร์ดแวร์ระดับผู้บริโภคธรรมดาได้ ทำให้คุ้มค่ากว่ารุ่นเช่น GPT-4
การออกแบบของ ModernBERT ช่วยให้สามารถจัดการกับข้อความที่ยาวได้ถึง 8192 โทเค็น ซึ่งเป็นการปรับปรุง 16 เท่าจากขีดจำกัดโทเค็น 512 ทั่วไปของโมเดลการเข้ารหัสที่มีอยู่ นอกจากนี้ ModernBERT ยังเป็นโมเดลการเข้ารหัสโค้ดโปรแกรมแรกที่ได้รับการฝึกอบรมอย่างกว้างขวาง โดยได้รับคะแนนมากกว่า 80 ในชุดข้อมูล StackOverflow Q&A ซึ่งสร้างสถิติใหม่สำหรับโมเดลการเข้ารหัส
ในการประเมินความเข้าใจภาษาทั่วไป (GLUE) ModernBERT-Large บรรลุสมดุลที่ดีที่สุดของความเร็วและความแม่นยำในการประมวลผล ด้วยเวลาการประมวลผลประมาณ 20 มิลลิวินาทีต่อโทเค็น และคะแนน 90 ทีมพัฒนาเปรียบเทียบ ModernBERT กับ Honda Civic ที่ได้รับการปรับแต่งอย่างชัดเจน โดยเน้นความน่าเชื่อถือและประสิทธิภาพในการใช้งานในแต่ละวัน
เมื่อเปรียบเทียบกับโมเดลภาษาขนาดใหญ่ที่มีอยู่ เช่น GPT-4 แล้ว ModernBERT จะช่วยลดต้นทุนการประมวลผลข้อความขนาดใหญ่ได้อย่างมาก GPT-4 มีค่าใช้จ่ายเพนนีต่อการสืบค้น ในขณะที่ ModernBERT ทำงานในเครื่องนั้นเร็วกว่าและราคาถูกกว่า ตัวอย่างเช่น เมื่อโครงการ FineWeb Edu กรองแท็กจำนวน 15 พันล้านแท็ก ค่าใช้จ่ายในการใช้โมเดล BERT อยู่ที่ 60,000 เหรียญสหรัฐ และแม้แต่การใช้ตัวถอดรหัส Gemini Flash ของ Google ก็มีค่าใช้จ่ายมากกว่า 1 ล้านเหรียญสหรัฐ
ทีมพัฒนากล่าวว่า ModernBERT เหมาะอย่างยิ่งสำหรับการใช้งานจริงที่หลากหลาย รวมถึงระบบการเรียกค้นข้อมูลเสริม (RAG) การค้นหาโค้ด และการตรวจสอบเนื้อหา ต่างจาก GPT-4 ซึ่งต้องใช้ฮาร์ดแวร์พิเศษ ModernBERT สามารถทำงานได้อย่างมีประสิทธิภาพบน GPU สำหรับเล่นเกมทั่วไป
ปัจจุบัน ModernBERT มีให้เลือกสองเวอร์ชัน: โมเดลพื้นฐานประกอบด้วยพารามิเตอร์ 139 ล้านพารามิเตอร์ และเวอร์ชันขนาดใหญ่ประกอบด้วยพารามิเตอร์ 395 ล้านพารามิเตอร์ ขณะนี้ทั้งสองเวอร์ชันเปิดตัวบน Hugging Face แล้ว และผู้ใช้สามารถแทนที่โมเดล BERT ที่มีอยู่ได้โดยตรง ทีมพัฒนาวางแผนที่จะเปิดตัวเวอร์ชันที่ใหญ่กว่าในปีหน้า แต่ไม่มีแผนสำหรับความสามารถหลายรูปแบบ เพื่อส่งเสริมการพัฒนาแอปใหม่ พวกเขายังเปิดตัวการแข่งขันที่จะมอบรางวัล $100 และการสมัครสมาชิก Hugging Face pro เป็นเวลาหกเดือนสำหรับผู้นำเสนอที่ดีที่สุดห้าคน
นับตั้งแต่ Google เปิดตัว BERT ในปี 2018 โมเดลภาษาดังกล่าวก็เป็นหนึ่งในโมเดลภาษาที่ได้รับความนิยมมากที่สุด โดยมียอดดาวน์โหลดมากกว่า 68 ล้านครั้งต่อเดือนบน HuggingFace
ทางเข้าโครงการ : https://huggingface.co/blog/modernbert
ไฮไลท์:
ModernBERT เร็วกว่า BERT ถึงสี่เท่า และสามารถรองรับข้อความยาวได้ถึง 8,192 โทเค็น
เมื่อเปรียบเทียบกับ GPT-4 ต้นทุนของ ModernBERT ในการประมวลผลข้อความขนาดใหญ่จะลดลงอย่างมาก และการดำเนินงานก็มีประสิทธิภาพมากกว่า
โมเดลนี้เก่งเป็นพิเศษในการประมวลผลโค้ดโปรแกรม โดยได้คะแนนมากกว่า 80 ในชุดข้อมูลถามตอบ StackOverflow ซึ่งสร้างสถิติใหม่
กล่าวโดยสรุป การเปิดตัว ModernBERT แบบโอเพ่นซอร์สช่วยให้นักพัฒนามีตัวเลือกโมเดลภาษาที่มีประสิทธิภาพ ประหยัด และทรงพลัง มีข้อได้เปรียบที่สำคัญในด้านความเร็ว ประสิทธิภาพ และความสามารถในการประมวลผลข้อความขนาดยาว และคาดว่าจะส่งเสริมการพัฒนานวัตกรรมของแอปพลิเคชัน AI มากขึ้น . รอคอยการอัปเดตในอนาคตและแอปพลิเคชันที่กว้างขึ้น