Hugging Face ปล่อยโมเดลภาษาภาพที่มีน้ำหนักเบาที่น่าทึ่ง Smolvlm ซึ่งมีขนาดเล็กและสามารถทำงานบนอุปกรณ์ขนาดเล็กเช่นโทรศัพท์มือถือ แต่ประสิทธิภาพของมันเกินกว่ารุ่น IDEFICS80B ขนาดใหญ่กว่า 300 เท่า ความคืบหน้าการพัฒนานี้นับเป็นความก้าวหน้าของแอปพลิเคชัน AI ที่มีต่อยุคการปรับใช้ที่กว้างขึ้นและลดลงซึ่งช่วยประหยัดค่าใช้จ่ายในการคำนวณจำนวนมากและปรับปรุงประสิทธิภาพการประมวลผล การเกิดขึ้นของ SMOLVLM เป็นโอกาสที่ไม่เคยเกิดขึ้นมาก่อนสำหรับธุรกิจขนาดเล็กและ บริษัท สตาร์ทอัพเพื่อพัฒนาแอพพลิเคชั่นวิสัยทัศน์คอมพิวเตอร์ที่ซับซ้อนในราคาที่ต่ำกว่า
Hugging Face ได้เปิดตัวโมเดล AI ที่น่าทึ่ง - Smolvlm รูปแบบภาษาภาพนี้มีขนาดเล็กพอที่จะทำงานบนอุปกรณ์ขนาดเล็กเช่นโทรศัพท์มือถือและมีประสิทธิภาพสูงกว่ารุ่นก่อนที่ต้องการการสนับสนุนจากศูนย์ข้อมูลขนาดใหญ่
ข้อกำหนดของหน่วยความจำ GPU ของโมเดล SMOLVLM-256M นั้นน้อยกว่า 1GB แต่ประสิทธิภาพของมันเกินกว่ารุ่นก่อนหน้า IDEFICS80B ซึ่งมีขนาดใหญ่กว่าขนาด 300 เท่า
จากข้อมูลของ Andres Malafiotti วิศวกรการวิจัยการเรียนรู้ของเครื่องที่ Hugging Face โมเดล Smolvlm ยังนำการลดต้นทุนการคำนวณที่สำคัญมาสู่องค์กรในขณะที่มันถูกนำไปใช้ในตลาด "IDEFICS80B ที่เราเปิดตัวก่อนหน้านี้เป็นรูปแบบภาษาวิดีโอโอเพ่นซอร์สแห่งแรกในเดือนสิงหาคม 2566 ในขณะที่การเปิดตัว SMOLVLM ประสบความสำเร็จในการลดขนาด 300 เท่าในขณะที่ปรับปรุงประสิทธิภาพ"
การเปิดตัวโมเดล SMOLVLM เกิดขึ้นพร้อมกับช่วงเวลาที่สำคัญเมื่อองค์กรต้องเผชิญกับค่าใช้จ่ายในการคำนวณที่สูงในการใช้ระบบ AI โมเดลใหม่มีสเกลพารามิเตอร์สองตัว 256m และ 500m ช่วยให้ภาพและเนื้อหาภาพได้รับการประมวลผลด้วยความเร็วที่ไม่สามารถคิดได้ก่อนหน้านี้ รุ่นขั้นต่ำสามารถประมวลผลได้สูงสุด 16 อินสแตนซ์ต่อวินาทีและต้องการหน่วยความจำเพียง 15GB ทำให้เหมาะอย่างยิ่งสำหรับธุรกิจที่ต้องประมวลผลข้อมูลภาพจำนวนมาก สำหรับ บริษัท ขนาดกลางที่ประมวลผลรูปภาพ 1 ล้านภาพต่อเดือนซึ่งหมายถึงการประหยัดต้นทุนการคำนวณประจำปี
นอกจากนี้ IBM ยังได้มาถึงความร่วมมือกับ Hugging Face เพื่อรวมโมเดล 256M เข้ากับซอฟต์แวร์การประมวลผลเอกสาร แม้ว่า IBM จะมีทรัพยากรการคำนวณมากมาย แต่การใช้แบบจำลองขนาดเล็กทำให้มีประสิทธิภาพในการประมวลผลไฟล์นับล้านในราคาที่ต่ำกว่า
ทีม Hugging Face ประสบความสำเร็จในการลดขนาดรุ่นโดยไม่สูญเสียประสิทธิภาพผ่านนวัตกรรมทางเทคโนโลยีในการประมวลผลภาพและส่วนประกอบภาษา พวกเขาแทนที่ตัวเข้ารหัส Visual Visual พารามิเตอร์ 400m ดั้งเดิมด้วยพารามิเตอร์ 93M และใช้เทคโนโลยีการบีบอัดโทเค็นที่ก้าวร้าวมากขึ้น นวัตกรรมเหล่านี้ช่วยให้ธุรกิจขนาดเล็กและ บริษัท สตาร์ทอัพเปิดตัวผลิตภัณฑ์วิสัยทัศน์คอมพิวเตอร์ที่ซับซ้อนในช่วงเวลาสั้น ๆ และค่าใช้จ่ายโครงสร้างพื้นฐานจะลดลงอย่างมาก
ชุดข้อมูลการฝึกอบรมของ SMOLVLM มีตัวอย่างการฝึกอบรม 170 ล้านตัวอย่างเกือบครึ่งหนึ่งใช้สำหรับการประมวลผลเอกสารและคำอธิบายประกอบภาพ การพัฒนาเหล่านี้ไม่เพียง แต่ลดต้นทุน แต่ยังนำความเป็นไปได้ของแอปพลิเคชันใหม่มาสู่องค์กรเพิ่มความสามารถในการค้นหาด้วยภาพในระดับที่ไม่เคยมีมาก่อน
ความก้าวหน้านี้โดยการกอดใบหน้าท้าทายการรับรู้แบบดั้งเดิมของความสัมพันธ์ระหว่างขนาดของแบบจำลองและความสามารถ Smolvlm พิสูจน์ให้เห็นว่าสถาปัตยกรรมขนาดเล็กและมีประสิทธิภาพสามารถบรรลุประสิทธิภาพที่ยอดเยี่ยมในอนาคตการพัฒนาของ AI อาจไม่ได้ติดตามโมเดลขนาดใหญ่อีกต่อไป
รุ่น: https://huggingface.co/blog/smolervlm
คะแนน:
รุ่น SMOLVLM ที่เปิดตัวโดย Hugging Face สามารถทำงานบนโทรศัพท์มือถือและมีประสิทธิภาพมากกว่ารุ่น IDEFICS80B มากกว่า 300 เท่า
โมเดล SMOLVLM ช่วยให้องค์กรลดต้นทุนการคำนวณอย่างมีนัยสำคัญด้วยความเร็วในการประมวลผล 16 อินสแตนซ์ต่อวินาที
นวัตกรรมทางเทคโนโลยีของรุ่นนี้ช่วยให้ธุรกิจขนาดเล็กและ บริษัท สตาร์ทอัพเปิดตัวผลิตภัณฑ์วิสัยทัศน์คอมพิวเตอร์ที่ซับซ้อนในเวลาอันสั้น
การเกิดขึ้นของ SMOLVLM บ่งชี้ว่าแอปพลิเคชัน AI จะกลายเป็นที่นิยมมากขึ้นและธุรกิจขนาดเล็กและนักพัฒนารายบุคคลสามารถใช้เทคโนโลยี AI ที่ทรงพลังเพื่อส่งเสริมนวัตกรรมและการพัฒนาปัญญาประดิษฐ์ในสาขามากขึ้น ลักษณะที่มีน้ำหนักเบาและมีประสิทธิภาพสูงจะเปลี่ยนความเข้าใจของเราเกี่ยวกับโมเดลปัญญาประดิษฐ์อย่างไม่ต้องสงสัยและชี้ให้เห็นเส้นทางใหม่สำหรับทิศทางการพัฒนาในอนาคตของเทคโนโลยี AI