โปรแกรมแก้ไข Downcodes นำเสนอข้อมูลเทคโนโลยีล่าสุดแก่คุณ! Moondream สตาร์ทอัพในซีแอตเทิลได้เปิดตัว moondream2 ซึ่งเป็นโมเดลภาษาภาพขนาดกะทัดรัดที่น่าทึ่ง ซึ่งกำลังสร้างกระแสในอุตสาหกรรมด้วยขนาดที่เล็กและประสิทธิภาพอันทรงพลัง โมเดลโอเพ่นซอร์สนี้ทำงานได้ดีในการทดสอบเกณฑ์มาตรฐานต่างๆ แม้จะเหนือกว่าคู่แข่งด้วยพารามิเตอร์ที่ใหญ่กว่าในบางแง่มุม ทำให้เกิดความเป็นไปได้ใหม่ๆ สำหรับการจดจำรูปภาพเฉพาะที่บนสมาร์ทโฟน มาดูสิ่งที่ทำให้ moondream2 มีเอกลักษณ์เฉพาะตัวและนวัตกรรมทางเทคโนโลยีที่อยู่เบื้องหลังกันดีกว่า
เมื่อเร็วๆ นี้ Moondream ซึ่งเป็นบริษัทสตาร์ทอัพในซีแอตเทิล ได้เปิดตัวโมเดลภาษาภาพขนาดกะทัดรัดที่เรียกว่า moondream2 แม้จะมีขนาดเล็ก แต่โมเดลก็ทำงานได้ดีในการทดสอบเกณฑ์มาตรฐานต่างๆ และดึงดูดความสนใจได้มาก ในฐานะโมเดลโอเพ่นซอร์ส moondream2 สัญญาว่าจะเปิดใช้งานความสามารถในการจดจำรูปภาพในเครื่องบนสมาร์ทโฟน
Moondream2 เปิดตัวอย่างเป็นทางการในเดือนมีนาคม โมเดลนี้สามารถประมวลผลอินพุตข้อความและรูปภาพ และมีความสามารถในการตอบคำถาม การแยกข้อความ (OCR) การนับวัตถุ และการจัดหมวดหมู่รายการ นับตั้งแต่เปิดตัว ทีมงาน Moondream ก็ได้อัปเดตโมเดลอย่างต่อเนื่อง และปรับปรุงประสิทธิภาพพื้นฐานอย่างต่อเนื่อง การเผยแพร่เดือนกรกฎาคมแสดงให้เห็นถึงการปรับปรุงที่สำคัญใน OCR และความเข้าใจในเอกสาร โดยเฉพาะอย่างยิ่งในการวิเคราะห์ข้อมูลเศรษฐกิจในอดีต คะแนนของโมเดลใน DocVQA, TextVQA และ GQA ล้วนเกิน 60% ซึ่งแสดงให้เห็นถึงความสามารถอันแข็งแกร่งเมื่อดำเนินการในเครื่อง
คุณสมบัติเด่นของ moondream2 คือขนาดที่กะทัดรัด: มีพารามิเตอร์เพียง 1.6 พันล้านพารามิเตอร์ ซึ่งช่วยให้ทำงานไม่เพียงแต่บนเซิร์ฟเวอร์คลาวด์เท่านั้น แต่ยังทำงานบนเครื่องคอมพิวเตอร์ในระบบและแม้แต่อุปกรณ์ที่มีประสิทธิภาพต่ำกว่าเช่นสมาร์ทโฟนหรือคอมพิวเตอร์บอร์ดเดี่ยว
แม้จะมีขนาดที่เล็ก แต่ประสิทธิภาพของมันก็เทียบได้กับรุ่นคู่แข่งบางรุ่นที่มีพารามิเตอร์หลายพันล้านรายการ และยังเหนือกว่ารุ่นใหญ่กว่านี้ในเกณฑ์มาตรฐานบางรายการอีกด้วย
ในการเปรียบเทียบโมเดลภาษาภาพของอุปกรณ์เคลื่อนที่ นักวิจัยชี้ให้เห็นว่า แม้ว่า moondream2 จะมีพารามิเตอร์เพียง 170 ล้านพารามิเตอร์ แต่ประสิทธิภาพของมันก็เทียบเท่ากับโมเดลพารามิเตอร์ 700 ล้านตัว และประสิทธิภาพของมันก็ด้อยกว่าชุดข้อมูล SQA เพียงเล็กน้อยเท่านั้น นี่แสดงให้เห็นว่าแม้ว่าแบบจำลองขนาดเล็กจะทำงานได้ดี แต่ยังคงเผชิญกับความท้าทายในการทำความเข้าใจบริบทเฉพาะ
Vikhyat Korrapati ผู้พัฒนาโมเดลกล่าวว่า moondream2 สร้างขึ้นจากโมเดลอื่นๆ เช่น SigLIP, ชุดข้อมูลการฝึกอบรม Phi-1.5 และ LLaVA ของ Microsoft ขณะนี้โมเดลโอเพ่นซอร์สพร้อมให้ดาวน์โหลดฟรีบน GitHub โดยมีเวอร์ชันสาธิตแสดงบน Hugging Face บนแพลตฟอร์มการเขียนโค้ด moondream2 ยังได้รับความสนใจอย่างกว้างขวางจากชุมชนนักพัฒนา โดยได้รับการวิจารณ์มากกว่า 5,000 ดาว
ความสำเร็จนี้ดึงดูดนักลงทุน: Moondream ระดมทุนได้ 4.5 ล้านดอลลาร์ในรอบเริ่มต้น นำโดย Felicis Ventures, กองทุน M12GitHub ของ Microsoft และ Ascend Jay Allen ซีอีโอของบริษัทเคยทำงานที่ Amazon Web Services (AWS) มาหลายปีและเป็นผู้นำในสตาร์ทอัพที่กำลังเติบโต
การเปิดตัว moondream2 ถือเป็นการกำเนิดของซีรีส์โมเดลโอเพ่นซอร์สที่ได้รับการปรับแต่งอย่างมืออาชีพ ซึ่งใช้ทรัพยากรน้อยลง ขณะเดียวกันก็มอบประสิทธิภาพที่คล้ายคลึงกันกับโมเดลที่ใหญ่กว่าและเก่ากว่า แม้ว่าจะมีโมเดลท้องถิ่นเล็กๆ บางรุ่นในตลาด เช่น ผู้ช่วยอัจฉริยะของ Apple และ Gemini Nano ของ Google แต่ผู้ผลิตทั้งสองรายนี้ยังคงว่าจ้างงานที่ซับซ้อนมากขึ้นให้กับระบบคลาวด์
กอดหน้า:https://huggingface.co/vikhyatk/moondream2
github:https://github.com/vikhyat/moondream
การเกิดขึ้นของ moondream2 ถือเป็นการประกาศถึงการพัฒนาที่แข็งแกร่งของโมเดล AI น้ำหนักเบา ซึ่งมอบความเป็นไปได้ใหม่ๆ สำหรับแอปพลิเคชัน AI ในท้องถิ่น ลักษณะโอเพ่นซอร์สของมันยังส่งเสริมการมีส่วนร่วมอย่างแข็งขันของชุมชนนักพัฒนาและเติมพลังใหม่ให้กับการพัฒนาเทคโนโลยี AI เราหวังว่าจะมีนวัตกรรมที่คล้ายกันมากขึ้นในอนาคต!