Seattle Startup Moondream เปิดตัวโมเดลภาษาภาพขนาดกะทัดรัด Moondream2 ซึ่งมีพารามิเตอร์เพียง 1.6 พันล้านพารามิเตอร์ แต่ทำงานได้ดีในการทดสอบมาตรฐานต่างๆดีกว่าบางรุ่นที่มีพารามิเตอร์ขนาดใหญ่กว่า ในฐานะที่เป็นโมเดลโอเพ่นซอร์ส Moondream2 สามารถทำงานได้ในเครื่องบนอุปกรณ์ประสิทธิภาพต่ำเช่นสมาร์ทโฟนและมีความสามารถในการประมวลผลภาพและข้อความที่ทรงพลังรวมถึง Q&A, OCR การนับวัตถุและการจำแนกประเภท คะแนนมากกว่า 60% สำหรับ DocVQA, TextVQA และ GQA แสดงให้เห็นถึงความสามารถที่ทรงพลังเมื่อดำเนินการในท้องถิ่น Moondream ได้รับเงิน 4.5 ล้านดอลลาร์ในรอบเมล็ดและยังคงอัปเดตโมเดลเพื่อปรับปรุงประสิทธิภาพ
เมื่อเร็ว ๆ นี้ Moondream ผู้เริ่มต้นซีแอตเทิลได้เปิดตัวโมเดลภาษาภาพขนาดกะทัดรัดชื่อ Moondream2 แม้จะมีขนาดเล็ก แต่โมเดลก็ทำงานได้ดีในมาตรฐานที่หลากหลายและได้รับความสนใจอย่างมาก ในฐานะที่เป็นโมเดลโอเพ่นซอร์ส Moondream2 คาดว่าจะใช้การจดจำภาพในท้องถิ่นบนสมาร์ทโฟน
Moondream2 ได้รับการปล่อยตัวอย่างเป็นทางการในเดือนมีนาคม นับตั้งแต่เปิดตัวทีม Moondream ได้ปรับปรุงโมเดลอย่างต่อเนื่องเพื่อปรับปรุงประสิทธิภาพของเกณฑ์มาตรฐานอย่างต่อเนื่อง ฉบับเดือนกรกฎาคมแสดงให้เห็นถึงการปรับปรุงที่สำคัญในการทำความเข้าใจ OCR และเอกสารโดยเฉพาะอย่างยิ่งในการวิเคราะห์ข้อมูลทางเศรษฐกิจในอดีต โมเดลทำคะแนนได้มากกว่า 60% สำหรับ DocVQA, TextVQA และ GQA ซึ่งแสดงความสามารถที่ทรงพลังเมื่อดำเนินการในท้องถิ่น
คุณลักษณะที่โดดเด่นของ Moondream2 คือขนาดกะทัดรัด: มีเพียง 1.6 พันล้านพารามิเตอร์ซึ่งทำให้มันไม่เพียง แต่บนเซิร์ฟเวอร์คลาวด์ แต่ยังอยู่ในคอมพิวเตอร์ท้องถิ่นและแม้แต่อุปกรณ์ประสิทธิภาพต่ำเช่นสมาร์ทโฟนหรือคอมพิวเตอร์เครื่องเดียว
แม้จะมีขนาดเล็ก แต่ประสิทธิภาพของมันก็เปรียบได้กับโมเดลการแข่งขันบางอย่างที่มีพารามิเตอร์หลายพันล้านและแม้แต่มีประสิทธิภาพสูงกว่ารุ่นที่ใหญ่กว่าเหล่านี้ในบางเกณฑ์มาตรฐาน
ในการเปรียบเทียบโมเดลภาษาภาพอุปกรณ์มือถือนักวิจัยชี้ให้เห็นว่าถึงแม้ว่า Moondream2 จะมีพารามิเตอร์เพียง 170 ล้านพารามิเตอร์ประสิทธิภาพของมันเปรียบได้กับโมเดลพารามิเตอร์ 700 ล้านตัวเท่านั้นและทำงานได้ต่ำกว่าชุดข้อมูล SQA เพียงเล็กน้อยเท่านั้น นี่แสดงให้เห็นว่าแม้จะมีประสิทธิภาพที่ยอดเยี่ยมของโมเดลขนาดเล็ก แต่ก็มีความท้าทายในการทำความเข้าใจบริบทที่เฉพาะเจาะจง
Vikhyat Korrapati ผู้พัฒนาโมเดลกล่าวว่า Moondream2 ถูกสร้างขึ้นในรุ่นอื่น ๆ เช่น Siglip, ชุดข้อมูลการฝึกอบรม PHI-1.5 ของ Microsoft และ LLAVA ตอนนี้โมเดลโอเพ่นซอร์สมีให้บริการฟรีบน GitHub และมีเวอร์ชันสาธิตเกี่ยวกับการกอดใบหน้า บนแพลตฟอร์มการเข้ารหัส Moondream2 ยังได้รับความสนใจอย่างกว้างขวางจากชุมชนนักพัฒนาและได้รับการจัดอันดับมากกว่า 5,000 ดาว
ความสำเร็จดึงดูดความสนใจของนักลงทุน: Moondream ประสบความสำเร็จในการระดมทุน 4.5 ล้านเหรียญสหรัฐในรอบเมล็ดพันธุ์นำโดย Felicis Ventures กองทุน M12Github ของ Microsoft และ Ascend เจย์อัลเลนซีอีโอของ บริษัท ได้ทำงานให้กับ Amazon Web Services (AWS) มาหลายปีและเป็นผู้นำในการเริ่มต้นที่เพิ่มขึ้น
การเปิดตัว Moondream2 นับเป็นการเกิดของรุ่นโอเพนซอร์สที่ได้รับการปรับปรุงอย่างมืออาชีพซึ่งต้องใช้ทรัพยากรน้อยลงเมื่อให้ประสิทธิภาพที่คล้ายคลึงกับรุ่นที่เก่ากว่าและเก่ากว่า แม้ว่าจะมีโมเดลท้องถิ่นขนาดเล็กในตลาดเช่นผู้ช่วยอัจฉริยะของ Apple และ Gemini Nano ของ Google แต่ผู้ผลิตสองรายนี้ยังคงจ้างงานที่ซับซ้อนมากขึ้นในระบบคลาวด์เพื่อแก้ไข
HuggingFace: https: //huggingface.co/vikhyatk/moondream2
GitHub: https: //github.com/vikhyat/moondream
ประเด็นสำคัญ:
Moondream ได้เปิดตัว Moondream2 ซึ่งเป็นรูปแบบภาษาภาพที่มีพารามิเตอร์เพียง 160 ล้านพารามิเตอร์ซึ่งสามารถทำงานบนอุปกรณ์ขนาดเล็กเช่นสมาร์ทโฟน
โมเดลมีความสามารถในการประมวลผลข้อความและภาพที่แข็งแกร่งสามารถตอบคำถามดำเนินการ OCR นับวัตถุและจำแนกมาตรฐานและดำเนินการเปรียบเทียบที่ยอดเยี่ยม
Moondream ประสบความสำเร็จในการระดมทุน $ 4.5 ล้านและ CEO ทำงานที่ Amazon และทีมงานยังคงปรับปรุงและปรับปรุงประสิทธิภาพของแบบจำลอง
การเกิดขึ้นของ Moondream2 ได้นำความเป็นไปได้ใหม่ ๆ มาสู่แอพพลิเคชั่น AI มือถือและคุณสมบัติโอเพ่นซอร์สได้ส่งเสริมการมีส่วนร่วมและนวัตกรรมของชุมชนนักพัฒนา ในอนาคตด้วยการพัฒนาเทคโนโลยีอย่างต่อเนื่องรุ่น AI ขนาดเล็กและมีประสิทธิภาพเช่น Moondream2 จะมีบทบาทสำคัญในสาขามากขึ้น