OpenBMB เปิดตัว MiniCPM-o2.6 รุ่นหลายรูปแบบ โทรศัพท์มือถือยังสามารถประมวลผลภาพและเสียงพูดได้ - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-01-28 16:16:02

ปัญญาประดิษฐ์มีความก้าวหน้าอย่างมากในการประมวลผลหลายรูปแบบ แต่โมเดลประสิทธิภาพสูงมักจะต้องใช้ทรัพยากรการประมวลผลจำนวนมาก ซึ่งจำกัดการใช้งานบนอุปกรณ์ Edge เพื่อตอบสนองต่อความท้าทายนี้ OpenBMB ได้เปิดตัว MiniCPM-o2.6 ซึ่งเป็นโมเดลหลายรูปแบบที่มีประสิทธิภาพ โดยมีเป้าหมายเพื่อลดช่องว่างระหว่างเทคโนโลยี AI ขั้นสูงและอุปกรณ์ที่มีทรัพยากรจำกัด MiniCPM-o2.6 มีพารามิเตอร์ 8 พันล้านพารามิเตอร์ ผสานรวมโมดูลการประมวลผลการมองเห็น คำพูด และภาษา และได้รับการปรับปรุงให้ทำงานได้อย่างราบรื่นบนอุปกรณ์ เช่น สมาร์ทโฟนและแท็บเล็ต ช่วยให้นักพัฒนาและองค์กรต่างๆ มีวิธีการปรับใช้โซลูชัน AI ที่สะดวกยิ่งขึ้น

เทคโนโลยีปัญญาประดิษฐ์มีความก้าวหน้าอย่างมากในช่วงไม่กี่ปีที่ผ่านมา แต่ความท้าทายยังคงอยู่ระหว่างประสิทธิภาพในการคำนวณและความคล่องตัว โมเดลหลายรูปแบบขั้นสูงจำนวนมาก เช่น GPT-4 มักจะต้องการทรัพยากรการประมวลผลจำนวนมาก ซึ่งจำกัดการใช้งานบนเซิร์ฟเวอร์ระดับไฮเอนด์ ทำให้เป็นเรื่องยากสำหรับเทคโนโลยีอัจฉริยะที่จะนำไปใช้อย่างมีประสิทธิภาพบนอุปกรณ์ Edge เช่น สมาร์ทโฟนและแท็บเล็ต นอกจากนี้ ยังมีอุปสรรคทางเทคนิคในการประมวลผลงานต่างๆ เช่น การวิเคราะห์วิดีโอหรือคำพูดเป็นข้อความแบบเรียลไทม์ โดยเน้นย้ำถึงความจำเป็นในการใช้โมเดล AI ที่มีประสิทธิภาพและยืดหยุ่น ซึ่งสามารถทำงานได้อย่างราบรื่นภายใต้เงื่อนไขของฮาร์ดแวร์ที่จำกัด

เพื่อแก้ไขปัญหาเหล่านี้ เมื่อเร็วๆ นี้ OpenBMB ได้เปิดตัว MiniCPM-o2.6 ซึ่งเป็นโมเดลที่มีสถาปัตยกรรมพารามิเตอร์ 8 พันล้านที่ได้รับการออกแบบมาเพื่อรองรับการประมวลผลการมองเห็น คำพูด และภาษา และสามารถทำงานบนอุปกรณ์ Edge ได้อย่างมีประสิทธิภาพ เช่น สมาร์ทโฟน แท็บเล็ต และ iPad MiniCPM-o2.6 ใช้การออกแบบโมดูลาร์และผสานรวมส่วนประกอบอันทรงพลังหลายรายการ:

- SigLip-400M เพื่อความเข้าใจด้านการมองเห็น

- Whisper-300M ใช้การประมวลผลคำพูดหลายภาษา

- ChatTTS-200M ให้ความสามารถในการสนทนา

- Qwen2.5-7B สำหรับการทำความเข้าใจข้อความขั้นสูง

โมเดลดังกล่าวได้รับคะแนนเฉลี่ย 70.2 ในการวัดประสิทธิภาพ OpenCompass ซึ่งเหนือกว่า GPT-4V ในด้านการมองเห็น การสนับสนุนหลายภาษาและการทำงานที่มีประสิทธิภาพบนอุปกรณ์ระดับผู้บริโภคทำให้สามารถใช้งานได้จริงในสถานการณ์การใช้งานที่หลากหลาย

MiniCPM-o2.6 บรรลุประสิทธิภาพอันทรงพลังผ่านรายละเอียดทางเทคนิคต่อไปนี้:

- การเพิ่มประสิทธิภาพพารามิเตอร์: แม้จะมีขนาดใหญ่ แต่ก็ได้รับการปรับให้เหมาะสมผ่านเฟรมเวิร์ก เช่น llama.cpp และ vLLM เพื่อรักษาความแม่นยำและลดความต้องการทรัพยากร

- การประมวลผลหลายรูปแบบ: รองรับการประมวลผลภาพความละเอียดสูงสุด 1344×1344 และมีฟังก์ชัน OCR เพื่อประสิทธิภาพที่ยอดเยี่ยม

- การสนับสนุนสื่อสตรีมมิ่ง: รองรับการประมวลผลวิดีโอและเสียงอย่างต่อเนื่อง ทำให้สามารถนำไปใช้กับการตรวจสอบแบบเรียลไทม์และสถานการณ์การถ่ายทอดสด

- คุณสมบัติเสียง: ให้ความเข้าใจคำพูดสองภาษา การโคลนเสียง และการควบคุมอารมณ์ เพื่อส่งเสริมการโต้ตอบแบบเรียลไทม์ที่เป็นธรรมชาติ

- ง่ายต่อการบูรณาการ: เข้ากันได้กับแพลตฟอร์มเช่น Gradio ทำให้กระบวนการปรับใช้ง่ายขึ้น และเหมาะสำหรับแอปพลิเคชันเชิงพาณิชย์ที่มีผู้ใช้งานน้อยกว่าหนึ่งล้านคนต่อวัน

คุณสมบัติเหล่านี้ทำให้ MiniCPM-o2.6 เป็นโอกาสสำหรับนักพัฒนาและองค์กรในการปรับใช้โซลูชัน AI ที่ซับซ้อนโดยไม่ต้องพึ่งพาโครงสร้างพื้นฐานขนาดใหญ่

MiniCPM-o2.6 ทำงานได้ดีในด้านต่างๆ มันเหนือกว่า GPT-4V ในงานภาพ ตระหนักถึงบทสนทนาภาษาจีนและอังกฤษแบบเรียลไทม์ การควบคุมอารมณ์ และการโคลนเสียงในแง่ของการประมวลผลคำพูด และมีความสามารถในการโต้ตอบด้วยภาษาธรรมชาติที่ยอดเยี่ยม ในขณะเดียวกัน การประมวลผลวิดีโอและเสียงอย่างต่อเนื่องทำให้เหมาะสำหรับการแปลแบบเรียลไทม์และเครื่องมือการเรียนรู้แบบโต้ตอบ ทำให้มั่นใจได้ถึงความแม่นยำสูงในงาน OCR เช่น การแปลงเอกสารเป็นดิจิทัล

การเปิดตัว MiniCPM-o2.6 แสดงถึงการพัฒนาที่สำคัญในเทคโนโลยีปัญญาประดิษฐ์ โดยประสบความสำเร็จในการแก้ปัญหาท้าทายที่มีมายาวนานระหว่างโมเดลที่ใช้ทรัพยากรสูงและความเข้ากันได้ของอุปกรณ์เอดจ์ ด้วยการรวมความสามารถหลายรูปแบบขั้นสูงเข้ากับการทำงานของอุปกรณ์ Edge ที่มีประสิทธิภาพ OpenBMB จึงสร้างโมเดลที่ทรงพลังและเข้าถึงได้ เนื่องจากปัญญาประดิษฐ์มีความสำคัญมากขึ้นในชีวิตประจำวัน MiniCPM-o2.6 แสดงให้เห็นว่านวัตกรรมสามารถจำกัดช่องว่างระหว่างประสิทธิภาพและการใช้งานจริงได้อย่างไร ทำให้นักพัฒนาและผู้ใช้ในอุตสาหกรรมต่างๆ สามารถใช้เทคโนโลยีล้ำสมัยได้อย่างมีประสิทธิภาพ

รุ่น: https://huggingface.co/openbmb/MiniCPM-o-2_6

ไฮไลท์:

MiniCPM-o2.6 เป็นโมเดลหลายรูปแบบที่มีพารามิเตอร์ 8 พันล้านพารามิเตอร์ที่สามารถทำงานได้อย่างมีประสิทธิภาพบนอุปกรณ์ Edge และรองรับการประมวลผลการมองเห็น คำพูด และภาษา

โมเดลดังกล่าวทำงานได้ดีในเกณฑ์มาตรฐานของ OpenCompass เหนือกว่า GPT-4V ในงานด้านภาพ และมีความสามารถในการประมวลผลหลายภาษา

MiniCPM-o2.6 มีฟังก์ชันต่างๆ เช่น การประมวลผลแบบเรียลไทม์ การโคลนเสียง และการควบคุมอารมณ์ และเหมาะสำหรับการใช้งานเชิงนวัตกรรมในด้านการศึกษา การแพทย์ และอุตสาหกรรมอื่นๆ

โดยรวมแล้ว การปรากฏตัวของ MiniCPM-o2.6 ถือเป็นความก้าวหน้าครั้งสำคัญในการประยุกต์ใช้เทคโนโลยี AI โดยประสบความสำเร็จในการรวมความสามารถหลายรูปแบบอันทรงพลังเข้ากับความต้องการใช้ทรัพยากรที่ต่ำของอุปกรณ์ Edge ซึ่งปูทางไปสู่การประยุกต์ใช้ AI อย่างแพร่หลาย เทคโนโลยีมีมูลค่าการใช้งานและโอกาสในการพัฒนาที่สูงมาก