Apple ได้ก้าวเข้าสู่ขั้นตอนที่สำคัญในด้านปัญญาประดิษฐ์และพวกเขาได้เปิดเผยการสาธิตโมเดล 4M บนแพลตฟอร์มการกอด โมเดล AI แบบหลายรูปแบบนี้สามารถประมวลผลประเภทข้อมูลที่หลากหลายเช่นข้อความรูปภาพและฉาก 3 มิติแสดงให้เห็นถึงความสามารถในการประมวลผลข้อมูลที่มีประสิทธิภาพ ด้วยการอัปโหลดรูปภาพผู้ใช้สามารถรับข้อมูลรายละเอียดได้อย่างง่ายดายเช่นแผนที่ความลึกภาพวาดเส้น ฯลฯ ของภาพซึ่งเป็นจุดเริ่มต้นที่สำคัญในแอปพลิเคชันเทคโนโลยี AI ของ Apple
แกนกลางทางเทคนิคของโมเดล 4M นั้นอยู่ในวิธีการฝึกอบรม "การสร้างแบบจำลองการป้องกันหลายรูปแบบขนาดใหญ่" วิธีนี้ช่วยให้โมเดลสามารถประมวลผล modalities ภาพหลายตัวพร้อมกันแปลงภาพความหมายและข้อมูลเรขาคณิตเป็นโทเค็นแบบครบวงจรซึ่งจะบรรลุการเชื่อมต่อที่ราบรื่นระหว่างโมเดลที่แตกต่างกัน การออกแบบนี้ไม่เพียง แต่ช่วยเพิ่มความสามารถรอบด้านของโมเดลเท่านั้น แต่ยังเปิดโอกาสใหม่สำหรับแอพพลิเคชั่น AI หลายรูปแบบในอนาคต
การเคลื่อนไหวของ Apple ทำลายประเพณีการรักษาความลับที่สอดคล้องกันในสนาม R&D และแสดงให้เห็นถึงความแข็งแกร่งทางเทคโนโลยีบนแพลตฟอร์ม AI โอเพนซอร์ส ด้วยการเปิดโมเดล 4M Apple ไม่เพียง แต่แสดงให้เห็นถึงธรรมชาติขั้นสูงของเทคโนโลยี AI เท่านั้น แต่ยังได้ขยายสาขามะกอกไปยังชุมชนนักพัฒนาโดยหวังว่าจะสร้างระบบนิเวศที่เจริญรุ่งเรืองประมาณ 4 เมตร การประกาศความเป็นไปได้ของแอพพลิเคชั่นที่ชาญฉลาดมากขึ้นในระบบนิเวศของ Apple เช่น Siri ที่ชาญฉลาดและการตัดครั้งสุดท้ายที่มีประสิทธิภาพมากขึ้น
อย่างไรก็ตามการเปิดตัวโมเดล 4M ยังนำความท้าทายในการฝึกฝนข้อมูลและจริยธรรม AI ในฐานะที่เป็นแบบจำลอง AI ที่ใช้ข้อมูลมากวิธีการปกป้องความเป็นส่วนตัวของผู้ใช้ในขณะที่การส่งเสริมความคืบหน้าทางเทคโนโลยีจะเป็นปัญหาที่ Apple ต้องพิจารณาอย่างจริงจัง Apple ได้รับการยกย่องว่าเป็นตัวป้องกันความเป็นส่วนตัวของผู้ใช้เสมอ
ในแง่ของวิธีการฝึกอบรม 4M ใช้วิธีการทำเครื่องหมายแบบสุ่มแบบสุ่มที่เป็นนวัตกรรม: การมีส่วนร่วมของการทำเครื่องหมายเป็นอินพุตและส่วนอื่น ๆ เป็นเป้าหมายจึงบรรลุความสามารถในการปรับขนาดของเป้าหมายการฝึกอบรม การออกแบบนี้ช่วยให้ 4M สามารถรักษาทั้งรูปภาพและข้อความเป็นเครื่องหมายดิจิตอลได้อย่างมากปรับปรุงความยืดหยุ่นและความสามารถในการปรับตัวของโมเดลได้อย่างมาก
ข้อมูลการฝึกอบรมของโมเดล 4M มาจาก CC12M ซึ่งเป็นหนึ่งในชุดข้อมูลโอเพ่นซอร์สที่ใหญ่ที่สุดในโลก แม้ว่าชุดข้อมูลนี้จะอุดมไปด้วยข้อมูล แต่ข้อมูลการติดฉลากก็ไม่สมบูรณ์แบบ เพื่อแก้ปัญหานี้นักวิจัยได้ใช้วิธีการหลอกแบบหลอกที่มีการดูแลอย่างอ่อนแอใช้คลิปใช้ Maskrcnn และเทคโนโลยีอื่น ๆ เพื่อทำการคาดการณ์ที่ครอบคลุมของชุดข้อมูลแล้วแปลงผลการทำนายเป็นโทเค็น
หลังจากการทดลองและการทดสอบอย่างกว้างขวาง 4M ได้พิสูจน์ตัวเองว่าสามารถทำงานหลายรูปแบบได้โดยตรงโดยไม่จำเป็นต้องมีการฝึกอบรมก่อนการฝึกอบรมหรือการปรับแต่งที่เฉพาะเจาะจงจำนวนมาก มันเหมือนกับการให้มีดกองทัพสวิสสวิสหลายรูปแบบที่ช่วยให้สามารถจัดการกับความท้าทายที่หลากหลายได้อย่างยืดหยุ่น การเปิดตัว 4M ไม่เพียง แต่แสดงให้เห็นถึงความแข็งแกร่งทางเทคนิคของ Apple ในด้าน AI แต่ยังชี้ให้เห็นทิศทางสำหรับการพัฒนาแอปพลิเคชัน AI ในอนาคต
ที่อยู่ตัวอย่าง: https://huggingface.co/spaces/epfl-vilab/4m