Apple hat einen wichtigen Schritt im Bereich der künstlichen Intelligenz gemacht und eine Demonstration des 4M -Modells auf der umarmenden Gesichtsplattform enthüllt. Dieses multimodale KI -Modell kann eine Vielzahl von Datentypen wie Text, Bilder und 3D -Szenen verarbeiten und leistungsfähige Informationsverarbeitungsfunktionen demonstrieren. Durch das Hochladen eines Bildes können Benutzer problemlos detaillierte Informationen wie Tiefenkarten, Linienzeichnungen usw. des Bildes erhalten, was einen großen Durchbruch in der AI -Technologieanwendung von Apple markiert.
Der technische Kern des 4M-Modells liegt in seiner "groß angelegten multimodalen Abschirmmodellierung" -Trainingsmethode. Mit dieser Methode kann das Modell mehrere visuelle Modalitäten gleichzeitig verarbeiten, wodurch Bild-, semantische und geometrische Informationen in einheitliche Token umwandelt und so eine nahtlose Verbindung zwischen verschiedenen Modalitäten erreicht werden. Dieses Design verbessert nicht nur die Vielseitigkeit des Modells, sondern eröffnet auch neue Möglichkeiten für zukünftige multimodale AI -Anwendungen.
Der Schritt von Apple brach seine konsequente Tradition der Vertraulichkeit im F & E -Bereich und demonstrierte seine technologische Stärke auf der Open -Source -AI -Plattform aktiv. Durch die Öffnung des 4M -Modells demonstriert Apple nicht nur die fortgeschrittene Natur seiner KI -Technologie, sondern hat auch einen Olivenzweig in die Entwicklergemeinschaft erweitert, in der Hoffnung, ein erfolgreiches Ökosystem um 4 m aufzubauen. Dies kündigt die Möglichkeit intelligenteren Anwendungen im Apple -Ökosystem wie dem intelligenten Siri und dem effizienteren Final Cut Pro an.
Der Start des 4M -Modells brachte jedoch auch Herausforderungen in der Datenpraxis und der Keienthik. Als datenintensives KI-Modell wird das Schutz der Privatsphäre des Benutzers und der Förderung des technologischen Fortschritts ein Problem sein, das Apple ernsthaft berücksichtigen muss. Apple hat sich immer als Datenschutzschutz für Benutzer angesehen.
In Bezug auf die Trainingsmethoden nimmt 4M eine innovative zufällig ausgewählte Markierungsmethode an: Teilnahme an der Markierung als Input und den anderen Teil als Ziel, wodurch die Skalierbarkeit des Trainingsziels erreicht wird. Dieses Design ermöglicht es 4M, sowohl Bilder als auch Text als digitale Marker zu behandeln und die Flexibilität und Anpassungsfähigkeit des Modells erheblich zu verbessern.
Die Trainingsdaten des 4M -Modells stammen aus CC12M, einem der weltweit größten Open -Source -Datensätze. Obwohl dieser Datensatz reich an Daten ist, sind die Beschriftungsinformationen nicht perfekt. Um dieses Problem zu lösen, verwendeten die Forscher eine schwach beaufsichtigte Pseudo-Label-Methode, verwendeten Clip, MaskRCNN und andere Technologien, um umfassende Vorhersagen des Datensatzes zu treffen, und konvertierte dann die Vorhersageergebnisse in Tokens, wobei eine solide Grundlage für die multimodale Kompatibilität von 4M gelegt wurde.
Nach umfangreichem Experimentieren und Tests hat sich 4M erwiesen, um multimodale Aufgaben direkt auszuführen, ohne dass eine große Anzahl von Voraussetzungen oder Feinabstimmungen bestimmter Aufgaben erforderlich sind. Es ist, als würde AI ein multimodales Schweizer Armeemesser geben, das es es ermöglicht, flexibel mit verschiedenen Herausforderungen umzugehen. Der Start von 4M zeigt nicht nur die technische Stärke von Apple im Bereich der KI, sondern zeigt auch die Richtung für die zukünftige Entwicklung von AI -Anwendungen.
Demo-Adresse: https://huggingface.co/spaces/epfl-vilab/4m