Apple hat kürzlich ein Forschungsergebnis veröffentlicht, das die Effizienz großer Sprachmodelle auf Geräten mit begrenztem Speicher erheblich verbessert. Diese Forschung speichert Modellparameter geschickt im Flash-Speicher und lädt sie bei Bedarf bei Bedarf in den DRAM, wodurch das Problem des Speicherengpasses effektiv gelöst und durch eine Reihe von Optimierungsstrategien ein enormer Sprung in der Inferenzgeschwindigkeit erzielt wird. Dieser technologische Durchbruch ebnet den Weg für die Anwendung großer Sprachmodelle in ressourcenbeschränkten Umgebungen wie Mobilgeräten und eingebetteten Systemen und hat wichtige praktische Bedeutung.
Die neuesten Untersuchungen von Apple zeigen, dass bei begrenztem Gerätespeicher die Betriebseffizienz großer Sprachmodelle erfolgreich verbessert und die Inferenzgeschwindigkeit um das 25-fache erhöht wurde, indem Modellparameter im Flash-Speicher gespeichert und bei Bedarf während der Inferenz geladen werden . Diese Methode optimiert das Inferenzkostenmodell, reduziert die Menge der Datenübertragung und führt Fensterstrategien und Zeilen-Spalten-Bündelungstechnologie ein, wodurch es möglich wird, Modelle auszuführen, die doppelt so groß sind wie die verfügbare DRAM-Kapazität auf Geräten mit begrenzter Speicherkapazität. Im Vergleich zur naiven Lademethode wird die Inferenzgeschwindigkeit von CPU und GPU um das 4- bis 5-fache bzw. 20- bis 25-fache erhöht. Gleichzeitig werden spärliches Bewusstsein, kontextadaptives Laden und hardwareorientiertes Design kombiniert Inferenz großer Sprachmodelle auf Geräten mit begrenztem Speicher bringen neue Möglichkeiten. Das ausführliche Papier finden Sie [hier](https://arxiv.org/pdf/2312.11514.pdf).Dieses Forschungsergebnis führt nicht nur zu einer deutlichen Verbesserung der Geschwindigkeit, sondern, was noch wichtiger ist, es bietet die Möglichkeit, große Sprachmodelle auf einer breiteren Palette von Geräten anzuwenden, was darauf hindeutet, dass die KI-Technologie in Zukunft beliebter und komfortabler werden wird. Diese Innovation von Apple bringt eine neue Richtung in die Entwicklung des KI-Bereichs.