Das Doubao Big Model -Team von Bytedance hat in letzter Zeit einen großen Durchbruch erzielt und erfolgreich ein neues spärliches Modellarchitektur -Ultramem entwickelt. Diese Architektur löst innovativ das Problem des hochwertigen Speicherzugriffs in der MOE-Modellinferenz, verbessert die Inferenzgeschwindigkeit und Effizienz signifikant und senkt die Inferenzkosten. Ultramem hat zwar den Modelleffekt sichergestellt und hat die Inferenzgeschwindigkeit im Vergleich zu MOE um das 2-6-fache erhöht. größere Modelle.
Das Bigbao Big Model-Team von Bytedance gab heute bekannt, dass es erfolgreich ein neues spärliches Modellarchitektur-Ultramem entwickelt hat. als das in MOE. Dieser Durchbruch -Fortschritt eröffnet neue Wege für die effiziente Schlussfolgerung großer Modelle.
Die Ultramem -Architektur löste den Memory Access -Engpass in der MOE -Architektur -Inferenz erfolgreich, um den Modelleffekt sicherzustellen. Die experimentellen Ergebnisse zeigen, dass Ultramem unter denselben Parametern und Aktivierungsbedingungen nicht nur den Modelleffekt besser hat als MOE, sondern auch die Inferenzgeschwindigkeit um das 2-6-fache erhöht. Darüber hinaus entspricht unter der gemeinsamen Stapelgrößenskala die Speicherzugriffskosten von Ultramem nahezu dem des dichten Modells mit demselben Rechenvolumen, wodurch die Inferenzkosten erheblich gesenkt werden.
Das Forschungsteam schulte das Ultramem-Modell mit einer Skala von 20 Millionen Wert. Dieses Ergebnis überprüft die hervorragenden Skalierungseigenschaften der Ultramem -Architektur und bildet die technische Grundlage für den Aufbau von Milliarden von Wert oder Expertenmodellen.
Da sich die Skala großer Modelle weiter ausdehnt, sind Inferenzkosten und Geschwindigkeit zu den Schlüsselfaktoren geworden, die ihre Anwendung einschränken. Obwohl die MOE -Architektur die Berechnungskopplung aus Parametern implementiert hat, führt ihre hohe Speicherbedarf während der Inferenz zu einer Erhöhung der Latenz. Der Vorschlag der Ultramem-Architektur löst dieses Problem effektiv und bietet neue technische Auswahlmöglichkeiten für die großflächige Anwendung großer Modelle.
Die erfolgreiche Entwicklung der Ultramem -Architektur ist ein erheblicher Fortschritt in der Inferenztechnologie mit großem Modell, bietet eine starke technische Unterstützung für die weit verbreitete Anwendung von großen Modellen in der Zukunft und zeigt auch, dass die Big Model -Ära eintreffen wird. Die hervorragende Leistung und Kostenwirksamkeit wird die Anwendung und Entwicklung großer Modelle in mehr Feldern vorantreiben.