NVIDIA brachte die GB300- und B300-GPUs schnell auf den Markt und erzielte bereits ein halbes Jahr nach der Veröffentlichung der GB200- und B200-GPUs erhebliche Leistungsverbesserungen, insbesondere bei Inferenzmodellen. Dabei handelt es sich nicht nur um ein einfaches Hardware-Upgrade, sondern stellt auch NVIDIAs strategische Layout-Anpassung im Bereich der KI-Beschleunigung dar, die tiefgreifende Auswirkungen auf die Branche haben wird. Der Kern dieses Upgrades liegt in einem enormen Sprung in der Inferenzleistung sowie in der Optimierung von Speicher und Architektur, was sich direkt auf die Effizienz und Kosten großer Sprachmodelle auswirken wird.
Nur 6 Monate nach der Veröffentlichung von GB200 und B200 brachte Nvidia erneut die neuen GPUs GB300 und B300 auf den Markt. Dies mag wie ein kleines Upgrade erscheinen, aber tatsächlich beinhaltet es große Änderungen, insbesondere die deutliche Verbesserung der Leistung des Inferenzmodells, die tiefgreifende Auswirkungen auf die gesamte Branche haben wird.
B300/GB300: Ein enormer Sprung in der Inferenzleistung
Die B300GPU nutzt den 4NP-Prozessknoten von TSMC und ist für Computerchips optimiert. Dadurch ist die FLOPS-Leistung des B300 um 50 % höher als die des B200. Ein Teil der Leistungsverbesserung ist auf die Erhöhung der TDP zurückzuführen. Die TDP von GB300 und B300HGX beträgt 1,4 kW bzw. 1,2 kW (GB200 und B200 sind 1,2 kW bzw. 1 kW). Die verbleibenden Leistungssteigerungen resultieren aus Architekturverbesserungen und Optimierungen auf Systemebene, wie z. B. der dynamischen Leistungszuteilung zwischen CPU und GPU.
Neben der Erhöhung der FLOPS wurde auch der Speicher auf 12-Hi HBM3E aufgerüstet und die HBM-Kapazität jeder GPU auf 288 GB erhöht. Die Pin-Geschwindigkeit bleibt jedoch unverändert, sodass die Speicherbandbreite pro GPU weiterhin 8 TB/s beträgt. Es ist erwähnenswert, dass Samsung es versäumt hat, in die Lieferkette von GB200 oder GB300 einzusteigen.
Darüber hinaus hat Nvidia auch preisliche Anpassungen vorgenommen. Dies wird sich bis zu einem gewissen Grad auf die Gewinnspanne von Blackwell-Produkten auswirken, aber was noch wichtiger ist, die Leistungsverbesserung von B300/GB300 wird sich hauptsächlich im Inferenzmodell widerspiegeln.
Maßgeschneidert für Inferenzmodelle
Speicherverbesserungen sind für das LLM-Inferenztraining im OpenAI O3-Stil von entscheidender Bedeutung, da lange Sequenzen den KVCache erhöhen und so die kritische Batchgröße und Latenz begrenzen. Das Upgrade von H100 auf H200 (hauptsächlich die Vergrößerung des Speichers) hat Verbesserungen in den folgenden zwei Aspekten gebracht:
Eine höhere Speicherbandbreite (4,8 TB/s beim H200 und 3,35 TB/s beim H100) führte zu einer allgemeinen Verbesserung der Interaktivität um 43 % über alle vergleichbaren Stapelgrößen hinweg.
Da der H200 eine größere Batch-Größe als der H100 ausführt, erhöht sich die Anzahl der pro Sekunde generierten Token um das Dreifache und die Kosten werden um etwa das Dreifache reduziert. Dieser Unterschied ist hauptsächlich darauf zurückzuführen, dass KVCache die Gesamtstapelgröße begrenzt.
Die Leistungssteigerung durch eine größere Speicherkapazität ist enorm. Die Leistungs- und Wirtschaftsunterschiede zwischen den beiden GPUs sind viel größer, als ihre Spezifikationen vermuten lassen:
Die Benutzererfahrung mit Inferenzmodellen kann schlecht sein, da zwischen Anfragen und Antworten eine erhebliche Latenz besteht. Wenn die Inferenzzeit deutlich beschleunigt werden kann, erhöht sich die Nutzungs- und Zahlungsbereitschaft der Nutzer.
Die dreifache Verbesserung der Hardware-Leistung durch Speicher-Upgrades der mittleren Generation ist atemberaubend und weitaus schneller als das Mooresche Gesetz, das Huang-Gesetz oder jede andere Hardware-Verbesserung, die wir gesehen haben.
Alles in allem ist die Einführung von NVIDIA B300/GB300 nicht nur ein weiterer Sprung in der GPU-Technologie, sondern auch eine starke Förderung der Anwendung von KI-Inferenzmodellen. Sie wird die Benutzererfahrung erheblich verbessern und die Kosten senken, was die KI-Branche dazu bringt in eine neue Entwicklungsstufe eintreten.