La dernière puce Blackwell AI de Nvidia a connu de graves problèmes de surchauffe lors des tests de serveurs, ce qui a attiré une attention généralisée de l'industrie. Ce problème retarde non seulement l'heure du produit sur le marché, mais peut également affecter la construction du centre de données des clients et les plans d'affaires. Il est signalé que la puce a surchauffé lorsqu'elle est connectée au rack de serveur de puces 72, et NVIDIA travaille activement avec les fournisseurs pour ajuster la conception du rack pour résoudre le problème. Bien que NVIDIA ait déclaré qu'il travaillait en étroite collaboration avec les fournisseurs de services cloud, l'incident a toujours exposé des défis potentiels dans les déploiements de puces d'IA à grande échelle et a mis en évidence les exigences strictes pour le refroidissement de la technologie dans le domaine de l'informatique haute performance.
Récemment, la nouvelle puce AI Blackwell de NVIDIA a surchauffé les problèmes dans les serveurs, ce qui soulève des préoccupations parmi les clients de ne pas pouvoir permettre de nouveaux centres de données à temps. Selon les informations, l'unité de traitement des graphiques Blackwell (GPU) a surchauffé lorsqu'elle est connectée à une grille de serveur conçue pour accueillir 72 puces.
Selon des personnes familières avec le problème, l'équipe d'ingénierie de NVIDIA répond activement au problème, et le personnel de l'entreprise a demandé à plusieurs reprises aux fournisseurs d'ajuster la conception de la rack pour éviter d'autres problèmes de surchauffe. Pendant ce temps, un porte-parole de NVIDIA a déclaré dans une interview avec la recherche d'Alpha: «Nvidia travaille en étroite collaboration avec les principaux fournisseurs de services cloud, une partie importante de notre équipe d'ingénierie et des processus d'ingénierie.
Blackwell Chips a fait ses débuts en mars de cette année, et Nvidia a déclaré que les puces commenceront l'expédition au deuxième trimestre, mais qu'il y avait eu des retards. Ce problème met l'entreprise dans un défi car elle affecte non seulement le temps de commercialiser de nouveaux produits, mais affecte également les plans commerciaux des clients.
Avec le développement rapide de la technologie de l'IA et la demande croissante de calculs hautes performances, NVIDIA, en tant que leader de l'industrie, espère naturellement gagner une place dans cette vague. Cependant, si le problème de surchauffe n'est pas résolu dans le temps, cela peut affecter la réputation du marché de l'entreprise et la satisfaction des clients. Les experts de l'industrie soulignent que la résolution de ces problèmes techniques est cruciale, en particulier avant le déploiement à grande échelle, ce qui affectera directement les performances et la fiabilité des centres de données.
Dans ce contexte, l'équipe d'ingénierie de Nvidia fait des heures supplémentaires pour corriger cette faille pour s'assurer que la puce Blackwell peut être utilisée en douceur. Les clients accordent également une attention particulière aux progrès, dans l'espoir de voir des solutions efficaces dès que possible afin qu'ils puissent ouvrir avec succès de nouveaux centres de données et répondre aux besoins informatiques croissants.
Points clés:
Les clients sont préoccupés par les problèmes de surchauffe des puces Blackwell AI dans le serveur.
Nvidia travaille avec des fournisseurs de services cloud pour essayer d'ajuster la conception du rack pour résoudre le problème.
La puce Blackwell a été publiée en mars et devait initialement être expédiée au deuxième trimestre, mais elle a rencontré un retard.
La question de la surchauffe des puces Blackwell a sonné un réveil pour Nvidia et toute l'industrie de l'IA, soulignant l'importance de la conception thermique tout en poursuivant des performances élevées et la nécessité de tests et de vérification rigoureux avant la libération du produit. Comment Nvidia résoudra ce problème à l'avenir et l'impact de cet incident sur la structure du marché mérite une attention continue.