Récemment, SemiAnalysis a publié un rapport indiquant qu'il existe de graves failles dans le logiciel de la puce IA de nouvelle génération MI300X d'AMD, qui empêchent ses performances d'être pleinement réalisées et ne peuvent pas contester efficacement la domination de Nvidia sur le marché des puces IA. Le rapport, basé sur une enquête approfondie de cinq mois, révèle les lacunes d'AMD dans la construction de l'écosystème logiciel et formule des recommandations pour le développement futur d'AMD.
Récemment, l'agence d'analyse technologique SemiAnalysis a publié un rapport d'enquête de cinq mois, révélant que la dernière puce AI MI300X d'AMD présente des problèmes logiciels majeurs, l'empêchant de fonctionner comme elle le devrait, et donc incapable de rivaliser sur le marché des puces AI. . Contester la domination de Nvidia.
Le rapport souligne que le logiciel d'AMD contient un grand nombre de vulnérabilités, ce qui rend la formation de modèles d'IA presque impossible et les utilisateurs doivent passer beaucoup de temps au débogage. Pendant ce temps, Nvidia continue de déployer de nouvelles fonctionnalités, bibliothèques et mises à jour de performances qui creusent encore l'écart entre les deux. Les analystes ont mené des tests approfondis, notamment des tests GEMM et une formation sur un seul nœud, et les résultats ont montré qu'AMD n'a pas réussi à surmonter ce que l'on appelle le « fossé CUDA », c'est-à-dire le fort avantage de Nvidia en matière de logiciels.
Du point de vue des spécifications matérielles, les données de performances du MI300X sont assez accrocheuses. La puissance de calcul du FP16 atteint 1307 TeraFLOPS et est équipé de 192 Go de mémoire HBM3. À titre de comparaison, le H100 de Nvidia dispose de 989 TeraFLOPS et de 80 Go de mémoire, bien que le dernier H200 de Nvidia comble l'écart en termes de mémoire, offrant une configuration de 141 Go. Il convient de mentionner que les systèmes AMD offrent des avantages en termes de coût total de possession, avec des prix plus bas et des réseaux Ethernet plus abordables.
Cependant, ces avantages matériels n’apportent pas les résultats escomptés en utilisation réelle. SemiAnalysis décrit ce phénomène comme « une comparaison des caméras uniquement en fonction du nombre de pixels », suggérant qu'AMD se perd dans le jeu des chiffres et ne parvient pas à fournir suffisamment de performances dans le monde réel. Afin d'obtenir des résultats de référence utilisables, les analystes ont dû travailler directement avec les ingénieurs d'AMD pour résoudre plusieurs vulnérabilités logicielles, alors que le système de Nvidia était prêt à être utilisé sans ajustements supplémentaires.
Le rapport mentionne également que Tensorwave, le plus grand fournisseur de services cloud GPU d'AMD, a même dû fournir gratuitement ses propres GPU achetés à l'équipe AMD pour l'aider à résoudre les problèmes logiciels. À cette fin, SemiAnalysis a suggéré que le PDG d'AMD, Su Zifeng, devrait augmenter les investissements dans le développement et les tests de logiciels, notamment en allouant un grand nombre de puces MI300X aux tests automatisés, en simplifiant les variables d'environnement complexes et en améliorant les paramètres par défaut pour améliorer l'expérience en usine.
Bien que SemiAnalysis espère qu'AMD puisse devenir un concurrent sérieux de Nvidia, ils ont également déclaré que "malheureusement, il reste encore beaucoup de travail à faire". Sans améliorations logicielles majeures, AMD risque de prendre encore plus de retard, d'autant plus que Nvidia se prépare à lancer sa prochaine génération de puces Blackwell, bien que certains rapports indiquent également que le lancement des produits de nouvelle génération de Nvidia ne se déroulera pas sans heurts.
Points forts:
La puce AMD MI300X AI est confrontée à de graves problèmes logiciels, ce qui rend la formation des modèles d'IA difficile.
Nvidia continue d'étendre son avantage sur le marché grâce à sa puissante plate-forme CUDA et à des mises à jour logicielles fréquentes.
SemiAnalysis recommande à AMD d'augmenter ses investissements dans le développement de logiciels et d'améliorer l'expérience utilisateur pour renforcer sa compétitivité.
Dans l'ensemble, le rapport souligne clairement les énormes défis logiciels auxquels sont confrontés les puces MI300X d'AMD et les directions dans lesquelles AMD doit s'améliorer. La capacité d'AMD à surmonter le « fossé » logiciel déterminera directement le succès ou l'échec d'AMD dans la future concurrence sur le marché des puces IA.