Recentemente, SemiAnalysis divulgou um relatório afirmando que existem falhas graves no software do chip AI de nova geração MI300X da AMD, o que impede que seu desempenho seja totalmente realizado e incapaz de desafiar efetivamente o domínio da Nvidia no mercado de chips AI. O relatório, baseado em uma investigação aprofundada de cinco meses, revela as deficiências da AMD na construção do ecossistema de software e faz recomendações para o desenvolvimento futuro da AMD.
Recentemente, a agência de análise de tecnologia SemiAnalysis divulgou um relatório de investigação de cinco meses, revelando que o mais recente chip MI300X AI da AMD tem grandes problemas de software, fazendo com que ele não funcione como deveria e, portanto, incapaz de competir no mercado de chips AI. .Desafiando o domínio da Nvidia.
O relatório apontou que o software da AMD contém um grande número de vulnerabilidades, tornando o treinamento do modelo de IA quase impossível e os usuários precisam gastar muito tempo depurando. Enquanto isso, a Nvidia continua a lançar novos recursos, bibliotecas e atualizações de desempenho que ampliam ainda mais a lacuna entre os dois. Os analistas realizaram testes extensivos, incluindo benchmarks GEMM e treinamento de nó único, e os resultados mostraram que a AMD não conseguiu superar o chamado “fosso CUDA” – ou seja, a forte vantagem da Nvidia em software.
Do ponto de vista das especificações de hardware, os dados de desempenho do MI300X são bastante atraentes. O poder de computação do FP16 atinge 1307TeraFLOPS e está equipado com 192GB de memória HBM3. Em comparação, o H100 da Nvidia tem 989 TeraFLOPS e 80 GB de memória, embora o H200 mais recente da Nvidia feche a lacuna em termos de memória, oferecendo uma configuração de 141 GB. Vale ressaltar que os sistemas AMD oferecem vantagens em termos de custo total de propriedade, com preços mais baixos e redes Ethernet mais acessíveis.
Entretanto, essas vantagens de hardware não trazem os resultados desejados no uso real. SemiAnalysis descreve esse fenômeno como “comparar câmeras apenas pela contagem de pixels”, sugerindo que a AMD está se perdendo no jogo dos números e não conseguindo oferecer desempenho suficiente no mundo real. Para obter resultados de benchmark utilizáveis, os analistas tiveram que trabalhar diretamente com os engenheiros da AMD para resolver múltiplas vulnerabilidades de software, enquanto o sistema da Nvidia estava pronto para uso sem ajustes adicionais.
O relatório também mencionou que a Tensorwave, o maior provedor de serviços de nuvem de GPU da AMD, teve que fornecer gratuitamente suas próprias GPUs adquiridas à equipe da AMD para ajudar a resolver problemas de software. Para este fim, SemiAnalysis sugeriu que o CEO da AMD, Su Zifeng, precisa aumentar o investimento em desenvolvimento e testes de software, especialmente alocando um grande número de chips MI300X para testes automatizados, simplificando variáveis de ambiente complexas e melhorando as configurações padrão para aprimorar a experiência de fábrica.
Embora a SemiAnalysis espere que a AMD possa se tornar uma forte concorrente da Nvidia, eles também disseram que “infelizmente, ainda há muito trabalho a ser feito”. Sem grandes melhorias de software, a AMD corre o risco de ficar ainda mais para trás, especialmente enquanto a Nvidia se prepara para lançar a sua próxima geração de chips Blackwell, embora também haja relatos de que o lançamento do produto da próxima geração da Nvidia não será tranquilo.
Destaque:
O chip AMD MI300X AI enfrenta sérios problemas de software, dificultando o treinamento do modelo de IA.
A Nvidia continua a expandir sua vantagem de mercado com sua poderosa plataforma CUDA e atualizações frequentes de software.
A SemiAnalysis recomenda que a AMD aumente o investimento no desenvolvimento de software e melhore a experiência do usuário para aumentar a competitividade.
Resumindo, o relatório aponta claramente os enormes desafios de software enfrentados pelos chips MI300X da AMD e as direções em que a AMD precisa melhorar. Se ela conseguir superar o “fosso” no software determinará diretamente o sucesso ou o fracasso da AMD na futura competição do mercado de chips de IA.