Recientemente, SemiAnalysis publicó un informe que indica que existen fallas graves en el software del chip AI MI300X de nueva generación de AMD, lo que impide que su rendimiento se realice por completo y no puede desafiar efectivamente el dominio de Nvidia en el mercado de chips AI. El informe, basado en una investigación en profundidad de cinco meses, revela las deficiencias de AMD en la construcción del ecosistema de software y hace recomendaciones para el desarrollo futuro de AMD.
Recientemente, la agencia de análisis de tecnología SemiAnalysis publicó un informe de investigación de cinco meses que revela que el último chip de IA MI300X de AMD tiene importantes problemas de software, lo que hace que no pueda funcionar como debería y, por lo tanto, no pueda competir en el mercado de chips de IA. "Desafiando el dominio de Nvidia".
El informe señaló que el software de AMD contiene una gran cantidad de vulnerabilidades, lo que hace que el entrenamiento del modelo de IA sea casi imposible y los usuarios deban dedicar mucho tiempo a depurar. Mientras tanto, Nvidia continúa implementando nuevas funciones, bibliotecas y actualizaciones de rendimiento que amplían aún más la brecha entre los dos. Los analistas realizaron pruebas exhaustivas, incluidas pruebas comparativas GEMM y capacitación de un solo nodo, y los resultados mostraron que AMD no ha podido superar el llamado "foso CUDA", es decir, la gran ventaja de Nvidia en software.
Desde la perspectiva de las especificaciones de hardware, los datos de rendimiento del MI300X son bastante llamativos. La potencia informática del FP16 alcanza los 1307 TeraFLOPS y está equipado con una memoria HBM3 de 192 GB. En comparación, la H100 de Nvidia tiene 989 TeraFLOPS y 80 GB de memoria, aunque la última H200 de Nvidia cierra la brecha en términos de memoria, ofreciendo una configuración de 141 GB. Cabe mencionar que los sistemas AMD ofrecen ventajas en términos de costo total de propiedad, con precios más bajos y redes Ethernet más asequibles.
Sin embargo, estas ventajas del hardware no aportan los resultados deseados en el uso real. SemiAnalysis describe este fenómeno como "comparar cámaras sólo por el número de píxeles", lo que sugiere que AMD se está perdiendo en el juego de los números y no puede ofrecer suficiente rendimiento en el mundo real. Para obtener resultados de referencia utilizables, los analistas tuvieron que trabajar directamente con los ingenieros de AMD para resolver múltiples vulnerabilidades de software, mientras que el sistema de Nvidia estaba listo para usarse sin ajustes adicionales.
El informe también menciona que Tensorwave, el mayor proveedor de servicios en la nube de GPU de AMD, incluso tuvo que proporcionar sus propias GPU compradas al equipo de AMD de forma gratuita para ayudar a resolver problemas de software. Con este fin, SemiAnalysis sugirió que el CEO de AMD, Su Zifeng, necesita aumentar la inversión en desarrollo y pruebas de software, especialmente asignando una gran cantidad de chips MI300X para pruebas automatizadas, simplificando variables de entorno complejas y mejorando la configuración predeterminada para mejorar la experiencia de fábrica.
Aunque SemiAnalysis espera que AMD pueda convertirse en un fuerte competidor de Nvidia, también dijeron que "desafortunadamente, todavía queda mucho trabajo por hacer". Sin mejoras importantes de software, AMD corre el riesgo de quedarse aún más atrás, especialmente ahora que Nvidia se prepara para lanzar su próxima generación de chips Blackwell, aunque también hay informes de que el lanzamiento del producto de próxima generación de Nvidia no será fácil.
Reflejos:
El chip AMD MI300X AI enfrenta serios problemas de software, lo que dificulta el entrenamiento del modelo AI.
Nvidia continúa ampliando su ventaja en el mercado con su poderosa plataforma CUDA y frecuentes actualizaciones de software.
SemiAnalysis recomienda que AMD aumente la inversión en desarrollo de software y mejore la experiencia del usuario para mejorar la competitividad.
Con todo, el informe señala claramente los enormes desafíos de software que enfrentan los chips MI300X de AMD y las direcciones en las que AMD necesita mejorar. Si puede superar el "foso" en el software determinará directamente el éxito o el fracaso de AMD en la futura competencia en el mercado de chips de IA.