Il punto dolente di AMD è il software ROCm, il software CUDA di NVIDIA è ancora superiore per lo sviluppo dell’intelligenza artificiale!


La battaglia per l’accelerazione AI nei data center è estremamente competitiva, con NVIDIA che offre un software di alta qualità. Tuttavia, AMD ha cercato negli ultimi anni di conquistare una parte dei ricavi che hyperscalers e OEM sono disposti a spendere con la sua linea di acceleratori Instinct MI300X per AI e HPC.

Nonostante l’hardware decente, l’azienda non è vicina a colmare il divario software con il suo concorrente NVIDIA. Secondo l’ultimo report di SemiAnalysis, una società di ricerca e consulenza, è stato condotto un esperimento di cinque mesi utilizzando l’Instinct MI300X per training e benchmark, con risultati sorprendenti: nonostante l’hardware migliore, il software stack di AMD, incluso ROCm, ha notevolmente degradato le prestazioni di AMD.

“Confrontando le GPU di NVIDIA con le MI300X di AMD, abbiamo scoperto che il potenziale vantaggio sulla carta delle MI300X non è stato realizzato a causa di mancanze nel software stack rilasciato pubblicamente da AMD e dalla mancanza di test da parte di AMD,” ha osservato SemiAnalysis, aggiungendo che “l’esperienza software di AMD è piena di bug che rendono impossibile l’allenamento con AMD subito dopo l’installazione.

Speravamo che AMD potesse emergere come un forte concorrente di NVIDIA nei carichi di lavoro di training, ma, ad oggi, sfortunatamente, questo non è il caso. Il fossato CUDA non è ancora stato attraversato da AMD a causa di una cultura di assicurazione della qualità (QA) più debole del previsto e dell’esperienza difficile fuori dalla scatola.”

NVIDIA ha un vantaggio enorme in quanto il suo software è completamente funzionale. “Per quanto AMD cerchi di colmare il fossato CUDA, gli ingegneri di NVIDIA stanno lavorando a tempo pieno per approfondire detto fossato con nuove funzionalità, librerie e aggiornamenti delle prestazioni,” ha osservato il report di SemiAnalysis. Lo sviluppatore di Tinybox e Tinybox Pro, Tinygrad, ha anche confermato più volte questo sui loro profili X, segnalando anche un grosso problema con il software di AMD in passato.

Guardando ai chip AMD Instinct MI300X e NVIDIA H100/H200 del 2023, l’MI300X emerge come vincitore chiaro in termini di prestazioni. Raggiunge 1.307 TFLOP/s per calcoli FP16, superando l’H100 di NVIDIA che offre 989 TFLOP/s. L’MI300X ha 192 GB di memoria HBM3 e una larghezza di banda di memoria di 5,3 TB/s.

Queste specifiche sono anche favorevoli rispetto all’H200 di NVIDIA, che offre 141 GB di memoria HBM3e e una larghezza di banda di 4,8 TB/s. Il chip AMD ha anche un modello di costo totale di proprietà inferiore, con una rete che costa il 40% in meno. Sulla carta, il chip AMD sembra superiore alle offerte Hopper di NVIDIA, ma nella realtà non è così.

I team interni di AMD hanno accesso limitato alle scatole GPU per sviluppare e perfezionare il software ROCm. Tensorwave, uno dei principali fornitori di GPU AMD nel cloud, ha preso le proprie scatole GPU e le ha fornite agli ingegneri di AMD gratuitamente, solo per correggere il software. Questo mentre Tensorwave pagava per le GPU AMD, noleggiando le proprie GPU ad AMD senza alcun costo.

Infine, SemiAnalysis ha notato che lo stack software di AMD è stato migliorato sulla base dei loro suggerimenti, ma c’è ancora molta strada da fare prima che l’azienda raggiunga il livello di stabilità e prestazioni di CUDA di NVIDIA.


HW Legend Staff


Newsletter HW Legend


Caricamento