AMD e Oracle hanno annunciato l’espansione della loro collaborazione per potenziare le infrastrutture AI tramite grandi cluster GPU su Oracle Cloud Infrastructure (OCI).
La novità più rilevante è la creazione del primo supercluster AI disponibile pubblicamente basato su GPU AMD Instinct MI450, con avvio previsto per il terzo trimestre del 2026 con 50.000 unità, e ulteriori espansioni nel 2027.
I nuovi sistemi andranno ad ampliare l’attuale offerta AMD di Oracle, già comprendente istanze Instinct MI300X e MI355X, introducendo anche il rack “Helios” di nuova generazione che integra GPU Instinct MI450, CPU EPYC “Venice” e DPU Pensando “Vulcano” in configurazioni liquid-cooled, ottimizzate per alte prestazioni e riduzione dei costi operativi.
GPU AMD Instinct MI450: memoria e calcolo senza precedenti
La serie Instinct MI450 offre fino a 432 GB di memoria HBM4 e 20 TB/s di bandwidth per GPU, permettendo di addestrare modelli AI di grandi dimensioni interamente in memoria, riducendo la necessità di partizionamento dei modelli.
Le GPU possono collegarsi a fino a tre AI-NIC Pensando Vulcano da 800 Gbps, supportando gli standard RoCE e UEC per il training distribuito ad alta velocità e a bassa latenza.
Rack “Helios”: design d’avanguardia e scalabilità
Il nuovo rack Helios di AMD integra:
72 GPU Instinct MI450 con raffreddamento a liquido denso per massimizzare prestazioni, efficienza energetica e densità computazionale;
Connettività UALoE e UALink per networking hardware-coerente e minimizzazione della latenza tra GPU;
CPU AMD EPYC “Venice” per orchestrazione di workload su larga scala, con funzionalità di confidential computing;
DPU Pensando Vulcano per networking convergente, accelerazione dei dati e sicurezza end-to-end.
Questa architettura consente ai clienti di operare su training distribuito ultra-veloce, ottimizzando comunicazioni collettive e riducendo colli di bottiglia nella memoria.
Networking avanzato e standard aperti
Grazie a UALink e UALoE, le GPU comunicano direttamente tra loro, evitando routing attraverso le CPU, permettendo scalabilità, bassa latenza e coerenza hardware. L’adozione di standard aperti garantisce flessibilità, interoperabilità e affidabilità per i workload AI più esigenti.
Software open-source e gestione avanzata dei cluster
I cluster AMD su OCI sfrutteranno la stack open-source ROCm, che supporta framework e librerie popolari, semplifica la migrazione di workload HPC/AI e favorisce l’innovazione.
Inoltre, la piattaforma supporta partizionamento e virtualizzazione avanzata, permettendo l’uso sicuro e condiviso dei cluster, con multi-tenancy, SR-IOV e gestione fine-grained di GPU e pod.
Impatto e prospettive future
Con la serie Instinct MI450 su OCI e il design Helios, AMD e Oracle offrono una soluzione AI di nuova generazione, in grado di supportare modelli multi-trilione di parametri, training distribuito, inferenza ad alte prestazioni e infrastrutture cloud scalabili.
La partnership segna un passo cruciale verso la democratizzazione dei supercluster AI e l’accelerazione dell’adozione di intelligenza artificiale a livello globale.
HW Legend Staff