AMD e Oracle espandono la partnership per supercluster AI con GPU Instinct MI450 su OCI

AMD e Oracle hanno annunciato l’espansione della loro collaborazione per potenziare le infrastrutture AI tramite grandi cluster GPU su Oracle Cloud Infrastructure (OCI).

La novità più rilevante è la creazione del primo supercluster AI disponibile pubblicamente basato su GPU AMD Instinct MI450, con avvio previsto per il terzo trimestre del 2026 con 50.000 unità, e ulteriori espansioni nel 2027.

I nuovi sistemi andranno ad ampliare l’attuale offerta AMD di Oracle, già comprendente istanze Instinct MI300X e MI355X, introducendo anche il rack “Helios” di nuova generazione che integra GPU Instinct MI450, CPU EPYC “Venice” e DPU Pensando “Vulcano” in configurazioni liquid-cooled, ottimizzate per alte prestazioni e riduzione dei costi operativi.

GPU AMD Instinct MI450: memoria e calcolo senza precedenti

La serie Instinct MI450 offre fino a 432 GB di memoria HBM4 e 20 TB/s di bandwidth per GPU, permettendo di addestrare modelli AI di grandi dimensioni interamente in memoria, riducendo la necessità di partizionamento dei modelli.

Le GPU possono collegarsi a fino a tre AI-NIC Pensando Vulcano da 800 Gbps, supportando gli standard RoCE e UEC per il training distribuito ad alta velocità e a bassa latenza.

Rack “Helios”: design d’avanguardia e scalabilità

Il nuovo rack Helios di AMD integra:

72 GPU Instinct MI450 con raffreddamento a liquido denso per massimizzare prestazioni, efficienza energetica e densità computazionale;
Connettività UALoE e UALink per networking hardware-coerente e minimizzazione della latenza tra GPU;
CPU AMD EPYC “Venice” per orchestrazione di workload su larga scala, con funzionalità di confidential computing;
DPU Pensando Vulcano per networking convergente, accelerazione dei dati e sicurezza end-to-end.

Questa architettura consente ai clienti di operare su training distribuito ultra-veloce, ottimizzando comunicazioni collettive e riducendo colli di bottiglia nella memoria.

Networking avanzato e standard aperti

Grazie a UALink e UALoE, le GPU comunicano direttamente tra loro, evitando routing attraverso le CPU, permettendo scalabilità, bassa latenza e coerenza hardware. L’adozione di standard aperti garantisce flessibilità, interoperabilità e affidabilità per i workload AI più esigenti.

Software open-source e gestione avanzata dei cluster

I cluster AMD su OCI sfrutteranno la stack open-source ROCm, che supporta framework e librerie popolari, semplifica la migrazione di workload HPC/AI e favorisce l’innovazione.

Inoltre, la piattaforma supporta partizionamento e virtualizzazione avanzata, permettendo l’uso sicuro e condiviso dei cluster, con multi-tenancy, SR-IOV e gestione fine-grained di GPU e pod.

Impatto e prospettive future

Con la serie Instinct MI450 su OCI e il design Helios, AMD e Oracle offrono una soluzione AI di nuova generazione, in grado di supportare modelli multi-trilione di parametri, training distribuito, inferenza ad alte prestazioni e infrastrutture cloud scalabili.

La partnership segna un passo cruciale verso la democratizzazione dei supercluster AI e l’accelerazione dell’adozione di intelligenza artificiale a livello globale.

HW Legend Staff

AMD e Oracle espandono la partnership per supercluster AI con GPU Instinct MI450 su OCI

Articoli correlati

Newsletter HW Legend