A AMD anunciou uma colaboração com a OpenAI, além de Broadcom, Intel e Microsoft, para o desenvolvimento do protocolo MRC (Multi-Path Reliable Connection), voltado à comunicação de dados em clusters de inteligência artificial de larga escala. Segundo a empresa, a proposta é aumentar a eficiência e a resiliência das redes utilizadas no treinamento de modelos de IA.
De acordo com a AMD, o protocolo foi projetado para melhorar o gerenciamento de congestionamento, acelerar a recuperação de falhas e manter a sincronização entre GPUs em ambientes de computação distribuída. A companhia afirma que o MRC foi desenvolvido para operar em infraestruturas com interfaces de rede de até 800 Gb/s.
No comunicado, a AMD informa que o protocolo já foi implementado em supercomputadores utilizados pela OpenAI, incluindo ambientes operados em parceria com a Oracle Cloud Infrastructure (OCI) e a Microsoft. A empresa também destacou que a tecnologia faz parte da estratégia de expansão da arquitetura Helios, plataforma de infraestrutura de IA apresentada pela fabricante para aplicações em data centers de larga escala.
Segundo a AMD, o desenvolvimento do MRC integra a iniciativa da companhia de promover padrões abertos para infraestrutura de inteligência artificial. O protocolo foi disponibilizado por meio do Open Compute Project (OCP), organização voltada à padronização de tecnologias para data centers.
A arquitetura Helios, citada pela companhia como parte da nova geração de sistemas para IA, combina GPUs da linha Instinct, CPUs EPYC e soluções de rede Pensando Vulcano. A AMD prevê que a plataforma seja utilizada em ambientes de treinamento e inferência de modelos de IA em larga escala a partir de 2026.
Fonte Startupi