No início do ano passado, Elon Musk entrou na corrida da inteligência artificial (IA) com sua própria empresa, a xAI. O objetivo era competir com gigantes como OpenAI, Microsoft e Google. Para enfrentar esses rivais, Musk precisava de um supercomputador de alto desempenho. Após lançar as primeiras versões do Grok, um concorrente do ChatGPT, a xAI inaugurou em julho o "cluster de treinamento de IA mais potente do mundo", uma máquina equipada com 100.000 GPUs H100 da NVIDIA, localizada em Memphis, Tennessee.
Agora temos mais detalhes sobre esse projeto, que, como vimos, foi desenvolvido em tempo recorde. A informação vem de uma conversa interessante que o CEO da NVIDIA, Jensen Huang, teve esta semana no podcast BG2.
Ele explicou que a equipe da xAI passou da fase de conceito para a integração completa das 100.000 unidades de processamento no cluster de Memphis em apenas 19 dias, um feito que culminou na primeira tarefa de treinamento, divulgada por Elon Musk na rede X.
Montando um centro de dados em 19 dias
Huang explica que o processo envolveu não apenas a instalação das GPUs, mas também a preparação das instalações com um sistema de resfriamento líquido e um sistema de alimentação para que os chips pudessem operar. “Só há uma pessoa no mundo que poderia fazer isso”, disse o CEO da segunda empresa mais valiosa por capitalização de mercado, acrescentando que grande parte do sucesso se deve ao trabalho em conjunto de suas equipes com os “excelentes” times de software, redes e infraestrutura da nova empresa de IA de Musk.
A magnitude do trabalho realizado fica mais clara com alguns dados interessantes que Huang compartilhou depois. Segundo seus cálculos, colocar em operação um supercomputador com 100.000 GPUs normalmente leva cerca de quatro anos. Três anos seriam dedicados ao planejamento, enquanto o último ano seria reservado para receber, instalar e testar o equipamento, garantindo que tudo funcione corretamente.
Montar um centro de dados voltado a suportar cargas de trabalho intensas é um verdadeiro desafio, que inclui corrigir falhas e otimizar o desempenho.
Huang também explicou que a integração de 100.000 GPUs H100 “nunca havia sido feita antes” e que provavelmente não será replicada por outra empresa tão cedo. Quando falamos do cluster da xAI, estamos nos referindo a uma infraestrutura com tecnologia de acesso direto à memória remota (RDMA), que oferece transferências de dados rápidas e eficientes, aumentando o desempenho.
Um ponto essencial é que essa é uma solução escalável, que poderá ser expandida com o tempo, presumivelmente com GPUs H200.
Ver 0 Comentários