A GPU para inteligência artificial (IA) B200 está dando dor de cabeça para a NVIDIA. Talvez mais do que o esperado. Quando a empresa liderada por Jensen Huang anunciou esse chip em março deste ano, era evidente que estavam lidando com uma verdadeira potência.
Suas características são de impressionar: 208 bilhões de transistores, arquitetura 'Blackwell' de última geração, 20 petaFLOPS de desempenho máximo em operações FP4, caso esteja acompanhada de refrigeração líquida, pode trabalhar com um mapa de memória de até 192 GB de VRAM e alcança uma largura de banda de 8 TB/s.
A indústria de IA parecia estar ansiosa, mas, surpreendentemente, essa GPU demorou mais para chegar do que se esperava inicialmente. Na verdade, as primeiras unidades desse chip foram entregues pela NVIDIA aos seus clientes nas últimas semanas.
Em agosto, a NVIDIA confessou que o desempenho de seus processos de fabricação estava abaixo do esperado, o que obrigou seus engenheiros a redesenhar algumas camadas do chip para corrigir um problema que atrasou a entrega das primeiras unidades.
"Fomos obrigados a fazer uma alteração na máscara da GPU Blackwell para melhorar o desempenho da produção", admitiu a NVIDIA em um comunicado. Nessas circunstâncias, Jensen Huang não tentou se esquivar da responsabilidade: "A culpa foi 100% da NVIDIA. Tivemos um erro de design no Blackwell. Era um chip funcional, mas o defeito causava baixo desempenho [...] Os relatórios que descrevem tensões entre a NVIDIA e a TSMC são falsos". Presumivelmente, esse problema já foi resolvido, mas acaba de surgir outro. E sim, está relacionado com a GPU B200.
Alguns clientes da NVIDIA estão reclamando devido ao superaquecimento da GPU B200.
Segundo a Reuters, alguns dos primeiros clientes da NVIDIA que receberam servidores equipados com a GPU B200 notificaram que esses equipamentos superaquece quando são instalados juntos em racks projetados para acomodar até 72 chips.
Nessas instalações, é comum usar racks que incorporam grandes quantidades de chips de alta integração com o duplo propósito de aproveitar ao máximo o espaço disponível e aumentar a potência da infraestrutura o máximo possível. No entanto, como podemos imaginar, um dos desafios que envolve a configuração de uma instalação como essa é garantir a refrigeração adequada de todos os componentes.
A NVIDIA reconheceu que o problema existe
De fato, a empresa pediu aos seus fornecedores, novamente segundo a Reuters, que alterassem o design dos racks várias vezes com o objetivo de otimizar o sistema de refrigeração.
"A NVIDIA está trabalhando com os principais fornecedores de serviços em nuvem como uma parte integral de nossa equipe e nosso processo de engenharia. As iterações no campo da engenharia são normais e previsíveis", afirmou um porta-voz da empresa liderada por Jensen Huang, em uma clara tentativa de transmitir confiança.
A NVIDIA pediu aos seus fornecedores que alterassem o design dos "racks" várias vezes com o objetivo de otimizar o sistema de refrigeração.
A NVIDIA pediu aos seus fornecedores que alterassem o design dos "racks" várias vezes com o objetivo de otimizar o sistema de refrigeração.
Já são dois contratempos em um período relativamente curto, e isso não é comum em uma empresa que normalmente não dá um passo sem planejamento. Como vimos, a NVIDIA está trabalhando lado a lado com seus fornecedores e clientes para resolver os problemas de refrigeração dos servidores equipados com a GPU B200, e com toda probabilidade, eles conseguirão alcançar seu objetivo.
Apesar de tudo, é inevitável perceber que provavelmente a altíssima demanda de chips para IA está fazendo com que a NVIDIA se apresse. Presumivelmente, os dois erros dos quais falamos neste artigo poderiam ter sido evitados com processos de desenvolvimento, verificação e testes mais minuciosos e lentos. O mercado dita as regras, sim, mas a pressa frequentemente desencadeia erros que podem ser evitados quando os processos de engenharia e os prazos são respeitados de forma rigorosa.
Ver 0 Comentários