Nvidia GTC 2026: US$ 1 trilhão em pedidos e a arquitetura Vera Rubin

Na semana passada, Jensen Huang subiu ao palco da GTC 2026 em San Jose e soltou um número que fez a plateia engolir seco: os pedidos combinados de Blackwell e Vera Rubin devem atingir US$ 1 trilhão até 2027. Não é uma projeção de analista. É o CEO da Nvidia falando sobre pedidos que já estão entrando.

O que veio depois foi uma avalanche de specs, chips e siglas. Sete novos processadores, uma plataforma inteira redesenhada do zero, e um roadmap que já aponta para 2028. Separei o que realmente importa para quem desenvolve software e trabalha com infraestrutura.

O que aconteceu na GTC 2026

A GTC (GPU Technology Conference) é o evento anual da Nvidia, e em 2026 ela serviu como palco para o lançamento oficial da plataforma Vera Rubin. A keynote de Jensen Huang durou mais de duas horas e cobriu desde hardware até frameworks de software para IA.

Os destaques concretos:

Lançamento da plataforma Vera Rubin com 6 chips co-projetados
Apresentação do Groq 3 LPX, o primeiro chip vindo da compra de ativos da Groq por US$ 20 bilhões em dezembro de 2025
Anúncio do Dynamo, um sistema operacional de inferência que distribui workloads entre GPU e LPU
Roadmap do Feynman, a próxima arquitetura prevista para 2028 em processo TSMC 1.6nm
Celebração de 20 anos do CUDA, que Huang chamou de "crown jewels" da empresa

A frase que resumiu a apresentação veio do próprio Huang: "Vera Rubin is a generational leap, seven breakthrough chips, five racks, one giant supercomputer, built to power every phase of AI."

De Blackwell a Vera Rubin: a evolução das arquiteturas

Para entender o salto, vale olhar o que mudou em relação ao Blackwell.

O Rubin GPU carrega 336 bilhões de transistores, um aumento de 1.6x sobre o Blackwell. O chip é fabricado no processo TSMC 3nm (N3/N3P), um node completo abaixo do Blackwell 4NP. Usa um design de dois chiplets de computação e vem com 288 GB de memória HBM4 de sexta geração, atingindo 22 TB/s de bandwidth por GPU.

Em inferência NVFP4, cada Rubin GPU entrega 50 PFLOPS. Isso é 5x mais que o Blackwell GB200.

Mas a Nvidia não lançou um chip isolado. A Vera Rubin é uma plataforma de 6 componentes co-projetados:

Vera CPU: 88 cores Olympus em arquitetura Armv9.2, com 1.5 TB de LPDDR5X e 1.8 TB/s de bandwidth coerente via NVLink-C2C
Rubin GPU: 336 bilhões de transistores, 50 PFLOPS NVFP4, 288 GB HBM4
NVLink 6 Switch: 3.6 TB/s por GPU, 260 TB/s por rack NVL72
ConnectX-9 SuperNIC: 1.6 Tb/s por GPU para scale-out
BlueField-4 DPU: processador Grace de 64 cores, 20 milhões de IOPs NVMe
Spectrum-6 Switch: 102.4 Tb/s com óptica co-empacotada

A configuração NVL72 junta 72 GPUs Rubin e 36 CPUs Vera em um rack que entrega 3.6 exaFLOPS de inferência e 2.5 exaFLOPS de treinamento, com 20.7 TB de capacidade HBM4 total. A Nvidia diz que é possível treinar modelos grandes de mixture-of-experts com um quarto das GPUs que o Blackwell precisaria.

A produção está prevista para o segundo semestre de 2026.

US$ 1 trilhão em pedidos: de onde vem essa demanda

O número de US$ 1 trilhão em pedidos combinados (Blackwell + Vera Rubin) até 2027 parece exagerado até você olhar quem está comprando.

Os neoclouds, provedores de nuvem especializados em IA, estão na frente. A CoreWeave reportou um backlog de receita contratada de US$ 66.8 bilhões em dezembro de 2025 e recebeu um investimento de US$ 2 bilhões da própria Nvidia em janeiro de 2026. A Nebius fechou um acordo de até US$ 19 bilhões com a Microsoft em setembro de 2025. No final daquele ano, assinou um contrato de US$ 3 bilhões com a Meta, que expandiu para até US$ 27 bilhões em março de 2026.

Por trás desses números está uma corrida de infraestrutura que não dá sinais de desacelerar. Modelos de linguagem com mais de um trilhão de parâmetros, agentes autônomos que consomem inferência 24 horas por dia, e uma guerra de preço por token que exige hardware cada vez mais eficiente.

A promessa da Vera Rubin de cortar o custo de inferência em até 10x em relação ao Blackwell, segundo benchmarks da Nvidia com modelos MoE é o que está atraindo esses pedidos. Para quem opera data centers, pagar 10x menos por token com 10x mais throughput por watt muda completamente a conta.

O problema de refrigeração que ninguém esperava

Enquanto a Nvidia anuncia chips com 336 bilhões de transistores, outra empresa está resolvendo um problema que cresce junto: o calor.

A Frore Systems, uma startup de cooling fundada por ex-engenheiros da Qualcomm, levantou US$ 143 milhões em uma rodada Series D que avaliou a empresa em US$ 1.64 bilhão. A rodada foi liderada pela MVP Ventures com participação de Fidelity, Qualcomm Ventures e Mayfield Fund. No total, a Frore já captou US$ 340 milhões.

O ponto curioso: a Frore nasceu fazendo cooling para smartphones e tablets. A virada veio há dois anos, quando o próprio Jensen Huang sugeriu que eles expandissem sua tecnologia de refrigeração líquida para GPUs de data center.

O produto atual, o LiquidJet Nexus, circula um líquido refrigerante por canais desenhados ao redor dos processadores em racks de data center. Quando cada GPU de um rack NVL72 consome centenas de watts, a capacidade de remover calor de forma eficiente se torna tão estratégica quanto a própria computação.

O fato de uma empresa de cooling valer US$ 1.64 bilhão diz muito sobre o estado da infraestrutura de IA em 2026. Calor, densidade de energia e design de racks viraram gargalos de engenharia tão sérios quanto a própria fabricação de chips.

O que muda para quem desenvolve software

Se você trabalha com modelos de IA, a Vera Rubin muda a conta de três formas.

Primeiro, a inferência fica drasticamente mais barata. Com 10x menos custo por token, aplicações que hoje são inviáveis por custo de inferência passam a fazer sentido. Agentes que rodam continuamente, RAG com contexto de milhões de tokens, pipelines de processamento de documentos em larga escala.

Segundo, o Dynamo redistribui workloads entre GPU (Vera Rubin) e LPU (Groq 3) de forma automática. O prefill vai para a GPU, o decode para o LPU. A Nvidia diz que essa combinação entrega 35x mais throughput por megawatt comparado ao Blackwell sozinho. Para quem desenvolve sistemas de inferência, isso significa que a otimização de serving ganha uma nova camada de complexidade, mas também de eficiência.

Terceiro, o CUDA completa 20 anos e continua sendo a plataforma dominante. Huang reforçou as CUDA-X libraries como o diferencial competitivo da Nvidia. Se você já investe em CUDA, o ecossistema só cresce. Se está avaliando alternativas, a GTC 2026 deixou claro que a Nvidia pretende manter o lock-in por mais uma geração.

Para quem trabalha com infraestrutura e cloud, o impacto é no planejamento de capacidade. Racks NVL72 com 3.6 exaFLOPS de inferência em uma unidade mudam o que significa "escalar" um serviço de IA. Mas também trazem desafios novos: cooling líquido obrigatório, consumo de energia em outra escala, e dependência de fornecedor que só aumenta.

Conclusão

A GTC 2026 não foi só um evento de hardware. Foi a Nvidia dizendo que pretende ser a plataforma completa para IA: do chip ao software de inferência, da CPU ao switch de rede.

Os números são impressionantes, mas o que me pega é a velocidade. O Blackwell mal entrou em produção em escala e a Vera Rubin já está com data de entrega para o segundo semestre de 2026. O Feynman aparece no roadmap para 2028. É um ciclo de dois anos por arquitetura, com a Vera Rubin prometendo 10x mais eficiência que o Blackwell.

Para quem desenvolve software, a mensagem prática é: o custo de inferência vai continuar caindo, a infraestrutura vai continuar ficando mais densa, e o CUDA não vai a lugar nenhum. Planejar sistemas de IA hoje sem levar esses fatores em conta é projetar para um mundo que já não vai existir quando o código chegar em produção.

Nvidia GTC 2026: US$ 1 trilhão em pedidos e a arquitetura Vera Rubin

O que aconteceu na GTC 2026

De Blackwell a Vera Rubin: a evolução das arquiteturas

US$ 1 trilhão em pedidos: de onde vem essa demanda

O problema de refrigeração que ninguém esperava

O que muda para quem desenvolve software

Conclusão

Referências pesquisadas nesta publicação

Kubernetes 1.36: Gateway API substitui Ingress-Nginx e quatro enhancements DRA

Linux 7.0: o que muda no kernel e por que Torvalds pulou o 6.20

Escassez global de RAM em 2026: por que a IA está engolindo a memória do mundo