Em fevereiro de 2026, duas das maiores empresas de IA do mundo decidiram que seus modelos precisavam responder mais rápido. Muito mais rápido. A OpenAI colocou um modelo rodando a mais de 1.000 tokens por segundo em hardware Cerebras. A Anthropic lançou um fast mode que entrega 2,5x mais velocidade no Claude Opus 4.6. E o Google, meio que de fininho, soltou o Gemini Diffusion batendo quase 1.500 tokens por segundo num modelo experimental.

Para quem constrói produtos com LLMs, isso não é marketing. É latência saindo do caminho.

O que aconteceu

No dia 12 de fevereiro de 2026, a OpenAI lançou o GPT-5.3-Codex-Spark em research preview. O modelo roda no Cerebras Wafer Scale Engine 3 e entrega mais de 1.000 tokens por segundo de output. Para efeito de comparação, o GPT-5.3 Codex padrão opera a uma fração disso. O Spark é 15x mais rápido que o flagship, mas é um modelo menor, otimizado para throughput em vez de raciocínio profundo (~56% no SWE-Bench Pro contra ~72% do Codex 5.3 completo).

A parceria OpenAI-Cerebras foi anunciada em janeiro de 2026, num acordo de mais de US$ 10 bilhões em múltiplos anos. A lógica por trás: o chip da Cerebras coloca tudo num único wafer de silício, eliminando os gargalos de comunicação entre GPUs que são o calcanhar de Aquiles da inferência tradicional.

Dias antes, em 7 de fevereiro, a Anthropic já tinha ativado o fast mode para o Claude Opus 4.6. A abordagem é diferente. Não é hardware novo. São os mesmos pesos do modelo, mas com uma configuração de inferência que prioriza velocidade: low-batch-size, menos overhead por request. O resultado: 2,5x mais tokens de saída por segundo.

E tem mais gente nessa corrida. O Google mostrou o Gemini Diffusion, um modelo experimental com arquitetura diferente dos transformers convencionais, atingindo 1.479 tokens por segundo nos benchmarks. O Gemini 3 Flash, mais maduro, opera a 3x a velocidade do Gemini 2.5 Pro.

Os números na mesa

O GPT-5.3-Codex-Spark custa US$ 200 por mês via ChatGPT Pro. Vem com janela de contexto de 128K tokens, conexão WebSocket persistente que reduz roundtrip em 80% e time-to-first-token 50% menor. Está disponível no app Codex, na CLI e na extensão VS Code.

O fast mode do Claude custa caro. São US$ 30 por milhão de tokens de input e US$ 150 por milhão de output. Seis vezes o preço padrão do Opus 4.6. Houve um desconto de 50% até 16 de fevereiro, mas fora da janela promocional, o custo é real. Funciona via API da Anthropic e pelo Claude Code (basta digitar /fast), mas não está disponível via Bedrock, Vertex AI ou Azure Foundry.

Então temos dois modelos de negócio distintos: a OpenAI cobra uma assinatura fixa e entrega velocidade bruta via hardware especializado. A Anthropic cobra por token, mas num multiplicador agressivo. Para quem processa milhões de tokens por dia, a conta muda bastante dependendo do padrão de uso.

O que muda para quem constrói com IA

Latência é UX. Um chatbot que responde em 200ms em vez de 2 segundos muda a percepção do usuário. Autocompletion de código que aparece enquanto você ainda está pensando na próxima linha muda o fluxo de trabalho. Agentes que encadeiam 10 chamadas de LLM em sequência passam de "lento demais para produção" para "viável".

O caso mais direto é coding. O Codex-Spark foi projetado para isso. A conexão WebSocket persistente elimina o overhead de HTTP por request, e a velocidade bruta permite que o modelo sugira blocos inteiros de código quase em tempo real.

Para o fast mode do Claude, o caso de uso mais claro é debugging ao vivo e iterações rápidas de código no Claude Code. Para pipelines de CI/CD e processamento em batch, o modo padrão continua mais econômico.

Mas o cenário maior é o de hardware. A Nvidia comprou a propriedade intelectual da Groq por US$ 20 bilhões em dezembro de 2025. A Cerebras está caminhando para um IPO no segundo trimestre de 2026. A SambaNova demonstrou que 16 dos seus chips SN40L substituem 320 GPUs para servir modelos de 671B parâmetros. A inferência deixou de ser commodity. Virou vantagem competitiva.

Para desenvolvedores, o recado é: teste. O Codex-Spark está em research preview para assinantes Pro. O fast mode do Claude (também em research preview) está na API e no Claude Code. Rode seu caso de uso, meça latência e custo, e decida se a velocidade justifica o preço no seu contexto.

Conclusão

A corrida pela inferência rápida em fevereiro de 2026 vai além dos números brutos. Quando a latência sai do caminho, os modelos respondem rápido o suficiente para desaparecerem na experiência do usuário. OpenAI apostou em hardware dedicado. Anthropic apostou em otimização de software com o mesmo chip. O Google está explorando arquiteturas completamente novas. Três estratégias diferentes, todas convergindo para o mesmo destino: LLMs que respondem na velocidade do pensamento.

A pergunta que fica para quem constrói com essas APIs: quanto vale meio segundo a menos por request no seu produto?

Referências pesquisadas nesta publicação