Em 5 de março de 2026, a OpenAI lançou o GPT-5.4 em duas variantes: Thinking (disponível para assinantes Plus e superiores) e Pro (reservado a assinantes Pro a $200/mês e clientes Enterprise). O modelo unifica raciocínio, geração de código e workflows agentic em um único sistema, e traz uma novidade que muda a dinâmica da competição entre LLMs: computer use nativo, direto na API e no Codex.

O que chama atenção não é apenas o número de benchmarks batidos. É o tipo de benchmark. Pela primeira vez, um modelo generalista da OpenAI supera a média humana em tarefas de navegação desktop, operando mouse e teclado a partir de screenshots. Isso coloca o GPT-5.4 em território que antes era exclusivo do Claude com seu computer use.

O que mudou do GPT-5.2 para o 5.4

A OpenAI não lançou um GPT-5.3 Thinking (o GPT-5.3-Codex era focado em código e o GPT-5.3 Instant é um modelo leve), indo direto para o 5.4 como próximo modelo frontier, que combina as capacidades de coding do Codex com melhorias em factualidade e tool use.

Os números de factualidade são concretos: afirmações individuais têm 33% menos chance de serem falsas, e respostas completas têm 18% menos chance de conter erros, comparadas ao GPT-5.2. Para quem usa LLMs em produção, essa redução de erro composto faz diferença real.

No GDPval, benchmark que mede desempenho em tarefas de conhecimento profissional, o GPT-5.4 acerta ou supera profissionais humanos em 83% das comparações, distribuídas em 44 ocupações. O GPT-5.2 ficava em 70.9%. Esse salto de 12 pontos percentuais em uma única versão é incomum.

Computer use nativo: o modelo que opera o desktop

O computer use nativo é o que diferencia este lançamento dos anteriores. O GPT-5.4 é o primeiro modelo generalista da OpenAI com capacidade nativa de operar computadores. Na prática, o modelo interpreta screenshots, move o cursor, clica em elementos e digita texto, executando workflows completos em aplicações desktop e web.

O modelo tem dois modos de operação: pode escrever código usando bibliotecas como Playwright para automação programática, ou pode emitir comandos diretos de mouse e teclado em resposta a capturas de tela. Essa flexibilidade permite tanto automações reproduzíveis via código quanto interações ad hoc com interfaces arbitrárias.

No OSWorld-Verified, benchmark que mede a capacidade de navegação em ambientes desktop, o GPT-5.4 atingiu 75% de sucesso. O GPT-5.2 marcava 47.3%. A média humana no mesmo benchmark é 72.4%. Ou seja, o modelo superou a referência humana por 2.6 pontos percentuais.

Para desenvolvedores, isso abre possibilidades em testes de interface, automação de tarefas repetitivas em ferramentas sem API, e criação de agentes que interagem com sistemas legados.

Janela de contexto de 1M tokens

O GPT-5.4 suporta até 1 milhão de tokens de contexto, a maior janela que a OpenAI já ofereceu. No Codex, esse suporte é experimental, e requests acima de 272 mil tokens de input são cobrados em dobro (2x input, 1.5x output).

Na prática, 1M tokens equivale a processar repositórios inteiros de código, documentações extensas ou logs de execução completos sem precisar de chunking ou estratégias de summarização. Para agentes que precisam planejar, executar e verificar tarefas em sequência, essa capacidade de manter contexto em horizontes longos muda a qualidade da execução.

Mas o custo precisa entrar na conta. Com requests acima de 272K tokens custando o dobro, um prompt de 500K tokens de input sai por $5 por milhão (em vez de $2.50). Para uso frequente com contextos longos, o orçamento de API pode crescer rápido.

Benchmarks e comparativo com Claude e Gemini

O cenário de modelos frontier em março de 2026 está mais competitivo do que nunca. GPT-5.4, Claude Opus 4.6 e Gemini 3.1 Pro ficam dentro de 2-3 pontos percentuais um do outro na maioria dos benchmarks. A diferenciação está nos pontos fortes de cada um.

Em coding, a comparação exige cuidado porque os benchmarks são diferentes. No SWE-Bench Verified (o mais usado), o Claude Opus 4.6 lidera com 80.8%, seguido pelo Gemini 3.1 Pro com 80.6%. O GPT-5.4 ainda não tem score publicado nesse benchmark. No SWE-Bench Pro (mais recente e difícil), o GPT-5.4 marca 57.7%, à frente do Claude com 55.2%. Em web research, o Claude lidera com 84% no BrowseComp.

Em raciocínio abstrato e ciência, o Gemini 3.1 Pro sai na frente: 77.1% no ARC-AGI-2 contra 73.3% do GPT-5.4, e 94.3% no GPQA Diamond contra 92.8%.

Onde o GPT-5.4 se destaca é em trabalho profissional (83% no GDPval), computer use (75% no OSWorld) e, notavelmente, em tarefas financeiras: 87.3% em modelagem de investment banking (benchmark interno da OpenAI), contra 68.4% do GPT-5.2. O posicionamento da OpenAI para o mercado enterprise fica evidente.

Resumo dos pontos fortes por modelo:

  • GPT-5.4: trabalho profissional, computer use, finanças
  • Claude Opus 4.6: coding e engenharia de software, web research
  • Gemini 3.1 Pro: raciocínio abstrato, ciência, custo-benefício

Preços e disponibilidade na API

O GPT-5.4 está disponível na API com o seguinte pricing:

  • GPT-5.4 (standard): $2.50 input / $15.00 output por 1M tokens
  • GPT-5.4 Pro: $30.00 input / $180.00 output por 1M tokens
  • Input em cache: $1.25 por 1M tokens (50% de desconto sobre o input padrão)

Para contexto, o Gemini 3.1 Pro cobra $2.00 input / $12.00 output por 1M tokens, com a mesma janela de 1M. Em custo puro, o Gemini é mais barato. Mas o cache de input do GPT-5.4 a $1.25/1M tokens pode compensar em cenários com prompts recorrentes, como agentes que mantêm system prompts grandes.

No ChatGPT, o GPT-5.4 Thinking está disponível para todos os assinantes pagos (Plus, Team, Pro). O GPT-5.4 Pro exige assinatura ChatGPT Pro ($200/mês) ou Enterprise.

A OpenAI também lançou integrações financeiras junto com o GPT-5.4: plugins nativos para Microsoft Excel e Google Sheets, permitindo que o modelo manipule planilhas diretamente. Esse bundle reforça o foco em usuários corporativos.

Conclusão

O GPT-5.4 não redefine a corrida de LLMs sozinho. Com Claude e Gemini tão próximos em benchmarks gerais, a escolha de modelo depende cada vez mais do caso de uso específico. Para quem precisa de computer use robusto e automação de tarefas profissionais, o GPT-5.4 é a melhor opção hoje. Para coding pesado e engenharia de software, o Claude Opus 4.6 continua à frente. Para orçamentos apertados com necessidade de contexto longo, o Gemini 3.1 Pro oferece o melhor custo-benefício.

O aspecto mais interessante deste lançamento não é um modelo individualmente superior, mas a convergência. Três empresas diferentes chegaram a resultados dentro de uma margem estreita, usando abordagens arquiteturais distintas. Isso sugere que estamos perto de um platô nos benchmarks atuais, e que a próxima onda de diferenciação vai depender mais de ferramentas, integrações e experiência do desenvolvedor do que de pontos em evals.

Referências pesquisadas nesta publicação