Tag

#benchmarks

2 publicações

Um guia direto sobre as siglas MMLU, GPQA, HumanEval, SWE-bench e outros benchmarks que aparecem quando um novo modelo de IA é lançado.

CSCódigo Sintético

08 de mar. de 2026·12 min

OpenAI lançou o GPT-5.4 com uso nativo de computador, contexto de 1M tokens e 75% no OSWorld, superando a média humana em navegação desktop.

CSCódigo Sintético

08 de mar. de 2026·6 min