O que significam os benchmarks de IA que aparecem a cada lançamento de LLM
Um guia direto sobre as siglas MMLU, GPQA, HumanEval, SWE-bench e outros benchmarks que aparecem quando um novo modelo de IA é lançado.
CSCódigo Sintético
08 de mar. de 2026·12 min