O que significam os benchmarks de IA que aparecem a cada lançamento de LLM

Toda vez que uma empresa lança um novo modelo de IA, o anúncio vem acompanhado de uma tabela cheia de siglas e percentuais. MMLU 90,2%. GPQA Diamond 65,1%. SWE-bench Verified 80,8%. HumanEval 96,3%. Para quem acompanha tecnologia mas não trabalha diretamente com machine learning, essas siglas parecem um idioma próprio.

Este post traduz esse idioma. A ideia é explicar, benchmark por benchmark, o que cada teste mede, como ele funciona e por que ele importa na hora de comparar modelos como o ChatGPT, Claude, Gemini e outros.

Por que existem benchmarks de IA

Imagine que duas montadoras lançam carros novos. Uma diz que o motor é potente. A outra diz que o carro é econômico. Sem um teste padronizado, como o consumo em km/l medido pelo Inmetro, você fica refém do marketing de cada uma.

Com modelos de IA acontece a mesma coisa. Cada empresa quer provar que o seu modelo é o melhor. Os benchmarks funcionam como esses testes padronizados: todos os modelos respondem as mesmas perguntas, nas mesmas condições, e o resultado sai em percentual de acertos. Assim dá para comparar de forma justa.

Os benchmarks se dividem em categorias. Alguns testam conhecimento geral, outros testam raciocínio matemático, outros testam a capacidade de escrever código, e outros testam se o modelo inventa informações. Cada sigla cobre uma fatia diferente do que uma IA precisa fazer bem.

Os benchmarks de conhecimento geral

MMLU (Massive Multitask Language Understanding)

O MMLU é provavelmente a sigla mais citada. Ele contém 16 mil perguntas de múltipla escolha em 57 disciplinas acadêmicas, do ensino médio ao nível profissional. As matérias vão de álgebra abstrata a direito, passando por medicina, filosofia e história mundial.

O objetivo é medir a amplitude de conhecimento do modelo. Um bom resultado no MMLU significa que a IA sabe um pouco de muita coisa, como um generalista que passou por vários vestibulares ao mesmo tempo.

O problema é que os modelos de ponta já passam de 88% no MMLU. Quando todo mundo tira nota alta, o teste perde capacidade de diferenciar quem é melhor. Por isso surgiram benchmarks mais difíceis.

GPQA (Graduate-level Google-Proof Q&A)

O GPQA nasceu para resolver a saturação do MMLU. São 448 perguntas de múltipla escolha em biologia, física e química, escritas por doutores e pesquisadores. O diferencial está no nome: Google-Proof. As perguntas foram feitas para que mesmo alguém com acesso ilimitado à internet não consiga encontrar a resposta. Pessoas sem especialização na área acertam apenas 34%, pouco acima dos 25% que o acaso puro daria em perguntas de quatro alternativas.

O GPQA tem três níveis de dificuldade. O mais citado é o GPQA Diamond, que concentra as perguntas mais difíceis. Quando você vê "GPQA Diamond 65%", significa que o modelo acertou 65% das perguntas que até especialistas consideram complicadas.

HellaSwag (Harder Endings, Longer contexts, Low-shot Activities for SWAG)

O HellaSwag testa senso comum. O modelo recebe o início de uma situação cotidiana e precisa escolher, entre quatro opções, qual é a continuação mais plausível. São 10 mil frases no total.

Por exemplo: "Uma pessoa entra na cozinha e abre a geladeira. Em seguida, ela..." e o modelo precisa identificar que pegar uma garrafa de água é mais plausível do que sair correndo pela janela. Parece trivial, mas exige compreensão do mundo real que máquinas nem sempre têm.

Os modelos atuais já vão muito bem nesse teste, mas ele ainda é usado como referência de senso comum.

Os benchmarks de raciocínio e matemática

MATH 500

O MATH 500 reúne 500 problemas de competições matemáticas de nível médio e universitário. Cobre álgebra, geometria, probabilidade, trigonometria e combinatória. Cada problema exige raciocínio em múltiplas etapas: não basta saber a fórmula, precisa montar a estratégia de resolução.

Os melhores modelos já passam de 90% neste benchmark, o que mostra um avanço considerável em relação a 2023, quando os modelos mal passavam de 50%.

AIME (American Invitational Mathematics Examination)

O AIME é uma prova real de matemática aplicada em competições nos Estados Unidos. São 30 problemas de nível olímpico, com respostas numéricas inteiras de 000 a 999. É bem mais difícil que o MATH 500.

Alunos do ensino médio considerados bons em matemática geralmente acertam 5 dos 15 problemas em cada parte. Alguns modelos de IA já atingem pontuações acima de 90%, embora exista uma preocupação real de contaminação de dados: se o modelo viu as provas durante o treinamento, o resultado não reflete capacidade genuína de raciocínio.

MGSM (Multilingual Grade School Math)

O MGSM pega 250 problemas de matemática do nível fundamental e os traduz para 10 idiomas diferentes, incluindo bengali, japonês, suaíli e tailandês. O ponto não é a dificuldade matemática em si, mas sim se o modelo consegue raciocinar em idiomas além do inglês.

Um modelo que tira 95% em inglês mas cai para 60% em bengali tem um problema de equidade linguística. O MGSM mede exatamente isso.

BBH (BIG-Bench Hard)

O BIG-Bench é uma coleção enorme de tarefas criada pela comunidade de pesquisadores. O BBH seleciona 23 dessas tarefas onde os modelos historicamente ficavam abaixo do desempenho humano médio. São tarefas de raciocínio lógico, aritmética, compreensão temporal e dedução.

O BBH ficou famoso por mostrar que técnicas de prompting, como o chain-of-thought (pedir para o modelo pensar passo a passo), podem desbloquear capacidades que não aparecem em respostas diretas. Modelos recentes já passam de 90% no BBH, o que levou à criação do BIG-Bench Extra Hard (BBEH) para manter o desafio.

Os benchmarks de código

HumanEval

O HumanEval testa a capacidade de gerar código funcional. São 164 problemas de programação em Python. O modelo recebe a descrição de uma função e precisa escrever o código. Depois, o código é executado contra testes unitários para verificar se funciona corretamente.

O resultado é medido em Pass@1: a porcentagem de problemas que o modelo resolve na primeira tentativa. Um HumanEval de 96% significa que o modelo escreveu código funcional em cerca de 157 dos 164 desafios de primeira.

O HumanEval se tornou o benchmark padrão para modelos de código, mas por ter apenas 164 problemas fixos, existe preocupação de que os modelos "memorizem" as soluções durante o treinamento.

LiveCodeBench

O LiveCodeBench surgiu para resolver o problema da memorização. Ele coleta problemas novos de plataformas como LeetCode, AtCoder e CodeForces de forma contínua. Cada problema tem uma data de publicação, e um modelo só é avaliado em problemas publicados após a data de corte do seu treinamento.

São mais de 1.000 problemas divididos em fácil, médio e difícil. Além de gerar código, o modelo é testado em quatro cenários: geração de código, auto-reparo (corrigir seu próprio código depois de um erro), execução mental (prever o output de um código) e predição de resultados de teste.

SWE-bench Verified

Este é o benchmark mais ambicioso para código. O SWE-bench pega issues reais do GitHub, de projetos open source, e pede que o modelo resolva o bug ou implemente a feature. Não é um exercício acadêmico: é uma issue real com código real, testes reais e a complexidade de um projeto inteiro.

O SWE-bench Verified é um subconjunto de 500 problemas validados por engenheiros de software que confirmaram que cada problema é solucionável. O modelo recebe o repositório completo e a descrição da issue, e precisa produzir um patch que passe nos testes.

Quando você vê "SWE-bench Verified 80,8%", significa que o modelo resolveu corretamente 404 das 500 issues de software real. É o teste que mais se aproxima do trabalho diário de quem programa.

Os benchmarks de confiabilidade

TruthfulQA

O TruthfulQA testa se o modelo consegue resistir a repetir mitos e informações populares, porém falsas. São perguntas feitas de propósito para induzir respostas erradas, do tipo que circulam como "verdades" na internet.

Um achado interessante da pesquisa original: modelos maiores tendem a ser menos verazes que modelos menores. Isso porque o modelo maior aprendeu mais texto da internet, incluindo mais desinformação popular, e tende a reproduzi-la com mais confiança.

O TruthfulQA não mede alucinação no sentido amplo. Ele mede especificamente se o modelo repete falácias comuns versus dar a resposta correta.

SimpleQA

Criado pela OpenAI, o SimpleQA é um benchmark de acurácia factual com 4.326 perguntas curtas e objetivas. Cada pergunta tem uma resposta verificável e não ambígua. Os temas vão de ciência e tecnologia a cultura pop.

O ponto forte do SimpleQA é a simplicidade: as perguntas são diretas e a avaliação é binária (acertou ou errou). Mesmo assim, modelos de ponta como o GPT-4o acertam menos de 40%, o que mostra que saber fatos simples com precisão ainda é difícil para IAs.

Em 2025, surgiu o SimpleQA Verified, uma versão refinada com 1.000 perguntas, corrigindo rótulos incorretos e vieses da versão original.

IFEval (Instruction-Following Evaluation)

O IFEval mede algo diferente dos outros: a capacidade de seguir instruções específicas. São cerca de 500 prompts, cada um com instruções verificáveis como "escreva mais de 400 palavras", "mencione a palavra IA pelo menos 3 vezes" ou "responda em formato de lista".

Por que isso importa? Porque no uso real, damos instruções detalhadas para a IA e esperamos que ela siga todas. Um modelo que responde bem mas ignora metade das restrições que você pediu não é útil na prática. O IFEval mede exatamente essa obediência a regras.

O ranking humano: Chatbot Arena

Todos os benchmarks anteriores usam testes automatizados com respostas certas e erradas. O Chatbot Arena é diferente: ele usa a opinião de pessoas reais.

O sistema funciona assim: você entra no site (lmarena.ai), faz uma pergunta, e recebe duas respostas de modelos anônimos. Você vota em qual respondeu melhor. Depois de milhões de votos, o sistema calcula um rating Elo para cada modelo, o mesmo sistema usado no xadrez para classificar jogadores.

Até fevereiro de 2026, o sistema acumulou mais de 6 milhões de votos. Os modelos são classificados em categorias como geral, código, matemática e escrita criativa, cada uma com seu próprio ranking Elo.

A vantagem do Chatbot Arena é que ele mede preferência humana real, não acerto técnico. Dois modelos podem ter MMLU parecido, mas um deles pode ser consistentemente preferido por pessoas porque escreve de forma mais clara ou dá respostas mais úteis. Esse tipo de diferença não aparece em benchmarks automatizados.

Humanity's Last Exam

Este benchmark merece destaque pela ambição. Criado pelo Center for AI Safety e pela Scale AI, o Humanity's Last Exam (HLE) contém 2.500 perguntas crowdsourced de especialistas do mundo inteiro. As perguntas são tão difíceis que, quando o teste foi lançado no início de 2025, os melhores modelos de IA acertavam menos de 10%.

O processo de criação foi rigoroso: se um modelo de IA conseguia responder a pergunta corretamente, ela era descartada. Só entraram perguntas que derrotaram as IAs. Especialistas humanos acertam cerca de 90% nas suas áreas, mas nenhum modelo passa de 50% no conjunto completo. Até fevereiro de 2026, a maior pontuação registrada foi 48,4%, do Gemini 3 Deep Think do Google.

Existe uma ressalva: uma investigação independente sugeriu que cerca de 30% das respostas em biologia e química podem estar incorretas no próprio gabarito do teste.

Por que os números nem sempre contam a história completa

Antes de sair comparando percentuais entre modelos, vale considerar alguns problemas conhecidos dos benchmarks.

O primeiro é a saturação. Quando todos os modelos passam de 88% no MMLU, o teste já não diferencia quem é melhor. O benchmark não ficou inútil, mas virou pré-requisito mínimo em vez de diferencial.

O segundo é a contaminação de dados. Se um modelo viu as perguntas do benchmark durante o treinamento, ele pode ter memorizado as respostas em vez de raciocinar sobre elas. Pesquisas mostraram que as provas do AIME 2024 contaminaram o treinamento de vários modelos, inflando as notas em 10 a 20 pontos.

O terceiro é que benchmarks testam tarefas isoladas, mas o uso real é integrado. Você quer um assistente que entenda contexto, lembre da conversa anterior, e saiba quando dizer "não sei". Nenhum benchmark individual captura tudo isso.

Na prática, olhar benchmarks é um bom ponto de partida, mas experimentar os modelos no seu caso de uso específico ainda é insubstituível.

Conclusão

Os benchmarks de IA são ferramentas de medição, não veredictos absolutos. MMLU mede amplitude de conhecimento. GPQA mede profundidade em ciências. MATH e AIME medem raciocínio matemático. HumanEval e SWE-bench medem capacidade de programar. TruthfulQA e SimpleQA medem veracidade. O Chatbot Arena mede preferência humana.

A tabela que aparece nos anúncios de novos modelos faz mais sentido quando você sabe o que cada linha está medindo. Agora, quando a próxima empresa lançar um modelo dizendo "93,7% no GPQA Diamond", você vai saber que ela está falando sobre perguntas de doutorado à prova de Google, e pode julgar se esse número muda algo no que você faz com IA no dia a dia.