Existe uma intuição comum no ecossistema de LLMs: se o modelo "pensa" por mais tempo, produzindo mais tokens de raciocínio antes de responder, o resultado deveria ser melhor. Faz sentido na superfície. Mas um paper publicado em fevereiro de 2026 por pesquisadores do Google e da Universidade da Virgínia mostra que essa intuição está errada.

O paper "Think Deep, Not Just Long" introduz o Deep-Thinking Ratio (DTR), uma métrica que mede não a quantidade de tokens gerados, mas a proporção de tokens que de fato exigiram processamento profundo do modelo. A descoberta central: gerar mais tokens tem correlação negativa com acurácia. Tokens de raciocínio "rasos", aqueles que o modelo resolve nas primeiras camadas, são ruído computacional. O que importa é a fração de tokens onde o modelo realmente revisou suas previsões nas camadas mais profundas.

O paradoxo do "pensar demais"

Modelos de raciocínio como DeepSeek-R1, Qwen3-Thinking e a família GPT-OSS foram treinados para "pensar em voz alta": gerar uma cadeia de raciocínio (chain-of-thought) antes de produzir a resposta final. A expectativa era direta: mais raciocínio, mais acurácia.

Os dados contam outra história. Ao analisar 32 combinações de modelo-benchmark, os pesquisadores encontraram que a contagem bruta de tokens tem correlação média de r = -0.594 com acurácia. Negativa. Quanto mais tokens o modelo gerava, mais provável que a resposta estivesse errada.

Isso não significa que raciocinar é inútil. Significa que o volume de raciocínio é uma proxy ruim para a qualidade do raciocínio. Um modelo pode gastar 2.000 tokens em passos repetitivos e reformulações que não adicionam informação nova — o equivalente computacional de andar em círculos.

O que são deep-thinking tokens

A contribuição central do paper é distinguir tokens que exigem esforço computacional real daqueles que o modelo resolve de forma quase automática.

Para cada token gerado, os pesquisadores projetam os estados ocultos das camadas intermediárias do modelo no espaço de vocabulário usando a mesma matriz de unembedding da camada final. Isso permite observar qual token o modelo "previa" em cada camada intermediária, antes de chegar à previsão final.

A maioria dos tokens converge cedo. O modelo já "sabe" o que vai gerar lá pela camada 10 de 60, e as camadas restantes apenas confirmam. Esses são tokens rasos.

Deep-thinking tokens são diferentes. São tokens onde a previsão muda substancialmente nas camadas mais profundas. O modelo reconsiderou, revisou e chegou a uma resposta diferente do que as camadas iniciais sugeriam. Esse comportamento indica processamento genuíno, não reprodução de padrões.

Para formalizar essa distinção, os autores definem o "settling depth" de cada token: a primeira camada onde a divergência Jensen-Shannon (JSD) entre a distribuição intermediária e a distribuição final cai abaixo de 0.5. Se o settling depth está nas camadas finais (acima de 85% da profundidade total do modelo), o token é classificado como deep-thinking.

Como o DTR é calculado

O Deep-Thinking Ratio de uma sequência S com T tokens é direto:

DTR(S) = (1/T) × Σ 𝟙[c_t ∈ camadas_profundas]

Onde c_t é o settling depth do token t, a primeira camada onde a JSD entre a distribuição intermediária e a final cai abaixo do limiar g = 0.5. O regime de camadas profundas é definido como l ≥ ⌈0.85 × L⌉, onde L é o total de camadas do modelo.

Na prática, um DTR de 0.3 significa que 30% dos tokens gerados exigiram processamento nas camadas mais profundas do modelo. O DTR de uma resposta correta tende a ser maior que o de uma resposta incorreta, com correlação média de r = 0.683 com acurácia, contra r = -0.594 da contagem bruta de tokens.

Outros sinais internos do modelo também foram testados como indicadores de qualidade. A self-certainty (baseada na probabilidade máxima do token previsto) alcançou r = 0.605. Log probability ficou em r = 0.527. Entropia negativa em r = 0.571. O DTR superou todos.

Think@n: mesma acurácia pela metade do custo

Com uma métrica confiável de qualidade de raciocínio em mãos, o passo seguinte foi usá-la para economizar. Os pesquisadores propõem o Think@n, uma variação do self-consistency que usa o DTR como filtro de qualidade.

O self-consistency padrão (Cons@n) funciona assim: gerar n respostas completas para o mesmo problema e fazer votação por maioria. O problema é que todas as n respostas precisam ser geradas por inteiro, mesmo as que são claramente fracas.

O Think@n muda essa dinâmica:

  1. Gerar n candidatos, mas cada um apenas até um prefixo curto (50 tokens de raciocínio)
  2. Calcular o DTR de cada prefixo
  3. Selecionar os 50% com DTR mais alto
  4. Completar a geração apenas dos selecionados
  5. Fazer votação por maioria entre os completados

O resultado: metade das sequências é descartada antes de ser gerada por inteiro. Os tokens economizados são exatamente os que tinham baixo DTR, ou seja, os que provavelmente levariam a respostas erradas de qualquer forma.

Resultados nos benchmarks

Os pesquisadores testaram o Think@n em quatro benchmarks de matemática e ciência com n = 48 amostras por problema. Os modelos avaliados incluem GPT-OSS-120B, GPT-OSS-20B, DeepSeek-R1-70B e Qwen3-30B-Thinking.

No AIME 2025 com GPT-OSS-120B (nível de raciocínio médio), o Cons@48 padrão atingiu 92.7% de acurácia usando 307.600 tokens. O Think@48 atingiu 94.7%, dois pontos percentuais a mais, usando 155.400 tokens. Acurácia maior com metade do custo computacional.

No AIME 2024, o padrão marcou 92.7% contra 93.3% do Think@n. No HMMT 2025, empate em 80.0%. No GPQA-Diamond, 73.8% contra 74.7%.

O padrão se repete entre modelos. Com o Qwen3-30B-Thinking, a redução de custo ficou entre 49% e 50%, mantendo ou melhorando acurácia. O Think@n nunca ficou abaixo do self-consistency padrão em nenhuma das 32 combinações testadas.

O mecanismo por trás desse resultado é o early halting inteligente: ao usar apenas 50 tokens de prefixo para calcular o DTR, o método identifica respostas promissoras antes que o modelo gaste milhares de tokens em caminhos de raciocínio improdutivos.

O que isso muda para quem usa LLMs

Para engenheiros que pagam por token em APIs de modelos de raciocínio, a implicação direta é financeira. Se 49% dos tokens em pipelines de self-consistency podem ser eliminados sem perda de acurácia, o custo por problema cai pela metade.

Mas a contribuição mais duradoura é conceitual. O DTR oferece uma forma de olhar para dentro do modelo e avaliar se ele está realmente raciocinando ou apenas gerando texto que se parece com raciocínio. Essa distinção é útil além de self-consistency:

  • Em avaliação de modelos, o DTR pode complementar métricas de benchmark com uma medida de eficiência cognitiva. Dois modelos com a mesma acurácia podem ter DTRs muito diferentes, o que revela qual deles resolve problemas de forma mais eficiente internamente
  • Em roteamento de queries, o DTR dos primeiros tokens pode indicar se um problema precisa de um modelo grande ou se um modelo menor resolve. Um prefixo com DTR baixo sugere que o problema é trivial para aquele modelo
  • Em debugging de prompts, um DTR consistentemente baixo pode indicar que o prompt não está ativando as capacidades de raciocínio profundo do modelo

O paper também levanta uma questão incômoda sobre a geração de dados sintéticos para treinamento de modelos de raciocínio. Se a maioria dos tokens em sequências longas de chain-of-thought são rasos, treinar modelos para gerar mais tokens pode estar reforçando exatamente o comportamento errado.

Conclusão

O "Think Deep, Not Just Long" faz o tipo de contribuição que muda vocabulário. Antes desse paper, a comunidade media esforço de raciocínio em tokens. Agora existe uma alternativa fundamentada: medir a proporção de tokens que de fato exigiram processamento profundo.

O DTR não exige modificação do modelo — é computado sobre os estados ocultos intermediários usando a matriz de unembedding existente. Isso torna a implementação viável em qualquer modelo com acesso aos hidden states, como DeepSeek-R1 e Qwen3.

O paper completo está disponível no arXiv (2602.13517) e os resultados são reprodutíveis nos benchmarks AIME, HMMT e GPQA-Diamond. Para quem gasta com inferência de modelos de raciocínio, o Think@n é a otimização mais direta: mesma acurácia, metade dos tokens.

Referências pesquisadas nesta publicação