Anthropic detecta 16 milhões de interações fraudulentas em ataques de destilação

A Anthropic publicou em 23 de fevereiro de 2026 um relatório detalhando o que chamou de campanhas coordenadas de destilação descritas como ilícitas contra o Claude. Três laboratórios de inteligência artificial (DeepSeek, Moonshot AI e MiniMax) criaram aproximadamente 24 mil contas fraudulentas e geraram mais de 16 milhões de interações com os modelos da empresa.

O objetivo era extrair as capacidades mais avançadas do Claude para treinar seus próprios modelos, a uma fração do custo e do tempo que o desenvolvimento independente exigiria.

O que são ataques de destilação

Destilação é uma técnica legítima de treinamento em que um modelo menor aprende a partir das respostas de um modelo maior. O processo em si não tem nada de ilícito — empresas usam destilação internamente o tempo todo.

O problema aparece quando laboratórios concorrentes usam a técnica contra modelos de terceiros, violando termos de uso e extraindo propriedade intelectual. Em vez de investir na pesquisa original, o atacante envia milhares de prompts cuidadosamente construídos, coleta as respostas e usa esse dataset para treinar um modelo que replica as capacidades do original.

Os números da operação

Cada laboratório teve um perfil de atuação diferente:

DeepSeek gerou mais de 150 mil interações focadas em raciocínio e tarefas de reward model. Os prompts pediam ao Claude que articulasse seu raciocínio passo a passo, gerando chain-of-thought training data em escala. Parte das queries buscava criar alternativas envolvendo temas politicamente sensíveis.

Moonshot AI foi responsável por mais de 3,4 milhões de interações. O foco estava em raciocínio agêntico, uso de ferramentas, coding e visão computacional. A empresa usou centenas de contas fraudulentas através de múltiplos caminhos de acesso, tentando extrair e reconstruir traces de raciocínio.

MiniMax liderou em volume com mais de 13 milhões de interações, concentradas em coding agêntico e orquestração de ferramentas. Quando a Anthropic lançou novos modelos Claude, a MiniMax redirecionou seus esforços em menos de 24 horas.

Um dado que chama atenção: a MiniMax lançou em fevereiro o modelo M2.5, que alcança resultados comparáveis ao Claude Opus em benchmarks de coding (80,2% no SWE-Bench Verified) a um vigésimo do custo por tarefa.

Como a Anthropic detectou os ataques

A empresa construiu classificadores e sistemas de behavioral fingerprinting para identificar padrões anômalos. Os indicadores incluíam:

Atividade sincronizada entre contas aparentemente independentes
Estruturas de prompt idênticas repetidas em milhares de contas
Tráfego concentrado em capacidades específicas do modelo (reasoning, tool use, coding) em vez de uso conversacional comum
Correlações de endereço IP e metadados de requisição incompatíveis com tráfego orgânico

Como resposta, a Anthropic reforçou a verificação de contas educacionais e de pesquisa, compartilhou inteligência com parceiros da indústria e começou a desenvolver salvaguardas a nível de produto que reduzem a eficácia da destilação.

O problema vai além da Anthropic

A Anthropic não é a única afetada. A OpenAI enviou um memorando ao Congresso americano em 12 de fevereiro alegando práticas de destilação sistemática do ChatGPT, usando roteadores de terceiros e técnicas de mascaramento para contornar restrições geográficas. O Google relatou mais de 100 mil tentativas suspeitas de extração contra o Gemini no mesmo período.

A Anthropic argumenta que modelos construídos por destilação em larga escala tendem a perder os guardrails de segurança embutidos nos sistemas originais. Sem essas proteções, os modelos destilados poderiam potencialmente ser usados para operações cibernéticas ofensivas, campanhas de desinformação e vigilância em massa.

O memorando da OpenAI resumiu bem a situação: proteger um único provedor não basta, porque os atacantes simplesmente migram para o provedor menos protegido. A defesa precisa ser um esforço coordenado entre empresas e governos.

Anthropic detecta 16 milhões de interações fraudulentas em ataques de destilação

O que são ataques de destilação

Os números da operação

Como a Anthropic detectou os ataques

O problema vai além da Anthropic

Referências pesquisadas nesta publicação

Thales faz upgrade de criptografia pós-quântica em SIMs 5G sem trocar o chip

SANDWORM_MODE: 19 pacotes npm roubam chaves de IA e injetam servidores MCP maliciosos

Chrome e Apple corrigem zero-days explorados em ataques reais