A Anthropic publicou em 23 de fevereiro de 2026 um relatório detalhando o que chamou de campanhas coordenadas de destilação descritas como ilícitas contra o Claude. Três laboratórios de inteligência artificial (DeepSeek, Moonshot AI e MiniMax) criaram aproximadamente 24 mil contas fraudulentas e geraram mais de 16 milhões de interações com os modelos da empresa.
O objetivo era extrair as capacidades mais avançadas do Claude para treinar seus próprios modelos, a uma fração do custo e do tempo que o desenvolvimento independente exigiria.
O que são ataques de destilação
Destilação é uma técnica legítima de treinamento em que um modelo menor aprende a partir das respostas de um modelo maior. O processo em si não tem nada de ilícito — empresas usam destilação internamente o tempo todo.
O problema aparece quando laboratórios concorrentes usam a técnica contra modelos de terceiros, violando termos de uso e extraindo propriedade intelectual. Em vez de investir na pesquisa original, o atacante envia milhares de prompts cuidadosamente construídos, coleta as respostas e usa esse dataset para treinar um modelo que replica as capacidades do original.
Os números da operação
Cada laboratório teve um perfil de atuação diferente:
- DeepSeek gerou mais de 150 mil interações focadas em raciocínio e tarefas de reward model. Os prompts pediam ao Claude que articulasse seu raciocínio passo a passo, gerando chain-of-thought training data em escala. Parte das queries buscava criar alternativas envolvendo temas politicamente sensíveis.
- Moonshot AI foi responsável por mais de 3,4 milhões de interações. O foco estava em raciocínio agêntico, uso de ferramentas, coding e visão computacional. A empresa usou centenas de contas fraudulentas através de múltiplos caminhos de acesso, tentando extrair e reconstruir traces de raciocínio.
- MiniMax liderou em volume com mais de 13 milhões de interações, concentradas em coding agêntico e orquestração de ferramentas. Quando a Anthropic lançou novos modelos Claude, a MiniMax redirecionou seus esforços em menos de 24 horas.
Um dado que chama atenção: a MiniMax lançou em fevereiro o modelo M2.5, que alcança resultados comparáveis ao Claude Opus em benchmarks de coding (80,2% no SWE-Bench Verified) a um vigésimo do custo por tarefa.
Como a Anthropic detectou os ataques
A empresa construiu classificadores e sistemas de behavioral fingerprinting para identificar padrões anômalos. Os indicadores incluíam:
- Atividade sincronizada entre contas aparentemente independentes
- Estruturas de prompt idênticas repetidas em milhares de contas
- Tráfego concentrado em capacidades específicas do modelo (reasoning, tool use, coding) em vez de uso conversacional comum
- Correlações de endereço IP e metadados de requisição incompatíveis com tráfego orgânico
Como resposta, a Anthropic reforçou a verificação de contas educacionais e de pesquisa, compartilhou inteligência com parceiros da indústria e começou a desenvolver salvaguardas a nível de produto que reduzem a eficácia da destilação.
O problema vai além da Anthropic
A Anthropic não é a única afetada. A OpenAI enviou um memorando ao Congresso americano em 12 de fevereiro alegando práticas de destilação sistemática do ChatGPT, usando roteadores de terceiros e técnicas de mascaramento para contornar restrições geográficas. O Google relatou mais de 100 mil tentativas suspeitas de extração contra o Gemini no mesmo período.
A Anthropic argumenta que modelos construídos por destilação em larga escala tendem a perder os guardrails de segurança embutidos nos sistemas originais. Sem essas proteções, os modelos destilados poderiam potencialmente ser usados para operações cibernéticas ofensivas, campanhas de desinformação e vigilância em massa.
O memorando da OpenAI resumiu bem a situação: proteger um único provedor não basta, porque os atacantes simplesmente migram para o provedor menos protegido. A defesa precisa ser um esforço coordenado entre empresas e governos.