Anthropic encontra 22 vulnerabilidades no Firefox com Claude

Em fevereiro de 2026, a Anthropic apontou o Claude Opus 4.6 para o código-fonte do Firefox. Duas semanas depois, o modelo tinha vasculhado quase 6 mil arquivos C++ e encontrado 22 vulnerabilidades de segurança, 14 delas classificadas como alta severidade pela Mozilla. Isso representa quase um quinto de todas as vulnerabilidades graves corrigidas no navegador ao longo de 2025.

O primeiro bug, um use-after-free no engine JavaScript, apareceu em vinte minutos de exploração.

O que a Anthropic encontrou no Firefox

A Anthropic e a Mozilla firmaram uma parceria de segurança no início de 2026. O objetivo era testar se um LLM conseguiria encontrar falhas reais em uma codebase de produção com décadas de história. O Firefox, com seu motor Gecko escrito majoritariamente em C++, era o candidato ideal para esse teste.

O Claude Opus 4.6 escaneou quase 6.000 arquivos C++ e submeteu 112 relatórios de bugs à Mozilla. Desses, 22 foram confirmados como vulnerabilidades de segurança:

14 classificadas como alta severidade
7 como moderada
1 como baixa

A primeira falha descoberta foi um use-after-free. Esse tipo de bug de memória acontece quando o programa acessa dados que já foram liberados, permitindo que um atacante sobrescreva regiões de memória com dados arbitrários e potencialmente execute código malicioso. O Claude encontrou essa falha após apenas vinte minutos de exploração do código.

Depois da descoberta inicial, o modelo identificou mais de 50 inputs adicionais capazes de causar crashes no navegador. Cada relatório veio acompanhado de caso de teste mínimo, prova de conceito documentada e patch candidato gerado pelo próprio modelo, que depois era validado por pesquisadores humanos.

As correções foram incorporadas ao Firefox 148, lançado em fevereiro de 2026 e distribuído para centenas de milhões de usuários.

Como o Claude vasculhou 6 mil arquivos

A abordagem da Anthropic não foi simplesmente jogar código numa janela de contexto e pedir "encontre bugs". A equipe usou um framework chamado Task Verifier, onde agentes de IA checam seu próprio trabalho contra ferramentas de verificação confiáveis, recebendo feedback em tempo real durante a exploração da codebase.

Na prática, o processo funcionou assim: o Claude navegava pelo código-fonte, identificava padrões suspeitos, gerava inputs de teste para confirmar a falha e então produzia um relatório estruturado com patch sugerido. Um pesquisador humano validava cada descoberta em ambiente virtualizado para descartar falsos positivos.

A equipe gastou cerca de US$ 4.000 em créditos de API tentando desenvolver exploits de prova de conceito a partir das vulnerabilidades encontradas. De centenas de tentativas, apenas duas resultaram em exploits funcionais. E ambas exigiam que recursos de segurança do navegador estivessem intencionalmente desabilitados.

Esse número conta uma história interessante. Encontrar o bug é uma coisa. Transformá-lo em ataque funcional é outra bem diferente. As camadas de defesa do Firefox (sandboxing, ASLR, stack canaries) fizeram seu trabalho mesmo quando o código subjacente tinha falhas.

Não é só Firefox: OpenSSL e o efeito cascata

O caso do Firefox não está isolado. Em janeiro de 2026, o AISLE, um sistema autônomo de descoberta de vulnerabilidades criado por ex-membros da Anthropic, Avast e Rapid7, descobriu 12 vulnerabilidades zero-day no OpenSSL, divulgadas na release de segurança de 27 de janeiro. Uma delas, a CVE-2025-15467, recebeu score CVSS de 9.8, classificação crítica e extremamente rara para o OpenSSL.

Três dos bugs existiam desde 1998-2000. Um deles pré-datava o próprio OpenSSL, herdado da implementação original do SSLeay nos anos 1990. Falhas que sobreviveram a décadas de fuzzing com milhões de horas de CPU, auditorias extensivas do Google e do projeto OpenSSL, e revisões manuais de centenas de pesquisadores. A IA encontrou o que ninguém mais encontrava.

O AISLE propôs patches que foram diretamente aceitos para 5 das 12 vulnerabilidades.

Bruce Schneier resumiu a situação com clareza:

"A descoberta de vulnerabilidades por IA está mudando a cibersegurança mais rápido do que o esperado. Essa capacidade será usada tanto pela defesa quanto pelo ataque."

Do outro lado, a OpenAI lançou o Aardvark, um agente autônomo que analisa repositórios de código em busca de falhas. Nos testes com repositórios de referência, o Aardvark identificou 92% das vulnerabilidades conhecidas e sintéticas.

O que isso muda para quem desenvolve software

Se três ferramentas de IA diferentes conseguem encontrar vulnerabilidades graves em projetos com décadas de revisão humana, a pergunta prática é: como integrar isso no pipeline de desenvolvimento?

Algumas implicações concretas:

Análise com LLM não substitui fuzzing ou SAST tradicionais, mas encontra uma classe diferente de bugs. As falhas que o Claude encontrou no Firefox não tinham sido detectadas por ferramentas convencionais
O custo de exploração é acessível. A Anthropic gastou US$ 4.000 em créditos de API apenas nas tentativas de exploit, e o custo total do scanning não foi divulgado. Ainda assim, a ordem de grandeza sugere valores muito abaixo de um pentest manual equivalente
Patches gerados por IA precisam de validação humana, mas aceleram o ciclo de correção. A Mozilla recebeu patches candidatos junto com cada relatório de bug
Codebases em C e C++ são alvos prioritários por razões óbvias. Bugs de memória como use-after-free não existem em linguagens com garbage collector. Mas LLMs também encontram falhas lógicas, race conditions e problemas de autenticação em qualquer linguagem

A tendência é que ferramentas como o Claude, o AISLE e o Aardvark se tornem parte do toolkit de segurança, rodando em CI/CD como mais uma camada de verificação antes do merge. A IA encontra bugs que humanos não encontram, e humanos ainda validam o que a IA produz. Não é substituição, é complemento.

Conclusão

Em duas semanas, um modelo de linguagem encontrou mais bugs graves no Firefox do que a maioria dos pesquisadores encontra em meses. E o custo das tentativas de exploit foi de apenas US$ 4.000 em créditos de API.

O Firefox 148 já carrega as correções. O OpenSSL já corrigiu bugs de 25 anos que ninguém mais achava. O tooling existe e está acessível.

A questão que fica: se a IA encontra esses bugs, atacantes com acesso às mesmas ferramentas também encontram. A diferença entre segurança proativa e reativa nunca foi tão concreta. Quem não está usando IA para auditar código provavelmente está esperando que outra pessoa encontre o bug primeiro.

Anthropic encontra 22 vulnerabilidades no Firefox em duas semanas usando Claude

O que a Anthropic encontrou no Firefox

Como o Claude vasculhou 6 mil arquivos

Não é só Firefox: OpenSSL e o efeito cascata

O que isso muda para quem desenvolve software

Conclusão

Referências pesquisadas nesta publicação

O supply chain attack que comprometeu o Trivy: lições para pipelines CI/CD

Chrome CVE-2026-5281: o quarto zero-day de 2026 explora falha no WebGPU

Metade dos zero-days de 2025 mirou tecnologia enterprise: o que o relatório do Google muda para devs