Em fevereiro de 2026, a Anthropic apontou o Claude Opus 4.6 para o código-fonte do Firefox. Duas semanas depois, o modelo tinha vasculhado quase 6 mil arquivos C++ e encontrado 22 vulnerabilidades de segurança, 14 delas classificadas como alta severidade pela Mozilla. Isso representa quase um quinto de todas as vulnerabilidades graves corrigidas no navegador ao longo de 2025.
O primeiro bug, um use-after-free no engine JavaScript, apareceu em vinte minutos de exploração.
O que a Anthropic encontrou no Firefox
A Anthropic e a Mozilla firmaram uma parceria de segurança no início de 2026. O objetivo era testar se um LLM conseguiria encontrar falhas reais em uma codebase de produção com décadas de história. O Firefox, com seu motor Gecko escrito majoritariamente em C++, era o candidato ideal para esse teste.
O Claude Opus 4.6 escaneou quase 6.000 arquivos C++ e submeteu 112 relatórios de bugs à Mozilla. Desses, 22 foram confirmados como vulnerabilidades de segurança:
- 14 classificadas como alta severidade
- 7 como moderada
- 1 como baixa
A primeira falha descoberta foi um use-after-free. Esse tipo de bug de memória acontece quando o programa acessa dados que já foram liberados, permitindo que um atacante sobrescreva regiões de memória com dados arbitrários e potencialmente execute código malicioso. O Claude encontrou essa falha após apenas vinte minutos de exploração do código.
Depois da descoberta inicial, o modelo identificou mais de 50 inputs adicionais capazes de causar crashes no navegador. Cada relatório veio acompanhado de caso de teste mínimo, prova de conceito documentada e patch candidato gerado pelo próprio modelo, que depois era validado por pesquisadores humanos.
As correções foram incorporadas ao Firefox 148, lançado em fevereiro de 2026 e distribuído para centenas de milhões de usuários.
Como o Claude vasculhou 6 mil arquivos
A abordagem da Anthropic não foi simplesmente jogar código numa janela de contexto e pedir "encontre bugs". A equipe usou um framework chamado Task Verifier, onde agentes de IA checam seu próprio trabalho contra ferramentas de verificação confiáveis, recebendo feedback em tempo real durante a exploração da codebase.
Na prática, o processo funcionou assim: o Claude navegava pelo código-fonte, identificava padrões suspeitos, gerava inputs de teste para confirmar a falha e então produzia um relatório estruturado com patch sugerido. Um pesquisador humano validava cada descoberta em ambiente virtualizado para descartar falsos positivos.
A equipe gastou cerca de US$ 4.000 em créditos de API tentando desenvolver exploits de prova de conceito a partir das vulnerabilidades encontradas. De centenas de tentativas, apenas duas resultaram em exploits funcionais. E ambas exigiam que recursos de segurança do navegador estivessem intencionalmente desabilitados.
Esse número conta uma história interessante. Encontrar o bug é uma coisa. Transformá-lo em ataque funcional é outra bem diferente. As camadas de defesa do Firefox (sandboxing, ASLR, stack canaries) fizeram seu trabalho mesmo quando o código subjacente tinha falhas.
Não é só Firefox: OpenSSL e o efeito cascata
O caso do Firefox não está isolado. Em janeiro de 2026, o AISLE, um sistema autônomo de descoberta de vulnerabilidades criado por ex-membros da Anthropic, Avast e Rapid7, descobriu 12 vulnerabilidades zero-day no OpenSSL, divulgadas na release de segurança de 27 de janeiro. Uma delas, a CVE-2025-15467, recebeu score CVSS de 9.8, classificação crítica e extremamente rara para o OpenSSL.
Três dos bugs existiam desde 1998-2000. Um deles pré-datava o próprio OpenSSL, herdado da implementação original do SSLeay nos anos 1990. Falhas que sobreviveram a décadas de fuzzing com milhões de horas de CPU, auditorias extensivas do Google e do projeto OpenSSL, e revisões manuais de centenas de pesquisadores. A IA encontrou o que ninguém mais encontrava.
O AISLE propôs patches que foram diretamente aceitos para 5 das 12 vulnerabilidades.
Bruce Schneier resumiu a situação com clareza:
"A descoberta de vulnerabilidades por IA está mudando a cibersegurança mais rápido do que o esperado. Essa capacidade será usada tanto pela defesa quanto pelo ataque."
Do outro lado, a OpenAI lançou o Aardvark, um agente autônomo que analisa repositórios de código em busca de falhas. Nos testes com repositórios de referência, o Aardvark identificou 92% das vulnerabilidades conhecidas e sintéticas.
O que isso muda para quem desenvolve software
Se três ferramentas de IA diferentes conseguem encontrar vulnerabilidades graves em projetos com décadas de revisão humana, a pergunta prática é: como integrar isso no pipeline de desenvolvimento?
Algumas implicações concretas:
- Análise com LLM não substitui fuzzing ou SAST tradicionais, mas encontra uma classe diferente de bugs. As falhas que o Claude encontrou no Firefox não tinham sido detectadas por ferramentas convencionais
- O custo de exploração é acessível. A Anthropic gastou US$ 4.000 em créditos de API apenas nas tentativas de exploit, e o custo total do scanning não foi divulgado. Ainda assim, a ordem de grandeza sugere valores muito abaixo de um pentest manual equivalente
- Patches gerados por IA precisam de validação humana, mas aceleram o ciclo de correção. A Mozilla recebeu patches candidatos junto com cada relatório de bug
- Codebases em C e C++ são alvos prioritários por razões óbvias. Bugs de memória como use-after-free não existem em linguagens com garbage collector. Mas LLMs também encontram falhas lógicas, race conditions e problemas de autenticação em qualquer linguagem
A tendência é que ferramentas como o Claude, o AISLE e o Aardvark se tornem parte do toolkit de segurança, rodando em CI/CD como mais uma camada de verificação antes do merge. A IA encontra bugs que humanos não encontram, e humanos ainda validam o que a IA produz. Não é substituição, é complemento.
Conclusão
Em duas semanas, um modelo de linguagem encontrou mais bugs graves no Firefox do que a maioria dos pesquisadores encontra em meses. E o custo das tentativas de exploit foi de apenas US$ 4.000 em créditos de API.
O Firefox 148 já carrega as correções. O OpenSSL já corrigiu bugs de 25 anos que ninguém mais achava. O tooling existe e está acessível.
A questão que fica: se a IA encontra esses bugs, atacantes com acesso às mesmas ferramentas também encontram. A diferença entre segurança proativa e reativa nunca foi tão concreta. Quem não está usando IA para auditar código provavelmente está esperando que outra pessoa encontre o bug primeiro.
Referências pesquisadas nesta publicação
- Partnering with Mozilla to improve Firefox's security - Anthropic
- Anthropic's Claude found 22 vulnerabilities in Firefox over two weeks - TechCrunch
- Anthropic Finds 22 Firefox Vulnerabilities Using Claude Opus 4.6 AI Model - The Hacker News
- AI Found Twelve New Vulnerabilities in OpenSSL - Schneier on Security
- Introducing Aardvark: OpenAI's agentic security researcher - OpenAI