Em 4 de março de 2026, uma issue no GitHub fez Mark Pilgrim voltar à internet depois de 15 anos de silêncio. O motivo: alguém tinha reescrito o chardet, a biblioteca que ele criou em 2006, usando uma IA. E trocado a licença.
O chardet detecta a codificação de caracteres de arquivos de texto. Parece algo pequeno, mas é uma daquelas peças invisíveis que seguram a web de pé. O problema não foi a reescrita em si. Foi o que veio junto com ela: uma nova licença, um novo precedente legal e uma pergunta que ninguém sabe responder ainda.
O que é o chardet e por que 135 milhões de downloads importam
O chardet nasceu como um port Python do algoritmo de detecção automática de charset da Mozilla, escrito originalmente em C++ por Frank Tang. Mark Pilgrim fez a conversão para Python em 2006 e publicou sob LGPL, uma licença copyleft que exige que trabalhos derivados mantenham a mesma licença.
Desde então, o chardet se tornou uma dependência silenciosa de praticamente tudo que envolve HTTP em Python. O requests depende dele. O pip depende dele. São 135 milhões de downloads por mês no PyPI. Qualquer dev Python já usou o chardet, mesmo sem saber.
Mark se afastou da internet em 2011, deletando sua presença online de forma abrupta. Dan Blanchard assumiu a manutenção em 2012 e vem cuidando do projeto desde então, com quase 700 commits ao longo de mais de uma década.
A reescrita: Claude Code, cinco dias e uma nova licença
Em 2 de março de 2026, Dan publicou o chardet 7.0.0. Não foi um update incremental. Foi uma reescrita completa, feita com o Claude Code da Anthropic. Segundo Dan, o processo levou cerca de cinco dias.
Os números são difíceis de ignorar: a nova versão é 48 vezes mais rápida que a anterior e tem suporte a múltiplos cores. Ferramentas de detecção de plágio apontam menos de 1,3% de similaridade com qualquer versão anterior do código.
Mas a mudança que importa não é a performance. É a licença. O chardet 7.0 saiu sob MIT, não mais LGPL. A MIT é uma licença permissiva: você pode usar o código em projetos proprietários sem precisar abrir o fonte. A LGPL exige que modificações na biblioteca sejam compartilhadas sob a mesma licença.
Dan tinha um motivo antigo para querer essa mudança. Desde 2014, existe uma discussão aberta sobre incluir o chardet na biblioteca padrão do Python. O CPython é distribuído sob PSF License, que é incompatível com a LGPL. Enquanto o chardet fosse LGPL, a inclusão seria bloqueada.
O retorno de Mark Pilgrim
Dois dias depois do release, Mark Pilgrim abriu a issue #327 no repositório do chardet com o título "No right to relicense this project". Ele se identificou: "Hi, I'm Mark Pilgrim. You may remember me from such classics as 'Dive Into Python' and 'Universal Character Encoding Detector.'"
O argumento de Mark é direto. Ele escreveu o código original. Ele escolheu a LGPL. Dan não tem o direito de trocar a licença, independentemente de como o código novo foi gerado. Na visão de Mark, Dan passou mais de uma década imerso no código LGPL, conhece cada detalhe da implementação, e colocar uma IA no meio do processo não cria uma situação de clean room.
"Adding a fancy code generator into the mix does not somehow grant you any additional rights", escreveu Mark na issue.
A issue continua aberta. Não foi atribuída a ninguém. Não tem milestone.
Clean room, slopfork e o navio de Teseu
O conceito de clean room implementation existe desde os anos 80 no mundo do software. A ideia é simples: se você quer reimplementar um software sem violar a licença, precisa de dois times separados. O primeiro lê o código original e escreve uma especificação funcional. O segundo, que nunca viu o código original, implementa a partir da especificação.
A separação é o que garante que o novo código não é um trabalho derivado. O time que implementa não tem contaminação do original.
O caso do chardet quebra essa separação de várias formas. Dan conhece o código original intimamente. O Claude Code teve acesso a partes do repositório durante o processo (especificamente ao arquivo metadata/charsets.py). E o próprio Claude foi treinado em dados que provavelmente incluem o código do chardet.
Armin Ronacher, criador do Flask e do Jinja2, cunhou o termo slopfork para descrever o que aconteceu: uma reescrita gerada por IA que reproduz o comportamento do original enquanto descarta as obrigações legais. No ensaio "AI and the Ship of Theseus", ele compara a situação ao paradoxo filosófico: se você troca cada peça de um navio uma por uma, em que ponto ele deixa de ser o navio original?
O que torna a posição de Ronacher interessante é que ele é transparente sobre seu viés. Ele declarou que sempre quis o chardet sob uma licença permissiva. Mesmo assim, reconheceu que o precedente é perigoso: "Copyleft code like the GPL heavily depends on copyrights and friction to enforce it. But because it's fundamentally in the open, with or without tests, you can trivially rewrite it these days."
Simon Willison, criador do Datasette, resumiu bem a ambiguidade: ele disse que está pessoalmente inclinado a considerar a reescrita legítima, mas que os argumentos dos dois lados são inteiramente críveis. E que não faz ideia de como isso vai se resolver.
O paradoxo do copyright de código gerado por IA
No mesmo dia em que o chardet 7.0 chegou ao PyPI, 2 de março de 2026, a Suprema Corte dos EUA recusou ouvir o caso Thaler v. Perlmutter, mantendo a decisão de que material gerado por IA precisa de autoria humana para ser protegido por copyright.
Isso cria um paradoxo. Se o código reescrito pelo Claude não é protegido por copyright por falta de autoria humana suficiente, então a licença MIT que Dan colocou nele pode não ter validade. Você não pode licenciar algo que não é seu para licenciar.
Por outro lado, se Dan contribuiu com direção criativa suficiente para ser considerado autor, o código é protegido por copyright. Mas nesse caso, a questão volta à contaminação: Dan conhecia o original, e o resultado é funcionalmente equivalente.
Não existe jurisprudência para resolver isso. Estamos num vácuo legal onde duas interpretações razoáveis levam a conclusões opostas.
O que isso muda para quem depende de copyleft
O chardet tem 135 milhões de downloads por mês, mas é uma biblioteca relativamente simples. O que acontece quando alguém aplica o mesmo processo ao Linux kernel? Ou ao GCC? Ou a qualquer projeto GPL que uma empresa preferiria usar sem as obrigações de copyleft?
A resposta curta: ninguém sabe. Mantenedores do kernel Linux já sinalizaram preocupação com esse cenário. Se agentes de IA conseguem reescrever sistematicamente código GPL e relicenciar o resultado, o modelo de copyleft que sustenta milhares de projetos tem uma brecha que não existia antes.
A licença GPL sempre dependeu de uma premissa prática: reescrever uma base de código grande do zero é tão caro que ninguém se dá ao trabalho. Você usa o código e segue a licença, ou escreve o seu do zero. A IA quebrou essa premissa. O custo de reescrita caiu de meses ou anos para dias.
Hong Minhee levantou um ponto sutil no ensaio "Is legal the same as legitimate?": mesmo que a reescrita seja legal, a comunidade open source funciona com base em normas sociais tanto quanto em leis. Contornar uma licença copyleft usando IA pode ser tecnicamente permitido, mas corrói a confiança que faz o ecossistema funcionar.
Simon Willison espera que, quando empresas perceberem que sua propriedade intelectual está sob ameaça do mesmo processo, veremos litígios com financiamento pesado. O chardet pode ser o caso que abre a comporta.
Conclusão
O caso do chardet 7.0 vai ficar como referência na história do open source. Não porque uma biblioteca de detecção de charset seja particularmente glamourosa, mas porque ela cristaliza uma pergunta que vai definir a próxima década de licenciamento de software: quando uma IA reescreve código, quem é o autor? E quem tem o direito de escolher a licença?
Dan Blanchard queria incluir o chardet no CPython. Mark Pilgrim queria que sua escolha de licença fosse respeitada. Armin Ronacher quer um mundo com menos restrições de licença. Os três têm argumentos legítimos. E o sistema legal ainda não tem ferramentas para arbitrar entre eles.
A issue #327 continua aberta. E com ela, uma pergunta que vai levar anos para ter resposta.
Referências pesquisadas nesta publicação
- Chardet dispute shows how AI will kill software licensing - The Register
- AI And The Ship of Theseus - Armin Ronacher
- Can coding agents relicense open source through a clean room implementation of code? - Simon Willison
- Can You Relicense Open Source by Rewriting It with AI? The chardet 7.0 Dispute - Open Source Guy
- The Chardet Controversy: AI Rewrites Are Testing Open-Source Licensing to Its Limits - AI:PRODUCTIVITY
- No right to relicense this project - Issue #327 chardet/chardet
- Is legal the same as legitimate: AI reimplementation and the erosion of copyleft - Hong Minhee
- License Laundering and the Death of Clean Room - ShiftMag
- chardet PyPI Download Stats