Agentes monolíticos vs enxames: multi-agent coding com IA em 2026

Em junho de 2025, a Cognition publicou um post que sacudiu a comunidade de IA aplicada a código: "Don't Build Multi-Agents". No dia seguinte, a Anthropic respondeu com um relato detalhado de como construiu seu sistema de pesquisa usando exatamente o oposto: múltiplos agentes coordenados. De lá pra cá, a discussão só cresceu. Agora, em 2026, com Claude Code rodando Agent Teams, OpenAI Codex orquestrando tarefas em paralelo e frameworks como CrewAI e LangGraph disputando espaço, a pergunta que todo dev usando IA pra codar precisa responder é: um agente só, ou um enxame deles?

A resposta, como quase tudo em engenharia, é "depende". Mas os trade-offs já estão bem mais claros do que estavam há um ano.

O problema da janela de contexto

Tudo começa com uma limitação física: janelas de contexto. Modelos atuais como o GPT-5.3-Codex e o Claude Opus 4.6 suportam até 1 milhão de tokens. Parece muito, mas um monorepo corporativo típico pode ter milhares de arquivos e vários milhões de tokens. Enfiar tudo na janela de contexto não funciona.

A Factory.ai documentou o problema com clareza: token pricing torna estratégias do tipo "enfia mais código" financeiramente insustentáveis em escala. Pior, inundar o modelo com dezenas de arquivos irrelevantes prejudica ativamente a qualidade do raciocínio. Janelas maiores não eliminam a necessidade de curadoria. Elas tornam mais fácil degradar a qualidade sem perceber.

Na prática, um agente único tentando segurar um codebase inteiro no contexto vai, inevitavelmente, perder detalhes. Esquecer uma dependência aqui, ignorar um efeito colateral ali. É exatamente isso que empurrou parte da indústria na direção de sistemas multi-agent.

Agente único: a tese da Cognition

A Cognition, criadora do Devin, defende uma posição clara: não construa sistemas multi-agent. O argumento principal é que sub-agentes, em configurações ingênuas, não têm contexto do trabalho uns dos outros. Cada um opera no próprio universo, e o resultado é um sistema frágil onde decisões conflitam.

Walden Yan, da Cognition, aponta que modelos menores frequentemente interpretam mal instruções de modelos maiores. Ambiguidades sutis em um prompt se transformam em edições incorretas. Quando o agente que decide é o mesmo que executa, essa classe de erro desaparece.

O Devin funciona como um agente único que gerencia contexto ao longo do tempo. Em vez de delegar para sub-agentes, ele usa gerenciamento de contexto: sumariza conversas longas, mantém estado persistente e trabalha sequencialmente. Para tarefas de coding que exigem coerência no codebase inteiro, um agente com visão completa pode ser mais confiável que cinco agentes com visões parciais.

Tem algo convincente nessa simplicidade. Um único agente significa menos pontos de falha, menos overhead de coordenação e zero risco de dois agentes editando o mesmo arquivo de formas contraditórias.

Enxames de agentes: a tese da Anthropic e OpenAI

Do outro lado, Anthropic e OpenAI apostam em arquiteturas multi-agent, mas com uma nuance importante: coordenação sofisticada.

O Claude Code Agent Teams funciona com um modelo de lead agent e subagentes. Um agente orquestrador entende a tarefa completa, decompõe em subtarefas e delega para agentes especializados. O diferencial é que esses agentes são conscientes uns dos outros. Eles compartilham contexto, sinalizam dependências e evitam pisar no trabalho alheio.

A Anthropic reportou que, em avaliações internas, a abordagem multi-agent superou sistemas single-agent em mais de 90% em determinadas tarefas. Claro, "determinadas tarefas" é uma ressalva grande. Pesquisa e análise de documentos longos se beneficiam naturalmente de paralelismo. Editar um único arquivo com lógica acoplada pode não se beneficiar do mesmo jeito.

O OpenAI Codex segue uma direção similar. O app funciona como um centro de comando: múltiplos agentes trabalham no mesmo repositório sem conflitos, cada um em um worktree isolado. O modelo GPT-5.3-Codex lê, edita e roda código, depois propõe mudanças para revisão. Com Skills e Automations, o Codex vai além de responder prompts: ele atua em trabalho rotineiro como triagem de issues, monitoramento de alertas e automação de CI/CD.

O que torna isso viável é que cada subagente só precisa manter contexto do seu domínio específico. Um agente focado em testes não precisa entender a lógica de autenticação. Um agente refatorando CSS não precisa do schema do banco de dados. A divisão de trabalho resolve o problema da janela de contexto pela raiz.

Context engineering: o fator que ninguém discorda

Apesar dos títulos contrários, Cognition e Anthropic concordam num ponto: context engineering é tudo.

Martin Fowler publicou um artigo dedicado ao tema. O conceito é curar o que o modelo vê para obter melhores resultados. Mais formalmente, é o processo deliberado de projetar, estruturar e fornecer informação relevante para LLMs. Não é só prompt engineering. É sobre memória, ambiente e feedback.

A Anthropic publicou um guia sobre context engineering eficaz para agentes. A mensagem central: por mais que os modelos fiquem mais fortes e baratos, nenhuma quantidade de capacidade bruta substitui a necessidade de contexto bem curado. Como você molda o contexto define como o agente se comporta: quão rápido executa, quão bem se recupera de erros e até onde escala.

Na prática, isso se traduz em arquivos de configuração como CLAUDE.md e AGENTS.md, que descrevem a estrutura do projeto, estilo de código e instruções de build. Ferramentas como o Claude Code já buscam esses arquivos automaticamente e os injetam no prompt. O LangChain documentou estratégias similares para gerenciar contexto em agentes.

O ponto é que tanto um agente único com context engineering bem feito quanto um enxame com context engineering bem feito vão funcionar melhor do que qualquer abordagem sem curadoria de contexto. A arquitetura importa, mas o contexto importa mais.

Na prática: frameworks e ferramentas

O ecossistema de ferramentas para sistemas multi-agent amadureceu rápido em 2026. Três frameworks dominam o espaço: LangGraph, CrewAI e AutoGen. Cada um tem uma filosofia diferente.

O LangGraph trata workflows como grafos com estado. Você define nós, arestas e roteamento condicional explicitamente. É verboso, de baixo nível e oferece controle total. É a escolha de empresas construindo sistemas críticos que precisam de compliance e gerenciamento de estado em produção.

O CrewAI organiza agentes em times baseados em papéis. Você define um crew, atribui tarefas, e o framework orquestra a execução sequencial ou paralela. É opinado, de alto nível, e rápido pra prototipar. Dados de 2026 indicam que equipes deployam um sistema multi-agent 40% mais rápido com CrewAI comparado ao LangGraph.

O AutoGen, da Microsoft, trata tudo como conversas multi-agent. É o meio-termo entre os dois.

Além dos frameworks, as próprias ferramentas de coding adotaram multi-agent nativamente. O VS Code anunciou em fevereiro de 2026 suporte a desenvolvimento multi-agent como feature de primeira classe. O Claude Code, o Codex e o Devin representam três filosofias diferentes sobre o mesmo problema, todas em produção.

Para quem quer experimentar, um ponto de entrada acessível é o CrewAI:

from crewai import Agent, Task, Crew

reviewer = Agent(
    role="Code Reviewer",
    goal="Identificar bugs e problemas de segurança",
    backstory="Você é um engenheiro senior com foco em segurança."
)

writer = Agent(
    role="Code Writer",
    goal="Implementar a feature seguindo as melhores práticas",
    backstory="Você é um dev pleno especializado em TypeScript."
)

review_task = Task(
    description="Revise o código do PR #42 e liste problemas encontrados.",
    agent=reviewer,
    expected_output="Lista de issues com severidade e sugestão de correção."
)

write_task = Task(
    description="Corrija os problemas identificados na revisão.",
    agent=writer,
    expected_output="Código corrigido com explicação das mudanças.",
    context=[review_task]
)

crew = Crew(
    agents=[reviewer, writer],
    tasks=[review_task, write_task],
    verbose=True
)

result = crew.kickoff()

Esse exemplo cria dois agentes: um revisor e um escritor de código. O revisor analisa primeiro, e o escritor recebe o contexto da revisão para corrigir os problemas. É um workflow simples, mas que demonstra o padrão fundamental: decomposição de tarefas com passagem de contexto.

Quando usar cada abordagem

Depois de toda a pesquisa e do debate público entre Cognition e Anthropic, os critérios de decisão ficam mais objetivos.

Use um agente único quando a tarefa exige coerência em um único arquivo ou módulo, quando o contexto necessário cabe na janela do modelo, quando a latência importa mais que a abrangência, ou quando você está trabalhando em um projeto menor onde o overhead de coordenação não se justifica.

Use múltiplos agentes quando a tarefa pode ser decomposta em subtarefas independentes, quando o codebase é grande demais para caber em uma única janela de contexto, quando diferentes partes do trabalho exigem especializações diferentes, ou quando o paralelismo traz ganho real de tempo.

A decisão não é ideológica. É pragmática. E, em muitos casos, o melhor sistema é híbrido: um orquestrador que decide quando delegar e quando resolver sozinho.

Conclusão

A polarização entre "nunca use multi-agent" e "sempre use multi-agent" já passou. O que ficou no lugar é uma compreensão mais nuançada: a arquitetura é uma ferramenta, não uma identidade.

O que realmente separa um sistema de coding com IA que funciona de um que frustra é a qualidade do context engineering. Seja um agente ou vinte, o modelo precisa ver a informação certa no momento certo. Investir em arquivos de configuração como CLAUDE.md, em ferramentas de compressão de contexto e em pipelines de verificação vai render mais do que trocar de framework toda semana.

Para quem está começando, a sugestão é direta: comece com um agente único e bom context engineering. Quando perceber que o gargalo é a janela de contexto ou a falta de paralelismo, aí sim avalie a transição para multi-agent. Nessa hora, LangGraph e CrewAI são bons pontos de partida dependendo do nível de controle que você precisa.

Agentes monolíticos vs enxames: como a arquitetura multi-agent está mudando o coding com IA

O problema da janela de contexto

Agente único: a tese da Cognition

Enxames de agentes: a tese da Anthropic e OpenAI

Context engineering: o fator que ninguém discorda

Na prática: frameworks e ferramentas

Quando usar cada abordagem

Conclusão

Referências pesquisadas nesta publicação

92% dos devs usam IA para programar, mas menos da metade confia nos resultados

O que significam os benchmarks de IA que aparecem a cada lançamento de LLM

GPT-5.4 chega com computer use nativo e janela de 1M tokens