Qwen3.5: modelo open-weight de 397B parâmetros desafia GPT e Claude

No dia 16 de fevereiro de 2026, a Alibaba Cloud lançou o Qwen3.5 — o mais recente modelo da família Qwen, desenvolvida pelo time de pesquisa em IA da gigante chinesa. O modelo chega com 397 bilhões de parâmetros totais, mas ativa apenas 17 bilhões por token processado, graças a uma arquitetura Mixture-of-Experts que prioriza eficiência sem sacrificar capacidade.

O lançamento aconteceu na véspera do Ano Novo Chinês e marca um ponto de inflexão na corrida dos modelos abertos. Enquanto empresas como OpenAI e Google mantêm seus modelos mais poderosos sob acesso proprietário, a Alibaba disponibilizou o Qwen3.5 sob licença Apache 2.0 — permitindo uso comercial irrestrito, fine-tuning e redistribuição. Para desenvolvedores que trabalham com LLMs, isso muda o jogo.

O que é o Qwen3.5 e por que importa

O Qwen3.5 é a mais recente iteração da família Qwen da Alibaba — que já passou por Qwen, Qwen1.5, Qwen2, Qwen2.5 e Qwen3 — e representa um salto arquitetural significativo em relação ao Qwen3. Não se trata apenas de "mais parâmetros" — o modelo foi treinado do zero em texto, imagens e vídeo simultaneamente, o que significa que a capacidade multimodal não é um módulo acoplado depois, mas faz parte das representações internas do modelo desde o início.

O carro-chefe da família é o Qwen3.5-397B-A17B: 397 bilhões de parâmetros totais com apenas 17 bilhões ativos por forward pass. Isso coloca o modelo na mesma liga de competidores como GPT-5.2, Claude Opus 4.5 e Gemini 3, mas com uma fração do custo computacional por inferência.

A Alibaba afirma que o Qwen3.5 é 60% mais barato de operar do que seu antecessor e oferece 8 vezes mais throughput em workloads concorrentes. Para quem paga por token em APIs de IA, esses números não são triviais.

Arquitetura MoE: 397B de parâmetros, 17B ativos

A arquitetura do Qwen3.5 combina dois conceitos que vêm ganhando tração na pesquisa de LLMs: Mixture-of-Experts (MoE) esparso e atenção linear híbrida via Gated Delta Networks.

O modelo possui 60 camadas com uma dimensão oculta de 4.096. O diferencial está na escala de especialistas: são 512 experts no total (contra 128 no Qwen3), dos quais 10 roteados + 1 compartilhado são ativados por token. Isso significa que cada token processa apenas uma fração da rede, reduzindo drasticamente o custo computacional.

A ideia por trás do MoE é elegante: em vez de forçar todo o modelo a processar cada token, roteie o token para os especialistas mais relevantes. O resultado é um modelo que "sabe muito" mas "pensa pouco" por inferência.

A janela de contexto nativa é de 256K tokens na versão open-weight, enquanto a versão hospedada (Qwen3.5-Plus) suporta até 1 milhão de tokens. Em contextos longos de 256K, o modelo decodifica 19 vezes mais rápido que o Qwen3-Max — um ganho que muda a viabilidade de tarefas como análise de documentos extensos e repositórios de código completos.

O vocabulário também cresceu: de 150K para 250K tokens, com suporte expandido de 119 para 201 idiomas e dialetos. Para desenvolvedores que lidam com aplicações multilíngues, essa expansão se traduz em ganhos de 10% a 60% na velocidade de tokenização, dependendo do idioma.

Benchmarks: como se compara com GPT, Claude e Gemini

Números de benchmark devem ser analisados com cautela — cada empresa escolhe os testes que favorecem seu modelo. Dito isso, os resultados reportados pela Alibaba posicionam o Qwen3.5 de forma competitiva:

MathVista: 90.3 (raciocínio matemático com elementos visuais)
MMMU: 85.0 (compreensão multimodal em nível universitário)
LiveCodeBench v6: 83.6 (geração de código em cenários reais)
AIME26: 91.3 (resolução de problemas matemáticos avançados)

Segundo a Alibaba, o Qwen3.5 supera o Claude Opus 4.5 em tarefas multimodais e entrega números competitivos contra o GPT-5.2 da OpenAI. Em benchmarks de visão específicos, o modelo fica atrás do Gemini 3 do Google — o que faz sentido dado o investimento histórico do Google em modelos visuais.

O ponto mais relevante para desenvolvedores não é necessariamente o modelo ser "o melhor" em todos os benchmarks, mas sim o fato de que esses resultados vêm de um modelo open-weight. Historicamente, modelos abertos ficavam uma ou duas gerações atrás dos proprietários. Essa diferença está encolhendo rapidamente.

Open-weight sob Apache 2.0: o que isso significa para devs

A decisão de licenciar o Qwen3.5 sob Apache 2.0 é estratégica e tem impacto direto no ecossistema de desenvolvimento.

Com Apache 2.0, desenvolvedores podem:

Fazer download dos pesos e rodar o modelo localmente ou em infraestrutura própria
Realizar fine-tuning para domínios específicos sem restrições de licença
Redistribuir versões modificadas comercialmente
Integrar o modelo em produtos proprietários sem obrigação de abrir o código

Isso coloca o Qwen3.5 no mesmo território do Llama (Meta) e Mistral, criando uma alternativa viável para empresas que não querem depender exclusivamente de APIs proprietárias da OpenAI ou Google.

Para quem já trabalha com frameworks como vllm, llama.cpp ou text-generation-inference, os pesos do Qwen3.5 podem ser baixados diretamente do Hugging Face e servidos em infraestrutura local. A arquitetura MoE com 17B de parâmetros ativos torna a inferência mais acessível do que modelos densos de tamanho similar.

# Exemplo: servindo Qwen3.5 com vLLM
pip install vllm
vllm serve Qwen/Qwen3.5-397B-A17B \
  --tensor-parallel-size 4 \
  --reasoning-parser deepseek_r1 \
  --max-model-len 65536

Implicações para quem trabalha com LLMs locais

O lançamento do Qwen3.5 reforça uma tendência que vem se consolidando em 2026: modelos open-weight estão alcançando paridade com modelos proprietários em muitas tarefas práticas.

Para desenvolvedores e empresas, isso abre algumas possibilidades concretas:

Redução de custos: em vez de pagar por token via API, rodar o modelo em GPUs próprias ou alugadas pode ser mais econômico para workloads de alto volume
Controle de dados: dados sensíveis nunca saem da infraestrutura da empresa, eliminando preocupações com privacidade e compliance
Customização profunda: fine-tuning com dados proprietários permite especializar o modelo para domínios específicos — algo limitado ou caro em APIs proprietárias
Latência previsível: sem depender de servidores externos, a latência é controlada pela infraestrutura local

A tendência para 2026, segundo analistas, é que SLMs (Small Language Models) fine-tuned se tornem o padrão para aplicações empresariais maduras. Modelos como o Qwen3.5 servem como base poderosa para esse tipo de especialização: você começa com um modelo generalista de alta capacidade e refina para seu caso de uso.

O ecossistema de ferramentas também está amadurecendo. Projetos como Ollama, LM Studio e Open WebUI facilitam o deploy local de modelos open-weight, reduzindo a barreira técnica para equipes que não têm expertise em infraestrutura de ML.

Conclusão

O Qwen3.5 da Alibaba não é apenas mais um modelo na lista — é um sinal claro de que a corrida dos LLMs open-weight está atingindo um nível de maturidade que desafia diretamente os modelos proprietários. Com 397B de parâmetros, arquitetura MoE eficiente, capacidade multimodal nativa e licença Apache 2.0, o modelo oferece uma combinação difícil de ignorar.

Para desenvolvedores que trabalham com IA, o momento é de avaliar o custo-benefício entre APIs proprietárias e deploy local de modelos abertos. A diferença de qualidade está diminuindo, enquanto a diferença de flexibilidade e controle continua favorecendo modelos open-weight. O Qwen3.5 é mais uma peça nesse tabuleiro — e uma peça bastante competitiva.

Qwen3.5: o modelo open-weight de 397B parâmetros que desafia GPT e Claude

O que é o Qwen3.5 e por que importa

Arquitetura MoE: 397B de parâmetros, 17B ativos

Benchmarks: como se compara com GPT, Claude e Gemini

Open-weight sob Apache 2.0: o que isso significa para devs

Implicações para quem trabalha com LLMs locais

Conclusão

Referências pesquisadas nesta publicação

92% dos devs usam IA para programar, mas menos da metade confia nos resultados

O que significam os benchmarks de IA que aparecem a cada lançamento de LLM

GPT-5.4 chega com computer use nativo e janela de 1M tokens