Qwen3.6-27B lançamento de código aberto «Openclaw, Hermes preferidos»: desempenho de IA iguala Claude Opus 4.5, custo reduzido em 14 vezes

A série Qwen de Alibaba (Qwen) mais recente, Qwen3.6-27B, foi oficialmente open source na noite de 22 de abril de 2026. Este modelo denso de 27B foi avaliado no Terminal-Bench 2.0 com uma pontuação de 59.3, empatando com Claude 4.5 Opus, e usando menos de 1/14 dos parâmetros, superando a geração anterior de 397B MoE, que marcou 76.2 na SWE-bench Verified. O modelo completo tem 55.6 GB, e com quantização Q4_K_M reduzido para 16.8 GB, pode rodar em hardware de consumo, permitindo que frameworks locais como OpenClaw e Hermes Agent tenham uma verdadeira inteligência local utilizável pela primeira vez.
(Preâmbulo: sendo banido pela Anthropic, o OpenClaw recomenda aos usuários que usem API Keys ou optem por alternativas como Qwen, Kimi, etc.)
(Complemento: por que os EUA precisam de “censura” e confinamento em laboratórios para IA, enquanto a China aposta em modelos de código aberto?)

Índice deste artigo

Alternar

  • Resultados de Benchmark: três conclusões mais relevantes
  • Especificações: desempenho de centenas de bilhões de parâmetros em hardware de consumo
  • Por que o OpenClaw e o Hermes Agent usam um cérebro local?
  • Código aberto vs fechado: a estratégia da Alibaba e o cenário geopolítico

Na noite de 22 de abril de 2026, a equipe da Alibaba Qwen silenciosamente lançou uma bomba na Hugging Face: Qwen3.6-27B foi oficialmente open source, sob licença Apache 2.0, permitindo uso comercial livre. Parece uma notícia comum, mas seu significado é extraordinário — a arquitetura densa de 27B (não MoE), pela primeira vez, igualou o desempenho do modelo fechado de ponta da Anthropic, Claude 4.5 Opus, nos testes de agentes de terminal, e com um tamanho de apenas 55.6 GB, derrotou a geração anterior de 397B MoE, que exigia 807 GB de memória de vídeo para rodar completamente. Implantação local, agentes operáveis e hardware de consumo compatível — Qwen3.6-27B atende a todos esses critérios.

Resultados de Benchmark: três conclusões mais relevantes

A equipe Qwen selecionou 10 testes que refletem a capacidade real de programação de agentes, com os resultados de Qwen3.6-27B:

Benchmark
Qwen3.6-27B
Qwen3.5-27B
Qwen3.6-35B-A3B
Qwen3.5-397B-A17B
Claude 4.5 Opus
SWE-bench Verified
77.2
75.0
73.4
76.2
80.9
SWE-bench Pro
53.5
51.2
49.5
50.9
57.1
SWE-bench Multilingual
71.3
69.3
67.2
69.3
77.5
Terminal-Bench 2.0
59.3
41.6
51.5
52.5
59.3
SkillsBench Avg5
48.2
27.2
28.7
30.0
45.3
QwenWebBench
1487
1068
1397
1186
1536
NL2Repo
36.2
27.3
29.4
32.2
43.2
Claw-Eval Avg
72.4
64.3
68.7
70.7
76.6
Claw-Eval Pass^3
60.6
46.2
50.0
48.1
59.6
QwenClawBench
53.4
52.2
52.6
51.8
52.3

Três conclusões principais merecem destaque: Primeiro, Terminal-Bench 2.0 59.3 empata com Claude 4.5 Opus — esta é a primeira vez que um modelo denso de 27B alcança o desempenho de ponta em tarefas de agentes de terminal, enquanto a versão anterior de Qwen3.5-27B marcou apenas 41.6, uma melhoria de 17.7 pontos. Segundo, SWE-bench Verified 77.2 supera Qwen3.5-397B-A17B, que marcou 76.2 — o modelo denso de 27B supera a geração anterior de 397B MoE, com tamanho reduzido de 807 GB para 55.6 GB, uma redução de mais de 14 vezes. Terceiro, SkillsBench de 27.2 para 48.2 (+77%) e Claw-Eval Pass^3 de 59.6 para 60.6 — a maior atualização foi na consistência em múltiplas rodadas e passos, indicando que o modelo consegue executar tarefas complexas de agentes de forma mais estável e sem desvios.

No que diz respeito a conhecimento e raciocínio: MMLU-Pro 86.2, MMLU-Redux 93.5, GPQA Diamond 87.8, AIME 2026 94.1, LiveCodeBench v6 83.9, todos superando as versões anteriores com a mesma quantidade de parâmetros.

Especificações: desempenho de centenas de bilhões de parâmetros em hardware de consumo

Qwen3.6-27B é uma arquitetura totalmente densa, com 27B de parâmetros — não é MoE, mas parâmetros ativos completos a cada inferência. O comprimento de contexto nativo é 262.144 tokens, podendo ser expandido até 1.010.000 tokens (cerca de 1 milhão) com o plugin YaRN, ideal para análise de documentos longos ou compreensão de múltiplos repositórios. O modelo completo de alta precisão tem 55.6 GB; com quantização Q4_K_M, seu tamanho é reduzido para 16.8 GB, podendo ser carregado diretamente em Macs com 24 GB de VRAM ou GPUs de consumo. Licenciado sob Apache 2.0, permite uso comercial sem custos adicionais. Recomenda-se usar SGLang ≥0.5.10 ou vLLM ≥0.19.0 para implantação, com suporte também para KTransformers e HF Transformers. Além disso, Qwen3.6-27B integra um codificador de visão, suportando simultaneamente compreensão de imagens, textos e vídeos, não sendo um modelo puramente textual.

Por que o OpenClaw e o Hermes Agent usam um cérebro local?

O comunicado original destacou dois frameworks de agentes: OpenClaw e Hermes Agent. OpenClaw é uma aplicação popular de agente local semelhante ao Claude Code, que foi banida pela Anthropic no início de abril — após a Anthropic limitar contas por violação de termos, a equipe do OpenClaw recomendou o uso de API Keys ou a troca por modelos locais como Qwen ou Kimi. A abertura do Qwen3.6-27B atende exatamente a essa necessidade de alternativa: rodar localmente, alcançar desempenho equivalente ao Claude, licença Apache 2.0 para uso comercial — todos esses critérios são essenciais.

Hermes Agent, liderado pela NousResearch, é um framework de código aberto que enfatiza um ciclo de autoaprendizado de habilidades — executar, avaliar, extrair, refinar, recuperar — permitindo que o agente aprenda e armazene técnicas após cada tarefa, facilitando a reutilização em problemas similares. Enquanto o OpenClaw é mais intuitivo, Hermes foca na evolução autônoma de longo prazo, suportando integrações com NousPortal, OpenRouter, NVIDIA NIM, LM Studio, Ollama, entre outros. O desafio comum de ambos é rodar um modelo realmente potente localmente. Com o Qwen3.6-27B, o desempenho no Claw-Eval (avaliado especificamente para agentes de codificação) atingiu uma média de 72.4, com Pass^3 de 60.6, superando Claude 4.5 Opus, oferecendo uma opção viável para esses frameworks locais.

Código aberto versus fechado: a estratégia da Alibaba e o cenário geopolítico

A abertura do Qwen3.6-27B não é um evento isolado. Em 16 de abril, a Alibaba também open sourced Qwen3.6-35B-A3B (arquitetura MoE, 35B de parâmetros, 3B ativos). A abertura do modelo denso de 27B complementa a estratégia de permitir implantação completa localmente, sem fragmentação MoE; enquanto Qwen3.6-Plus e Qwen3.5-Omni permanecem fechados, com uso comercial via API na nuvem. Uma estratégia clara: usar open source para construir ecossistema e confiança, e modelos fechados para monetização de ponta.

No cenário mais amplo, essa mudança reflete a reversão na corrida de código aberto em IA entre China e EUA. Relatórios recentes indicam que o Meta, sob Zuckerberg, abandonou a estratégia de “abrir IA” e passou a usar o Qwen da Alibaba para treinar a IA paga Avocado — enquanto gigantes americanos reduzem o código aberto, os fabricantes chineses apostam fortemente na abertura. Essa dinâmica de reversão está se consolidando rapidamente. Para desenvolvedores e usuários que buscam implantação local, a questão deixou de ser “devo ou não abrir” e passou a ser “qual modelo open source é suficiente”, e o Qwen3.6-27B oferece uma resposta bastante clara neste momento.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar