O quadro de otimização automática por IA colocou o desempenho do terminal Haiku 4.5 em primeiro lugar: Lin Junyang afirma que esta é exatamente a mudança de "design de ambiente" que ele previu.

BlockBeatNews

De acordo com a monitorização da 1M AI News, investigadores da Stanford, do MIT e da empresa sul-coreana de videojogos KRAFTON publicaram o Meta-Harness, um método para um quadro de execução (harness) em que a IA otimiza automaticamente o processo. O harness é uma estrutura de “andaimes” que envolve o modelo e orienta as ações do Agent, incluindo a conceção de prompts, chamadas de ferramentas e gestão de contexto. Ao contrário dos quadros de execução escritos manualmente, o Meta-Harness permite que um Agent de codificação leia o código, os registos de execução e as pontuações de sucessivas estruturas de candidatos, iterando automaticamente para otimizar.

No benchmark de operações em terminal, o TerminalBench-2, o Meta-Harness elevou a taxa de sucesso do Claude Haiku 4.5 para 37,6%, superando o Goose (35,5%) e o Claude Code (27,5%), ficando em primeiro lugar entre todos os frameworks de execução do Haiku 4.5 que foram reportados. No Claude Opus 4.6, a taxa de sucesso foi de 76,4%, ficando em segundo.

O responsável técnico de Qianwen anterior, Lin Junyang, partilhou a publicação do autor do artigo e comentou: «“Modelo + framework de execução” já ultrapassou “apenas o modelo”. O desempenho do Agent é significativamente influenciado pelo desenho e pela qualidade do framework; eu de facto acredito que este é um rumo correto». Num artigo longo publicado por Lin Junyang a 27 de março (atualmente já removido), ele antecipou que o desenho de ambientes passaria de um projeto paralelo para uma categoria de produto de arranque verdadeiramente independente. O Meta-Harness validou esta perspetiva com dados experimentais: com o mesmo modelo, ao trocar para um conjunto de frameworks de execução otimizados por IA, a diferença de resultados pode chegar a 10 pontos percentuais.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários