2025-10-20 03:37:35

Acabei de ver o SPIN-Bench publicado por @SentientAGI, que acaba de preencher a parte mais facilmente ignorada da avaliação de IA.

Muitos benchmarks apenas avaliam um único modelo para realizar tarefas rápidas e curtas, mas um sistema verdadeiramente inteligente deve ser capaz de fazer planejamento de longo prazo, cooperar em situações de incerteza e até entender o que os outros querem fazer. O SPIN-Bench organiza essas dificuldades através de "escadas de dificuldade controlável" e "interação multi-agente", permitindo que o progresso seja medido.

Por que se diz que é unificado?
—————————————————————————

SPIN-Bench é um conjunto de testes padronizado e um ambiente de simulação onde agentes inteligentes podem ser executados. Permite acessar sistematicamente três dimensões chave: quão complexas são as ações/estados, quão longo é o percurso da tarefa e quantos indivíduos precisam interagir.

Cobre quatro tipos de cenários representativos:

PDDL Planeamento: dado um objetivo e regras, planeie um plano de longo prazo viável. É necessário saber desmembrar o objetivo, registar as restrições e verificar se toda a cadeia pode ser percorrida.

Jogos de estratégia: não se pode apenas seguir o roteiro, é necessário pesquisar, avaliar e adaptar-se às jogadas do oponente em tempo real.

Cartas de cooperação: informações incompletas, comunicação limitada. O importante é cooperar com os companheiros de equipe, adivinhar informações ocultas e transmitir intenções com informações limitadas.

Cenário diplomático: há conflitos de interesses como em Diplomacy. É necessário saber propor, formar alianças, identificar desinformação, entre outros.

O lugar onde o modelo mais facilmente "perde a conexão"
—————————————————————————

LLM faz pesquisa, elabora planos curtos sem problemas, mas assim que precisa fazer raciocínio de múltiplos passos, enfrentar um espaço de estados maior e ainda considerar mais oponentes ou companheiros, o desempenho cai drasticamente.

Especialmente em tarefas que envolvem relações sociais, é necessário colaborar, insinuar e negociar.

O SPIN-Bench decompõe essas etapas. Localizando onde está o erro e por que ocorre, é possível melhorar de forma mais direcionada.

—————————————————————————

Quando conseguirmos medir de forma estável "quão profundo é o planejamento, quão boa é a colaboração, quão eficaz é a comunicação", a melhoria terá uma escala clara. @SentientAGI SPIN-Bench oferece uma régua padrão que pode apontar para a próxima oportunidade de突破.
Usar esta régua para otimizar o planejamento de longo prazo e o raciocínio social, a IA avançará ainda mais em direção a formas de inteligência mais gerais e confiáveis.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

1 Curtidas

Recompensa
1
Comentário
Repostar
Compartilhar

Comentário

0/400

Sem comentários

TendênciasVer projetos
#ETHReboundSoon?
16K Popularidade
#WhaleAdds$250MBTCLongs
13.1K Popularidade
#BigTokenUnlocksAhead
8.9K Popularidade
#FedHostsInnovationSummit
2.5K Popularidade
#ShowMyAlphaPoints
201.1K Popularidade

Em alta na Gate FunVer projetos
1GDOGGdog
Cap. de M.:$909.1KHolders:7166
2GCATGCAT
Cap. de M.:$1.1MHolders:10575
3芝麻开门芝麻开门
Cap. de M.:$856KHolders:130
4GMGMEME
Cap. de M.:$112.9KHolders:2790
5芝麻人生芝麻人生
Cap. de M.:$109KHolders:7329

Marcar

sitemap