2025-10-20 03:37:35

Acabei de ver o SPIN-Bench publicado por @SentientAGI, que acaba de preencher a parte mais facilmente ignorada da avaliação de IA.

Muitos benchmarks apenas avaliam um único modelo para realizar tarefas rápidas e curtas, mas um sistema verdadeiramente inteligente deve ser capaz de fazer planejamento de longo prazo, cooperar em situações de incerteza e até entender o que os outros querem fazer. O SPIN-Bench organiza essas dificuldades através de "escadas de dificuldade controlável" e "interação multi-agente", permitindo que o progresso seja medido.

Por que se diz que é unificado?
—————————————————————————

SPIN-Bench é um conjunto de testes padronizado e um ambiente de simulação onde agentes inteligentes podem ser executados. Permite acessar sistematicamente três dimensões chave: quão complexas são as ações/estados, quão longo é o percurso da tarefa e quantos indivíduos precisam interagir.

Cobre quatro tipos de cenários representativos:

PDDL Planeamento: dado um objetivo e regras, planeie um plano de longo prazo viável. É necessário saber desmembrar o objetivo, registar as restrições e verificar se toda a cadeia pode ser percorrida.

Jogos de estratégia: não se pode apenas seguir o roteiro, é necessário pesquisar, avaliar e adaptar-se às jogadas do oponente em tempo real.

Cartas de cooperação: informações incompletas, comunicação limitada. O importante é cooperar com os companheiros de equipe, adivinhar informações ocultas e transmitir intenções com informações limitadas.

Cenário diplomático: há conflitos de interesses como em Diplomacy. É necessário saber propor, formar alianças, identificar desinformação, entre outros.

O lugar onde o modelo mais facilmente "perde a conexão"
—————————————————————————

LLM faz pesquisa, elabora planos curtos sem problemas, mas assim que precisa fazer raciocínio de múltiplos passos, enfrentar um espaço de estados maior e ainda considerar mais oponentes ou companheiros, o desempenho cai drasticamente.

Especialmente em tarefas que envolvem relações sociais, é necessário colaborar, insinuar e negociar.

O SPIN-Bench decompõe essas etapas. Localizando onde está o erro e por que ocorre, é possível melhorar de forma mais direcionada.

—————————————————————————

Quando conseguirmos medir de forma estável "quão profundo é o planejamento, quão boa é a colaboração, quão eficaz é a comunicação", a melhoria terá uma escala clara. @SentientAGI SPIN-Bench oferece uma régua padrão que pode apontar para a próxima oportunidade de突破.
Usar esta régua para otimizar o planejamento de longo prazo e o raciocínio social, a IA avançará ainda mais em direção a formas de inteligência mais gerais e confiáveis.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos

Recompensa
1
Comentar
Republicar
Partilhar

Comentar

0/400

Nenhum comentário

Tópicos em destaqueVer mais
#ETHReboundSoon?
13.9K Popularidade
#WhaleAdds$250MBTCLongs
11.6K Popularidade
#BigTokenUnlocksAhead
8.2K Popularidade
#FedHostsInnovationSummit
2.6K Popularidade
#ShowMyAlphaPoints
201.1K Popularidade

Gate Fun tendênciaVer mais
1GCATGCAT
LM:$1.2MTitulares:10581
2GDOGGdog
LM:$923.1KTitulares:7166
3芝麻开门芝麻开门
LM:$754.6KTitulares:130
4GMGMEME
LM:$110.9KTitulares:2791
5芝麻人生芝麻人生
LM:$95.3KTitulares:7333

Fixar