Acabei de ver o SPIN-Bench publicado por @SentientAGI, que acaba de preencher a parte mais facilmente ignorada da avaliação de IA.



Muitos benchmarks apenas avaliam um único modelo para realizar tarefas rápidas e curtas, mas um sistema verdadeiramente inteligente deve ser capaz de fazer planejamento de longo prazo, cooperar em situações de incerteza e até entender o que os outros querem fazer. O SPIN-Bench organiza essas dificuldades através de "escadas de dificuldade controlável" e "interação multi-agente", permitindo que o progresso seja medido.

Por que se diz que é unificado?
—————————————————————————

SPIN-Bench é um conjunto de testes padronizado e um ambiente de simulação onde agentes inteligentes podem ser executados. Permite acessar sistematicamente três dimensões chave: quão complexas são as ações/estados, quão longo é o percurso da tarefa e quantos indivíduos precisam interagir.

Cobre quatro tipos de cenários representativos:

PDDL Planeamento: dado um objetivo e regras, planeie um plano de longo prazo viável. É necessário saber desmembrar o objetivo, registar as restrições e verificar se toda a cadeia pode ser percorrida.

Jogos de estratégia: não se pode apenas seguir o roteiro, é necessário pesquisar, avaliar e adaptar-se às jogadas do oponente em tempo real.

Cartas de cooperação: informações incompletas, comunicação limitada. O importante é cooperar com os companheiros de equipe, adivinhar informações ocultas e transmitir intenções com informações limitadas.

Cenário diplomático: há conflitos de interesses como em Diplomacy. É necessário saber propor, formar alianças, identificar desinformação, entre outros.

O lugar onde o modelo mais facilmente "perde a conexão"
—————————————————————————

LLM faz pesquisa, elabora planos curtos sem problemas, mas assim que precisa fazer raciocínio de múltiplos passos, enfrentar um espaço de estados maior e ainda considerar mais oponentes ou companheiros, o desempenho cai drasticamente.

Especialmente em tarefas que envolvem relações sociais, é necessário colaborar, insinuar e negociar.

O SPIN-Bench decompõe essas etapas. Localizando onde está o erro e por que ocorre, é possível melhorar de forma mais direcionada.

—————————————————————————

Quando conseguirmos medir de forma estável "quão profundo é o planejamento, quão boa é a colaboração, quão eficaz é a comunicação", a melhoria terá uma escala clara. @SentientAGI SPIN-Bench oferece uma régua padrão que pode apontar para a próxima oportunidade de突破.
Usar esta régua para otimizar o planejamento de longo prazo e o raciocínio social, a IA avançará ainda mais em direção a formas de inteligência mais gerais e confiáveis.
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)