Acabei de ver o SPIN-Bench publicado por @SentientAGI, que acaba de preencher a parte mais facilmente ignorada da avaliação de IA.



Muitos benchmarks apenas avaliam um único modelo para realizar tarefas rápidas e curtas, mas um sistema verdadeiramente inteligente deve ser capaz de fazer planejamento de longo prazo, cooperar em situações de incerteza e até entender o que os outros querem fazer. O SPIN-Bench organiza essas dificuldades através de "escadas de dificuldade controlável" e "interação multi-agente", permitindo que o progresso seja medido.

Por que se diz que é unificado?
—————————————————————————

SPIN-Bench é um conjunto de testes padronizado e um ambiente de simulação onde agentes inteligentes podem ser executados. Permite acessar sistematicamente três dimensões chave: quão complexas são as ações/estados, quão longo é o percurso da tarefa e quantos indivíduos precisam interagir.

Cobre quatro tipos de cenários representativos:

PDDL Planeamento: dado um objetivo e regras, planeie um plano de longo prazo viável. É necessário saber desmembrar o objetivo, registar as restrições e verificar se toda a cadeia pode ser percorrida.

Jogos de estratégia: não se pode apenas seguir o roteiro, é necessário pesquisar, avaliar e adaptar-se às jogadas do oponente em tempo real.

Cartas de cooperação: informações incompletas, comunicação limitada. O importante é cooperar com os companheiros de equipe, adivinhar informações ocultas e transmitir intenções com informações limitadas.

Cenário diplomático: há conflitos de interesses como em Diplomacy. É necessário saber propor, formar alianças, identificar desinformação, entre outros.

O lugar onde o modelo mais facilmente "perde a conexão"
—————————————————————————

LLM faz pesquisa, elabora planos curtos sem problemas, mas assim que precisa fazer raciocínio de múltiplos passos, enfrentar um espaço de estados maior e ainda considerar mais oponentes ou companheiros, o desempenho cai drasticamente.

Especialmente em tarefas que envolvem relações sociais, é necessário colaborar, insinuar e negociar.

O SPIN-Bench decompõe essas etapas. Localizando onde está o erro e por que ocorre, é possível melhorar de forma mais direcionada.

—————————————————————————

Quando conseguirmos medir de forma estável "quão profundo é o planejamento, quão boa é a colaboração, quão eficaz é a comunicação", a melhoria terá uma escala clara. @SentientAGI SPIN-Bench oferece uma régua padrão que pode apontar para a próxima oportunidade de突破.
Usar esta régua para otimizar o planejamento de longo prazo e o raciocínio social, a IA avançará ainda mais em direção a formas de inteligência mais gerais e confiáveis.
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)