Acabei de ver o SPIN-Bench publicado por @SentientAGI, que acaba de preencher a parte mais facilmente ignorada da avaliação de IA.
Muitos benchmarks apenas avaliam um único modelo para realizar tarefas rápidas e curtas, mas um sistema verdadeiramente inteligente deve ser capaz de fazer planejamento de longo prazo, cooperar em situações de incerteza e até entender o que os outros querem fazer. O SPIN-Bench organiza essas dificuldades através de "escadas de dificuldade controlável" e "interação multi-agente", permitindo que o progresso seja medido.
Por que se diz que é unificado? —————————————————————————
SPIN-Bench é um conjunto de testes padronizado e um ambiente de simulação onde agentes inteligentes podem ser executados. Permite acessar sistematicamente três dimensões chave: quão complexas são as ações/estados, quão longo é o percurso da tarefa e quantos indivíduos precisam interagir.
Cobre quatro tipos de cenários representativos:
PDDL Planeamento: dado um objetivo e regras, planeie um plano de longo prazo viável. É necessário saber desmembrar o objetivo, registar as restrições e verificar se toda a cadeia pode ser percorrida.
Jogos de estratégia: não se pode apenas seguir o roteiro, é necessário pesquisar, avaliar e adaptar-se às jogadas do oponente em tempo real.
Cartas de cooperação: informações incompletas, comunicação limitada. O importante é cooperar com os companheiros de equipe, adivinhar informações ocultas e transmitir intenções com informações limitadas.
Cenário diplomático: há conflitos de interesses como em Diplomacy. É necessário saber propor, formar alianças, identificar desinformação, entre outros.
O lugar onde o modelo mais facilmente "perde a conexão" —————————————————————————
LLM faz pesquisa, elabora planos curtos sem problemas, mas assim que precisa fazer raciocínio de múltiplos passos, enfrentar um espaço de estados maior e ainda considerar mais oponentes ou companheiros, o desempenho cai drasticamente.
Especialmente em tarefas que envolvem relações sociais, é necessário colaborar, insinuar e negociar.
O SPIN-Bench decompõe essas etapas. Localizando onde está o erro e por que ocorre, é possível melhorar de forma mais direcionada.
—————————————————————————
Quando conseguirmos medir de forma estável "quão profundo é o planejamento, quão boa é a colaboração, quão eficaz é a comunicação", a melhoria terá uma escala clara. @SentientAGI SPIN-Bench oferece uma régua padrão que pode apontar para a próxima oportunidade de突破. Usar esta régua para otimizar o planejamento de longo prazo e o raciocínio social, a IA avançará ainda mais em direção a formas de inteligência mais gerais e confiáveis.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Acabei de ver o SPIN-Bench publicado por @SentientAGI, que acaba de preencher a parte mais facilmente ignorada da avaliação de IA.
Muitos benchmarks apenas avaliam um único modelo para realizar tarefas rápidas e curtas, mas um sistema verdadeiramente inteligente deve ser capaz de fazer planejamento de longo prazo, cooperar em situações de incerteza e até entender o que os outros querem fazer. O SPIN-Bench organiza essas dificuldades através de "escadas de dificuldade controlável" e "interação multi-agente", permitindo que o progresso seja medido.
Por que se diz que é unificado?
—————————————————————————
SPIN-Bench é um conjunto de testes padronizado e um ambiente de simulação onde agentes inteligentes podem ser executados. Permite acessar sistematicamente três dimensões chave: quão complexas são as ações/estados, quão longo é o percurso da tarefa e quantos indivíduos precisam interagir.
Cobre quatro tipos de cenários representativos:
PDDL Planeamento: dado um objetivo e regras, planeie um plano de longo prazo viável. É necessário saber desmembrar o objetivo, registar as restrições e verificar se toda a cadeia pode ser percorrida.
Jogos de estratégia: não se pode apenas seguir o roteiro, é necessário pesquisar, avaliar e adaptar-se às jogadas do oponente em tempo real.
Cartas de cooperação: informações incompletas, comunicação limitada. O importante é cooperar com os companheiros de equipe, adivinhar informações ocultas e transmitir intenções com informações limitadas.
Cenário diplomático: há conflitos de interesses como em Diplomacy. É necessário saber propor, formar alianças, identificar desinformação, entre outros.
O lugar onde o modelo mais facilmente "perde a conexão"
—————————————————————————
LLM faz pesquisa, elabora planos curtos sem problemas, mas assim que precisa fazer raciocínio de múltiplos passos, enfrentar um espaço de estados maior e ainda considerar mais oponentes ou companheiros, o desempenho cai drasticamente.
Especialmente em tarefas que envolvem relações sociais, é necessário colaborar, insinuar e negociar.
O SPIN-Bench decompõe essas etapas. Localizando onde está o erro e por que ocorre, é possível melhorar de forma mais direcionada.
—————————————————————————
Quando conseguirmos medir de forma estável "quão profundo é o planejamento, quão boa é a colaboração, quão eficaz é a comunicação", a melhoria terá uma escala clara. @SentientAGI SPIN-Bench oferece uma régua padrão que pode apontar para a próxima oportunidade de突破.
Usar esta régua para otimizar o planejamento de longo prazo e o raciocínio social, a IA avançará ainda mais em direção a formas de inteligência mais gerais e confiáveis.