Je viens de voir que @SentientAGI a publié SPIN-Bench, ce qui comble parfaitement un aspect souvent négligé dans l'évaluation de l'IA.
Beaucoup de références n'évaluent qu'un seul modèle pour des tâches rapides et simples, mais un système véritablement intelligent doit être capable de planifier à long terme, de collaborer dans l'incertitude, et même de comprendre ce que les autres veulent faire. SPIN-Bench organise ces défis à l'aide d'une "échelle de difficulté contrôlable" et d'"interactions multi-agents", permettant ainsi de mesurer les progrès.
Pourquoi dit-on qu'il est unifié ? —————————————————————————
SPIN-Bench est à la fois un ensemble de tests standardisé et un environnement de simulation pour agents intelligents. Il permet d'interroger systématiquement trois dimensions clés : la complexité des actions/états, la durée des tâches et le nombre d'individus avec lesquels il faut interagir.
Couvrir quatre catégories de scénarios représentatifs :
Planification PDDL : donné un objectif et des règles, planifiez un long plan réalisable. Il faut savoir décomposer les objectifs, se rappeler des contraintes et vérifier que l'ensemble de la chaîne est praticable.
Jeux d'échecs compétitifs : il ne suffit pas de suivre le scénario, il faut rechercher, évaluer et s'adapter aux mouvements de l'adversaire en temps voulu.
Cartes de coopération : informations incomplètes, communication limitée. L'essentiel réside dans la coopération avec les coéquipiers, deviner les informations cachées et transmettre des intentions avec des informations limitées.
Scène diplomatique : avoir des conflits d'intérêts comme dans Diplomacy. Il faut savoir proposer, s'allier, identifier les fausses informations, etc.
L'endroit où le modèle est le plus susceptible de "perdre le fil". —————————————————————————
LLM n'a pas de problème pour faire des recherches et établir de courts plans, mais dès qu'il s'agit de raisonner en plusieurs étapes, de faire face à un espace d'état plus vaste, tout en tenant compte de plus d'adversaires ou de coéquipiers, les performances chutent rapidement.
Surtout dans les tâches impliquant des relations sociales, il faut collaborer, suggérer et négocier.
SPIN-Bench décompose ces étapes. En identifiant où ça a mal tourné et pourquoi, il est possible d'apporter des améliorations plus ciblées.
—————————————————————————
Lorsque nous sommes en mesure de mesurer de manière stable la "profondeur de la planification, la qualité de la coordination, et l'efficacité de la communication", l'amélioration a un échelon clair. @SentientAGI SPIN-Bench fournit une règle standard qui peut indiquer la prochaine avancée. Utiliser cette règle pour optimiser la planification à long terme et le raisonnement social, l'IA se rapproche d'une forme d'intelligence plus générale et plus fiable.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Je viens de voir que @SentientAGI a publié SPIN-Bench, ce qui comble parfaitement un aspect souvent négligé dans l'évaluation de l'IA.
Beaucoup de références n'évaluent qu'un seul modèle pour des tâches rapides et simples, mais un système véritablement intelligent doit être capable de planifier à long terme, de collaborer dans l'incertitude, et même de comprendre ce que les autres veulent faire. SPIN-Bench organise ces défis à l'aide d'une "échelle de difficulté contrôlable" et d'"interactions multi-agents", permettant ainsi de mesurer les progrès.
Pourquoi dit-on qu'il est unifié ?
—————————————————————————
SPIN-Bench est à la fois un ensemble de tests standardisé et un environnement de simulation pour agents intelligents. Il permet d'interroger systématiquement trois dimensions clés : la complexité des actions/états, la durée des tâches et le nombre d'individus avec lesquels il faut interagir.
Couvrir quatre catégories de scénarios représentatifs :
Planification PDDL : donné un objectif et des règles, planifiez un long plan réalisable. Il faut savoir décomposer les objectifs, se rappeler des contraintes et vérifier que l'ensemble de la chaîne est praticable.
Jeux d'échecs compétitifs : il ne suffit pas de suivre le scénario, il faut rechercher, évaluer et s'adapter aux mouvements de l'adversaire en temps voulu.
Cartes de coopération : informations incomplètes, communication limitée. L'essentiel réside dans la coopération avec les coéquipiers, deviner les informations cachées et transmettre des intentions avec des informations limitées.
Scène diplomatique : avoir des conflits d'intérêts comme dans Diplomacy. Il faut savoir proposer, s'allier, identifier les fausses informations, etc.
L'endroit où le modèle est le plus susceptible de "perdre le fil".
—————————————————————————
LLM n'a pas de problème pour faire des recherches et établir de courts plans, mais dès qu'il s'agit de raisonner en plusieurs étapes, de faire face à un espace d'état plus vaste, tout en tenant compte de plus d'adversaires ou de coéquipiers, les performances chutent rapidement.
Surtout dans les tâches impliquant des relations sociales, il faut collaborer, suggérer et négocier.
SPIN-Bench décompose ces étapes. En identifiant où ça a mal tourné et pourquoi, il est possible d'apporter des améliorations plus ciblées.
—————————————————————————
Lorsque nous sommes en mesure de mesurer de manière stable la "profondeur de la planification, la qualité de la coordination, et l'efficacité de la communication", l'amélioration a un échelon clair. @SentientAGI SPIN-Bench fournit une règle standard qui peut indiquer la prochaine avancée.
Utiliser cette règle pour optimiser la planification à long terme et le raisonnement social, l'IA se rapproche d'une forme d'intelligence plus générale et plus fiable.