Acabo de ver que @SentientAGI lanzó SPIN-Bench, que justo complementa la parte más fácil de pasar por alto en la evaluación de IA.



Muchos benchmarks solo evalúan un solo modelo para hacer tareas rápidas y cortas, pero un sistema realmente inteligente debe ser capaz de hacer planificación a largo plazo, colaborar en la incertidumbre e incluso entender lo que otros quieren hacer. SPIN-Bench organiza estas dificultades utilizando "escalones de dificultad controlable" y "interacción multiagente" para que el progreso pueda ser medido.

¿Por qué se dice que es unificado?
—————————————————————————

SPIN-Bench es tanto un conjunto de pruebas estandarizado como un entorno simulado en el que se pueden ejecutar agentes inteligentes. Puede invocar sistemáticamente tres dimensiones clave: cuán complejas son las acciones/estados, cuánto tiempo debe durar la tarea y cuántos individuos deben interactuar.

Cubriendo cuatro tipos de escenarios representativos:

Planificación PDDL: dado un objetivo y reglas, planificar un plan a largo plazo viable. Debe ser capaz de descomponer objetivos, recordar restricciones y verificar que toda la cadena se pueda recorrer.

Juegos de estrategia: no se puede seguir solo el guion, se necesita buscar, evaluar y adaptarse a las jugadas del oponente a tiempo.

Tarjeta de cooperación: información incompleta, comunicación limitada. La clave está en colaborar con los compañeros de equipo, adivinar información oculta y transmitir intenciones con información limitada.

Escenario diplomático: hay conflictos de intereses como en Diplomacy. Debes saber proponer, formar alianzas, identificar desinformación, etc.

El lugar donde el modelo es más propenso a "caer".
—————————————————————————

LLM no tiene problemas para buscar información y hacer planes cortos, pero una vez que necesita realizar razonamientos múltiples, enfrentar un espacio de estado más grande y considerar a más oponentes o compañeros, su rendimiento se desploma drásticamente.

Especialmente en tareas que involucran relaciones sociales, es necesario colaborar, insinuar y negociar.

SPIN-Bench descompone estos pasos. Localizar dónde está el error y por qué ocurrió permitirá mejorar de manera más específica.

—————————————————————————

Cuando podemos medir de manera estable "cuán profundo es el plan, cuán bien se coordina y cuán efectiva es la comunicación", la mejora también tiene una escala clara. @SentientAGI SPIN-Bench proporciona una regla estándar que puede señalar el próximo punto de ruptura.
Usar esta regla para optimizar la planificación a largo plazo y el razonamiento social hará que la IA avance hacia formas de inteligencia más generales y confiables.
Ver originales
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)