Acabo de ver que @SentientAGI lanzó SPIN-Bench, que justo complementa la parte más fácil de pasar por alto en la evaluación de IA.
Muchos benchmarks solo evalúan un solo modelo para hacer tareas rápidas y cortas, pero un sistema realmente inteligente debe ser capaz de hacer planificación a largo plazo, colaborar en la incertidumbre e incluso entender lo que otros quieren hacer. SPIN-Bench organiza estas dificultades utilizando "escalones de dificultad controlable" y "interacción multiagente" para que el progreso pueda ser medido.
¿Por qué se dice que es unificado? —————————————————————————
SPIN-Bench es tanto un conjunto de pruebas estandarizado como un entorno simulado en el que se pueden ejecutar agentes inteligentes. Puede invocar sistemáticamente tres dimensiones clave: cuán complejas son las acciones/estados, cuánto tiempo debe durar la tarea y cuántos individuos deben interactuar.
Cubriendo cuatro tipos de escenarios representativos:
Planificación PDDL: dado un objetivo y reglas, planificar un plan a largo plazo viable. Debe ser capaz de descomponer objetivos, recordar restricciones y verificar que toda la cadena se pueda recorrer.
Juegos de estrategia: no se puede seguir solo el guion, se necesita buscar, evaluar y adaptarse a las jugadas del oponente a tiempo.
Tarjeta de cooperación: información incompleta, comunicación limitada. La clave está en colaborar con los compañeros de equipo, adivinar información oculta y transmitir intenciones con información limitada.
Escenario diplomático: hay conflictos de intereses como en Diplomacy. Debes saber proponer, formar alianzas, identificar desinformación, etc.
El lugar donde el modelo es más propenso a "caer". —————————————————————————
LLM no tiene problemas para buscar información y hacer planes cortos, pero una vez que necesita realizar razonamientos múltiples, enfrentar un espacio de estado más grande y considerar a más oponentes o compañeros, su rendimiento se desploma drásticamente.
Especialmente en tareas que involucran relaciones sociales, es necesario colaborar, insinuar y negociar.
SPIN-Bench descompone estos pasos. Localizar dónde está el error y por qué ocurrió permitirá mejorar de manera más específica.
—————————————————————————
Cuando podemos medir de manera estable "cuán profundo es el plan, cuán bien se coordina y cuán efectiva es la comunicación", la mejora también tiene una escala clara. @SentientAGI SPIN-Bench proporciona una regla estándar que puede señalar el próximo punto de ruptura. Usar esta regla para optimizar la planificación a largo plazo y el razonamiento social hará que la IA avance hacia formas de inteligencia más generales y confiables.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Acabo de ver que @SentientAGI lanzó SPIN-Bench, que justo complementa la parte más fácil de pasar por alto en la evaluación de IA.
Muchos benchmarks solo evalúan un solo modelo para hacer tareas rápidas y cortas, pero un sistema realmente inteligente debe ser capaz de hacer planificación a largo plazo, colaborar en la incertidumbre e incluso entender lo que otros quieren hacer. SPIN-Bench organiza estas dificultades utilizando "escalones de dificultad controlable" y "interacción multiagente" para que el progreso pueda ser medido.
¿Por qué se dice que es unificado?
—————————————————————————
SPIN-Bench es tanto un conjunto de pruebas estandarizado como un entorno simulado en el que se pueden ejecutar agentes inteligentes. Puede invocar sistemáticamente tres dimensiones clave: cuán complejas son las acciones/estados, cuánto tiempo debe durar la tarea y cuántos individuos deben interactuar.
Cubriendo cuatro tipos de escenarios representativos:
Planificación PDDL: dado un objetivo y reglas, planificar un plan a largo plazo viable. Debe ser capaz de descomponer objetivos, recordar restricciones y verificar que toda la cadena se pueda recorrer.
Juegos de estrategia: no se puede seguir solo el guion, se necesita buscar, evaluar y adaptarse a las jugadas del oponente a tiempo.
Tarjeta de cooperación: información incompleta, comunicación limitada. La clave está en colaborar con los compañeros de equipo, adivinar información oculta y transmitir intenciones con información limitada.
Escenario diplomático: hay conflictos de intereses como en Diplomacy. Debes saber proponer, formar alianzas, identificar desinformación, etc.
El lugar donde el modelo es más propenso a "caer".
—————————————————————————
LLM no tiene problemas para buscar información y hacer planes cortos, pero una vez que necesita realizar razonamientos múltiples, enfrentar un espacio de estado más grande y considerar a más oponentes o compañeros, su rendimiento se desploma drásticamente.
Especialmente en tareas que involucran relaciones sociales, es necesario colaborar, insinuar y negociar.
SPIN-Bench descompone estos pasos. Localizar dónde está el error y por qué ocurrió permitirá mejorar de manera más específica.
—————————————————————————
Cuando podemos medir de manera estable "cuán profundo es el plan, cuán bien se coordina y cuán efectiva es la comunicación", la mejora también tiene una escala clara. @SentientAGI SPIN-Bench proporciona una regla estándar que puede señalar el próximo punto de ruptura.
Usar esta regla para optimizar la planificación a largo plazo y el razonamiento social hará que la IA avance hacia formas de inteligencia más generales y confiables.