¡El razonamiento de GPT-4 es más humano! La Academia de Ciencias de China propuso "comunicación pensante", el pensamiento analógico supera por completo a CoT, plug and play
Hoy en día, han surgido modelos de redes neuronales gigantes como GPT-4 y PaLM que han demostrado sorprendentes capacidades de aprendizaje con pocas muestras.
Si se les dan indicaciones sencillas, pueden razonar sobre un texto, escribir historias, responder preguntas, programar…
Sin embargo, el LLM a menudo pierde frente a los humanos en tareas de razonamiento complejas de varios pasos y lucha en vano.
En este sentido, investigadores de la Academia China de Ciencias y la Universidad de Yale propusieron un nuevo marco de “propagación del pensamiento” que puede mejorar el razonamiento de los LLM a través del “pensamiento analógico”.
Dirección del papel:
La “difusión del pensamiento” se inspira en la cognición humana, es decir, cuando nos encontramos con un problema nuevo, a menudo lo comparamos con problemas similares que ya hemos resuelto para derivar estrategias.
Por lo tanto, el núcleo de este método es permitir que LLM explore problemas “similares” relacionados con la entrada antes de resolver el problema de entrada.
Por último, sus soluciones se pueden utilizar de forma inmediata o extraer información para una planificación útil.
Es previsible que la “comunicación pensante” esté proponiendo nuevas ideas para las limitaciones inherentes de las capacidades lógicas de LLM, permitiendo que modelos grandes utilicen “analogía” para resolver problemas como los humanos.
Razonamiento de varios pasos LLM, derrotado por los humanos
Es obvio que LLM es bueno en el razonamiento básico basado en indicaciones, pero todavía tiene dificultades cuando se trata de problemas complejos de varios pasos, como la optimización y la planificación.
Los humanos, por otro lado, recurren a la intuición de experiencias similares para resolver nuevos problemas.
Los modelos grandes no pueden hacer esto debido a sus limitaciones inherentes.
Debido a que el conocimiento de LLM proviene completamente de los patrones en los datos de capacitación, no puede comprender verdaderamente el lenguaje o los conceptos. Por tanto, como modelos estadísticos, resulta difícil realizar generalizaciones combinatorias complejas.
Lo más importante es que LLM carece de capacidad de razonamiento sistemático y no puede razonar paso a paso como los humanos para resolver problemas desafiantes.
Además, el razonamiento de los modelos grandes es local y “miope”, por lo que a LLM le resulta difícil encontrar la mejor solución y mantener la coherencia del razonamiento durante un largo período de tiempo.
En resumen, las deficiencias de los grandes modelos en la prueba matemática, la planificación estratégica y el razonamiento lógico se derivan principalmente de dos cuestiones centrales:
**- Incapacidad para reutilizar conocimientos de experiencias anteriores. **
Los seres humanos acumulan conocimientos e intuición reutilizables a partir de la práctica que ayudan a resolver nuevos problemas. Por el contrario, LLM aborda cada problema “desde cero” y no toma prestado de soluciones anteriores.
**- Errores compuestos en razonamiento de varios pasos. **
Los humanos monitorean sus propias cadenas de razonamiento y modifican los pasos iniciales cuando es necesario. Pero los errores cometidos por LLM en las primeras etapas del razonamiento se amplifican porque llevan el razonamiento posterior por el camino equivocado.
Las debilidades anteriores obstaculizan seriamente la aplicación de LLM para abordar desafíos complejos que requieren optimización global o planificación a largo plazo.
En este sentido, los investigadores han propuesto una comunicación de pensamiento de solución completamente nueva.
Marco TP
A través del pensamiento analógico, LLM puede razonar más como los humanos.
Según los investigadores, el razonamiento desde cero no puede reutilizar los conocimientos obtenidos al resolver problemas similares y los errores se acumularán en las etapas intermedias de razonamiento.
La “difusión del pensamiento” puede explorar problemas similares relacionados con el problema de entrada y obtener inspiración de soluciones a problemas similares.
La siguiente figura muestra la comparación entre la “propagación del pensamiento” (TP) y otras tecnologías representativas. Para el problema de entrada p, IO, CoT y ToT razonarán desde cero para llegar a la solución s.
En concreto, el TP incluye tres etapas:
**1. Haga preguntas similares: **LLM genera un conjunto de preguntas similares que tienen similitudes con la pregunta de entrada a través de indicaciones. Esto guiará al modelo para recuperar experiencias previas potencialmente relevantes.
** 2. Resuelva problemas similares: ** Deje que LLM resuelva cada problema similar a través de la tecnología de indicaciones existente, como CoT.
**3. Resumir soluciones: **Existen dos enfoques diferentes: inferir directamente nuevas soluciones al problema de entrada basándose en soluciones análogas y derivar planes o estrategias de alto nivel comparando soluciones análogas al problema de entrada.
Esto permite que los modelos grandes reutilicen experiencias y heurísticas previas, y también cotejen su razonamiento inicial con soluciones analógicas para refinar esas soluciones.
Vale la pena mencionar que la “propagación del pensamiento” no tiene nada que ver con el modelo y puede realizar un solo paso de resolución de problemas de acuerdo con cualquier método rápido.
La novedad clave de este método es estimular el pensamiento analógico del LLM para guiar procesos de razonamiento complejos.
Que la “comunicación pensante” pueda hacer que LLM se parezca más a un ser humano depende de los resultados reales.
Investigadores de la Academia China de Ciencias y de Yale realizaron la evaluación en 3 tareas:
**- Razonamiento de la ruta más corta: **La necesidad de encontrar la mejor ruta entre los nodos en un gráfico requiere planificación y búsqueda global. Incluso en gráficos simples, las técnicas estándar fallan.
**- Escritura creativa: ** Generar historias coherentes y creativas es un desafío abierto. Cuando se le dan pautas generales de alto nivel, el LLM a menudo pierde consistencia o lógica.
- Planificación de agentes de LLM: los agentes de LLM que interactúan con entornos textuales tuvieron problemas con estrategias a largo plazo. Sus planes a menudo “se desvían” o se atascan en ciclos.
Razonamiento del camino más corto
En la tarea de razonamiento del camino más corto, los problemas encontrados por los métodos existentes no se pueden resolver.
Aunque el gráfico en (a) es muy simple, dado que la inferencia comienza desde 0, estos métodos solo permiten a LLM encontrar soluciones subóptimas (b, c) o incluso visitar repetidamente el nodo intermedio (d).
El siguiente es un ejemplo de combinación de TP y ToT.
En comparación con la línea de base, el rendimiento de TP en el procesamiento de la tarea de ruta más corta mejora significativamente en un 12 %, generando rutas más cortas óptimas y efectivas.
Además, debido al OLR más bajo, la ruta efectiva generada por TP es la más cercana a la ruta óptima en comparación con la línea de base.
Al mismo tiempo, los investigadores estudiaron más a fondo el impacto del número de capas de TP en la complejidad y el rendimiento de la tarea de ruta más corta.
En diferentes configuraciones, el costo del token del TP de capa 1 es similar al de ToT. Sin embargo, Layer 1 TP ha logrado un rendimiento muy competitivo a la hora de encontrar el camino más corto óptimo.
Además, la ganancia de rendimiento del TP de capa 1 también es muy significativa en comparación con el TP de capa 0 (IO). La Figura 5 (a) muestra el aumento en el costo del token para el TP de capa 2.
Escritura creativa
La Tabla 2 a continuación muestra el rendimiento de TP y la línea de base en GPT-3.5 y GPT-4. En términos de consistencia, TP supera la línea de base. Además, en estudios de usuarios, TP aumentó la preferencia humana en la escritura creativa en un 13%.
Planificación del agente LLM
En la evaluación de la tercera tarea, los investigadores utilizaron el conjunto de juegos ALFWorld para crear una instancia de la tarea de planificación del agente LLM en 134 entornos.
TP aumenta la tasa de finalización de tareas en un 15% en la planificación de agentes LLM. Esto demuestra la superioridad del TP reflexivo para una planificación exitosa al completar tareas similares.
Los resultados experimentales anteriores muestran que la “propagación del pensamiento” se puede generalizar a una variedad de tareas de razonamiento diferentes y funciona bien en todas estas tareas.
Claves para mejorar la inferencia LLM
El modelo de “propagación del pensamiento” proporciona una nueva tecnología para el razonamiento complejo de LLM.
El pensamiento analógico es un sello distintivo de las habilidades humanas para resolver problemas y puede generar una variedad de ventajas sistémicas, como una búsqueda y corrección de errores más eficientes.
De manera similar, LLM también puede superar mejor sus propias debilidades, como la falta de conocimiento reutilizable y la cascada de errores locales, al impulsar el pensamiento analógico.
Sin embargo, existen algunas limitaciones a estos hallazgos.
Generar preguntas de analogía útiles de manera eficiente no es fácil, y las cadenas más largas de caminos de razonamiento analógico pueden resultar difíciles de manejar. Al mismo tiempo, sigue siendo difícil controlar y coordinar cadenas de razonamiento de varios pasos.
Sin embargo, la “propagación del pensamiento” todavía nos proporciona un método interesante para resolver creativamente los defectos de razonamiento del LLM.
Con un mayor desarrollo, el pensamiento analógico puede hacer que el razonamiento de LLM sea aún más poderoso. Y esto también señala el camino para lograr un razonamiento más parecido al humano en modelos de lenguaje grandes.
Sobre el Autor
** Corrió **
Es profesor en el Laboratorio Nacional Experimental Clave de Reconocimiento de Patrones del Instituto de Automatización, la Academia de Ciencias de China y la Academia de Ciencias de la Universidad de China, miembro de la IAPR y miembro senior del IEEE.
Anteriormente, obtuvo su licenciatura y maestría en la Universidad Tecnológica de Dalian y su doctorado en el Instituto de Automatización de la Academia China de Ciencias en 2009.
Sus intereses de investigación son los algoritmos biométricos (reconocimiento y síntesis de rostros, reconocimiento de iris, reidentificación de personas), aprendizaje de representación (redes de preentrenamiento que utilizan aprendizaje débil/autosupervisado o de transferencia), aprendizaje generativo (modelos generativos, generación de imágenes, traducción de imágenes). ).
Ha publicado más de 200 artículos en revistas y conferencias internacionales, incluidas revistas internacionales famosas como IEEE TPAMI, IEEE TIP, IEEE TIFS, IEEE TNN e IEEE TCSVT, así como conferencias internacionales de primer nivel como CVPR, ICCV, ECCV y NeurIPS.
Es miembro de los consejos editoriales de IEEE TIP, IEEE TBIOM y Pattern Recognition, y se ha desempeñado como presidente regional de conferencias internacionales como CVPR, ECCV, NeurIPS, ICML, ICPR e IJCAI.
Junchi Yu(俞UN驰)
Yu Junchi es un estudiante de doctorado de cuarto año en el Instituto de Automatización de la Academia de Ciencias de China y su supervisor es el profesor Heran.
Anteriormente, realizó una pasantía en el Laboratorio de Inteligencia Artificial de Tencent y trabajó con el Dr. Tingyang Xu, el Dr. Yu Rong, el Dr. Yatao Bian y el profesor Junzhou Huang. Actualmente, es un estudiante de intercambio en el Departamento de Ciencias de la Computación de la Universidad de Yale, estudiando con el profesor Rex Ying.
Su objetivo es desarrollar métodos Trustworthy Graph Learning (TwGL) con buena interpretabilidad y portabilidad y explorar sus aplicaciones en bioquímica.
Referencias:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡El razonamiento de GPT-4 es más humano! La Academia de Ciencias de China propuso "comunicación pensante", el pensamiento analógico supera por completo a CoT, plug and play
Fuente original: Xinzhiyuan
Hoy en día, han surgido modelos de redes neuronales gigantes como GPT-4 y PaLM que han demostrado sorprendentes capacidades de aprendizaje con pocas muestras.
Si se les dan indicaciones sencillas, pueden razonar sobre un texto, escribir historias, responder preguntas, programar…
Sin embargo, el LLM a menudo pierde frente a los humanos en tareas de razonamiento complejas de varios pasos y lucha en vano.
En este sentido, investigadores de la Academia China de Ciencias y la Universidad de Yale propusieron un nuevo marco de “propagación del pensamiento” que puede mejorar el razonamiento de los LLM a través del “pensamiento analógico”.
La “difusión del pensamiento” se inspira en la cognición humana, es decir, cuando nos encontramos con un problema nuevo, a menudo lo comparamos con problemas similares que ya hemos resuelto para derivar estrategias.
Por lo tanto, el núcleo de este método es permitir que LLM explore problemas “similares” relacionados con la entrada antes de resolver el problema de entrada.
Por último, sus soluciones se pueden utilizar de forma inmediata o extraer información para una planificación útil.
Es previsible que la “comunicación pensante” esté proponiendo nuevas ideas para las limitaciones inherentes de las capacidades lógicas de LLM, permitiendo que modelos grandes utilicen “analogía” para resolver problemas como los humanos.
Razonamiento de varios pasos LLM, derrotado por los humanos
Es obvio que LLM es bueno en el razonamiento básico basado en indicaciones, pero todavía tiene dificultades cuando se trata de problemas complejos de varios pasos, como la optimización y la planificación.
Los humanos, por otro lado, recurren a la intuición de experiencias similares para resolver nuevos problemas.
Los modelos grandes no pueden hacer esto debido a sus limitaciones inherentes.
Debido a que el conocimiento de LLM proviene completamente de los patrones en los datos de capacitación, no puede comprender verdaderamente el lenguaje o los conceptos. Por tanto, como modelos estadísticos, resulta difícil realizar generalizaciones combinatorias complejas.
Además, el razonamiento de los modelos grandes es local y “miope”, por lo que a LLM le resulta difícil encontrar la mejor solución y mantener la coherencia del razonamiento durante un largo período de tiempo.
En resumen, las deficiencias de los grandes modelos en la prueba matemática, la planificación estratégica y el razonamiento lógico se derivan principalmente de dos cuestiones centrales:
**- Incapacidad para reutilizar conocimientos de experiencias anteriores. **
Los seres humanos acumulan conocimientos e intuición reutilizables a partir de la práctica que ayudan a resolver nuevos problemas. Por el contrario, LLM aborda cada problema “desde cero” y no toma prestado de soluciones anteriores.
**- Errores compuestos en razonamiento de varios pasos. **
Los humanos monitorean sus propias cadenas de razonamiento y modifican los pasos iniciales cuando es necesario. Pero los errores cometidos por LLM en las primeras etapas del razonamiento se amplifican porque llevan el razonamiento posterior por el camino equivocado.
Las debilidades anteriores obstaculizan seriamente la aplicación de LLM para abordar desafíos complejos que requieren optimización global o planificación a largo plazo.
En este sentido, los investigadores han propuesto una comunicación de pensamiento de solución completamente nueva.
Marco TP
A través del pensamiento analógico, LLM puede razonar más como los humanos.
Según los investigadores, el razonamiento desde cero no puede reutilizar los conocimientos obtenidos al resolver problemas similares y los errores se acumularán en las etapas intermedias de razonamiento.
La “difusión del pensamiento” puede explorar problemas similares relacionados con el problema de entrada y obtener inspiración de soluciones a problemas similares.
**1. Haga preguntas similares: **LLM genera un conjunto de preguntas similares que tienen similitudes con la pregunta de entrada a través de indicaciones. Esto guiará al modelo para recuperar experiencias previas potencialmente relevantes.
** 2. Resuelva problemas similares: ** Deje que LLM resuelva cada problema similar a través de la tecnología de indicaciones existente, como CoT.
**3. Resumir soluciones: **Existen dos enfoques diferentes: inferir directamente nuevas soluciones al problema de entrada basándose en soluciones análogas y derivar planes o estrategias de alto nivel comparando soluciones análogas al problema de entrada.
Esto permite que los modelos grandes reutilicen experiencias y heurísticas previas, y también cotejen su razonamiento inicial con soluciones analógicas para refinar esas soluciones.
Vale la pena mencionar que la “propagación del pensamiento” no tiene nada que ver con el modelo y puede realizar un solo paso de resolución de problemas de acuerdo con cualquier método rápido.
La novedad clave de este método es estimular el pensamiento analógico del LLM para guiar procesos de razonamiento complejos.
Que la “comunicación pensante” pueda hacer que LLM se parezca más a un ser humano depende de los resultados reales.
Investigadores de la Academia China de Ciencias y de Yale realizaron la evaluación en 3 tareas:
**- Razonamiento de la ruta más corta: **La necesidad de encontrar la mejor ruta entre los nodos en un gráfico requiere planificación y búsqueda global. Incluso en gráficos simples, las técnicas estándar fallan.
**- Escritura creativa: ** Generar historias coherentes y creativas es un desafío abierto. Cuando se le dan pautas generales de alto nivel, el LLM a menudo pierde consistencia o lógica.
- Planificación de agentes de LLM: los agentes de LLM que interactúan con entornos textuales tuvieron problemas con estrategias a largo plazo. Sus planes a menudo “se desvían” o se atascan en ciclos.
Razonamiento del camino más corto
En la tarea de razonamiento del camino más corto, los problemas encontrados por los métodos existentes no se pueden resolver.
Aunque el gráfico en (a) es muy simple, dado que la inferencia comienza desde 0, estos métodos solo permiten a LLM encontrar soluciones subóptimas (b, c) o incluso visitar repetidamente el nodo intermedio (d).
ToT (b) no puede resolver el problema en (a) debido a la acumulación de errores en los pasos intermedios de razonamiento. Basándose en soluciones a problemas similares, TP © refina la solución subóptima inicial y finalmente encuentra la solución óptima.
Además, debido al OLR más bajo, la ruta efectiva generada por TP es la más cercana a la ruta óptima en comparación con la línea de base.
En diferentes configuraciones, el costo del token del TP de capa 1 es similar al de ToT. Sin embargo, Layer 1 TP ha logrado un rendimiento muy competitivo a la hora de encontrar el camino más corto óptimo.
Además, la ganancia de rendimiento del TP de capa 1 también es muy significativa en comparación con el TP de capa 0 (IO). La Figura 5 (a) muestra el aumento en el costo del token para el TP de capa 2.
Escritura creativa
La Tabla 2 a continuación muestra el rendimiento de TP y la línea de base en GPT-3.5 y GPT-4. En términos de consistencia, TP supera la línea de base. Además, en estudios de usuarios, TP aumentó la preferencia humana en la escritura creativa en un 13%.
Planificación del agente LLM
En la evaluación de la tercera tarea, los investigadores utilizaron el conjunto de juegos ALFWorld para crear una instancia de la tarea de planificación del agente LLM en 134 entornos.
TP aumenta la tasa de finalización de tareas en un 15% en la planificación de agentes LLM. Esto demuestra la superioridad del TP reflexivo para una planificación exitosa al completar tareas similares.
Claves para mejorar la inferencia LLM
El modelo de “propagación del pensamiento” proporciona una nueva tecnología para el razonamiento complejo de LLM.
El pensamiento analógico es un sello distintivo de las habilidades humanas para resolver problemas y puede generar una variedad de ventajas sistémicas, como una búsqueda y corrección de errores más eficientes.
De manera similar, LLM también puede superar mejor sus propias debilidades, como la falta de conocimiento reutilizable y la cascada de errores locales, al impulsar el pensamiento analógico.
Sin embargo, existen algunas limitaciones a estos hallazgos.
Generar preguntas de analogía útiles de manera eficiente no es fácil, y las cadenas más largas de caminos de razonamiento analógico pueden resultar difíciles de manejar. Al mismo tiempo, sigue siendo difícil controlar y coordinar cadenas de razonamiento de varios pasos.
Sin embargo, la “propagación del pensamiento” todavía nos proporciona un método interesante para resolver creativamente los defectos de razonamiento del LLM.
Con un mayor desarrollo, el pensamiento analógico puede hacer que el razonamiento de LLM sea aún más poderoso. Y esto también señala el camino para lograr un razonamiento más parecido al humano en modelos de lenguaje grandes.
Sobre el Autor
** Corrió **
Anteriormente, obtuvo su licenciatura y maestría en la Universidad Tecnológica de Dalian y su doctorado en el Instituto de Automatización de la Academia China de Ciencias en 2009.
Sus intereses de investigación son los algoritmos biométricos (reconocimiento y síntesis de rostros, reconocimiento de iris, reidentificación de personas), aprendizaje de representación (redes de preentrenamiento que utilizan aprendizaje débil/autosupervisado o de transferencia), aprendizaje generativo (modelos generativos, generación de imágenes, traducción de imágenes). ).
Ha publicado más de 200 artículos en revistas y conferencias internacionales, incluidas revistas internacionales famosas como IEEE TPAMI, IEEE TIP, IEEE TIFS, IEEE TNN e IEEE TCSVT, así como conferencias internacionales de primer nivel como CVPR, ICCV, ECCV y NeurIPS.
Es miembro de los consejos editoriales de IEEE TIP, IEEE TBIOM y Pattern Recognition, y se ha desempeñado como presidente regional de conferencias internacionales como CVPR, ECCV, NeurIPS, ICML, ICPR e IJCAI.
Junchi Yu(俞UN驰)
Anteriormente, realizó una pasantía en el Laboratorio de Inteligencia Artificial de Tencent y trabajó con el Dr. Tingyang Xu, el Dr. Yu Rong, el Dr. Yatao Bian y el profesor Junzhou Huang. Actualmente, es un estudiante de intercambio en el Departamento de Ciencias de la Computación de la Universidad de Yale, estudiando con el profesor Rex Ying.
Su objetivo es desarrollar métodos Trustworthy Graph Learning (TwGL) con buena interpretabilidad y portabilidad y explorar sus aplicaciones en bioquímica.
Referencias: