O raciocínio GPT-4 é mais humano! A Academia Chinesa de Ciências propôs "comunicação pensante", o pensamento analógico supera completamente o CoT, plug and play
Hoje em dia, modelos gigantes de redes neurais, como GPT-4 e PaLM, surgiram e demonstraram incríveis capacidades de aprendizagem com poucas amostras.
Com instruções simples, eles podem raciocinar sobre textos, escrever histórias, responder perguntas, programar…
No entanto, o LLM muitas vezes perde para os humanos em tarefas de raciocínio complexas e de várias etapas, e luta sem sucesso.
A este respeito, investigadores da Academia Chinesa de Ciências e da Universidade de Yale propuseram uma nova estrutura de “propagação do pensamento” que pode melhorar o raciocínio do LLM através do “pensamento analógico”.
Endereço do papel:
A “difusão do pensamento” é inspirada na cognição humana, ou seja, quando encontramos um novo problema, frequentemente o comparamos com problemas semelhantes que já resolvemos para derivar estratégias.
Portanto, o núcleo deste método é permitir que o LLM explore problemas “semelhantes” relacionados à entrada antes de resolver o problema de entrada.
Finalmente, suas soluções podem ser usadas imediatamente ou extrair insights para um planejamento útil.
É previsível que a “comunicação pensante” esteja propondo novas ideias para as limitações inerentes às capacidades lógicas do LLM, permitindo que grandes modelos usem a “analogia” para resolver problemas como os humanos.
Raciocínio de várias etapas do LLM, derrotado por humanos
É óbvio que o LLM é bom no raciocínio básico baseado em instruções, mas ainda tem dificuldades ao lidar com problemas complexos de várias etapas, como otimização e planejamento.
Os humanos, por outro lado, baseiam-se na intuição de experiências semelhantes para resolver novos problemas.
Modelos grandes não podem fazer isso devido às suas limitações inerentes.
Como o conhecimento do LLM vem inteiramente dos padrões dos dados de treinamento, ele não consegue compreender verdadeiramente a linguagem ou os conceitos. Portanto, como modelos estatísticos, são difíceis de realizar generalizações combinatórias complexas.
O mais importante é que o LLM carece de capacidades de raciocínio sistemático e não consegue raciocinar passo a passo como os humanos para resolver problemas desafiadores.
Além disso, o raciocínio de grandes modelos é local e “míope”, por isso é difícil para o LLM encontrar a melhor solução e manter a consistência do raciocínio durante um longo período de tempo.
Em suma, as deficiências dos grandes modelos em prova matemática, planeamento estratégico e raciocínio lógico decorrem principalmente de duas questões centrais:
**- Incapacidade de reutilizar insights de experiências anteriores. **
Os humanos acumulam conhecimento reutilizável e intuição a partir da prática que ajudam a resolver novos problemas. Em contraste, o LLM aborda cada problema “do zero” e não se baseia em soluções anteriores.
**- Erros compostos no raciocínio em várias etapas. **
Os humanos monitoram suas próprias cadeias de raciocínio e modificam as etapas iniciais quando necessário. Mas os erros cometidos pelo LLM nas fases iniciais do raciocínio são amplificados porque conduzem o raciocínio subsequente para o caminho errado.
As fraquezas acima referidas dificultam seriamente a aplicação do LLM para lidar com desafios complexos que requerem otimização global ou planeamento a longo prazo.
Nesse sentido, os pesquisadores propuseram uma comunicação totalmente nova para pensar soluções.
Estrutura TP
Através do pensamento analógico, o LLM pode raciocinar mais como os humanos.
Segundo os pesquisadores, o raciocínio do zero não pode reutilizar os insights obtidos na resolução de problemas semelhantes, e os erros se acumularão nos estágios intermediários do raciocínio.
A “divulgação do pensamento” pode explorar problemas semelhantes relacionados ao problema de entrada e obter inspiração em soluções para problemas semelhantes.
A figura abaixo mostra a comparação entre “Propagação de Pensamento” (TP) e outras tecnologias representativas. Para o problema de entrada p, IO, CoT e ToT raciocinarão do zero para chegar à solução s.
Especificamente, o TP inclui três etapas:
**1. Faça perguntas semelhantes: **O LLM gera um conjunto de perguntas semelhantes que possuem semelhanças com a pergunta de entrada por meio de prompts. Isto guiará o modelo para recuperar experiências anteriores potencialmente relevantes.
**2. Resolva problemas semelhantes: ** Deixe o LLM resolver cada problema semelhante por meio da tecnologia de prompts existente, como o CoT.
**3. Resumindo soluções: **Existem 2 abordagens diferentes - inferir diretamente novas soluções para o problema de entrada com base em soluções análogas; derivar planos ou estratégias de alto nível comparando soluções análogas ao problema de entrada.
Isso permite que grandes modelos reutilizem experiências e heurísticas anteriores e também cruzem seu raciocínio inicial com soluções analógicas para refinar essas soluções.
Vale ressaltar que a “propagação do pensamento” nada tem a ver com o modelo e pode realizar uma única etapa de resolução do problema com base em qualquer método de prompt.
A principal novidade deste método é estimular o pensamento analógico do LLM para orientar processos de raciocínio complexos.
Se a “comunicação pensante” pode tornar o LLM mais parecido com um ser humano depende dos resultados reais.
Pesquisadores da Academia Chinesa de Ciências e de Yale conduziram a avaliação em 3 tarefas:
**- Raciocínio do caminho mais curto: **A necessidade de encontrar o melhor caminho entre nós em um grafo requer planejamento e pesquisa global. Mesmo em gráficos simples, as técnicas padrão falham.
**- Escrita Criativa: ** Gerar histórias coerentes e criativas é um desafio aberto. Quando recebe instruções de alto nível, o LLM geralmente perde consistência ou lógica.
- Planejamento de agentes LLM: Os agentes LLM que interagem com ambientes textuais enfrentam dificuldades com estratégias de longo prazo. Seus planos muitas vezes “derramam” ou ficam presos em ciclos.
Raciocínio do caminho mais curto
Na tarefa de raciocínio do caminho mais curto, os problemas encontrados pelos métodos existentes não podem ser resolvidos.
Embora o gráfico em (a) seja muito simples, uma vez que a inferência começa em 0, esses métodos permitem apenas que o LLM encontre soluções subótimas (b, c) ou mesmo visite repetidamente o nó intermediário (d).
A seguir está um exemplo de combinação de TP e ToT.
Comparando com a linha de base, o desempenho do TP no processamento da tarefa de caminho mais curto é significativamente melhorado em 12%, gerando caminhos mais curtos ideais e eficazes.
Além disso, devido ao menor OLR, o caminho efetivo gerado pelo TP está mais próximo do caminho ideal em comparação com a linha de base.
Ao mesmo tempo, os pesquisadores estudaram ainda mais o impacto do número de camadas TP na complexidade e no desempenho da tarefa de caminho mais curto.
Sob diferentes configurações, o custo do token do TP da camada 1 é semelhante ao ToT. No entanto, o TP da Camada 1 alcançou um desempenho muito competitivo na localização do caminho mais curto ideal.
Além disso, o ganho de desempenho do TP da camada 1 também é muito significativo em comparação ao TP da camada 0 (IO). A Figura 5 (a) mostra o aumento no custo do token para a camada 2 TP.
Escrita criativa
A Tabela 2 abaixo mostra o desempenho do TP e da linha de base no GPT-3.5 e GPT-4. Em termos de consistência, o TP excede a linha de base. Além disso, em estudos de utilizadores, o TP aumentou a preferência humana na escrita criativa em 13%.
Planejamento do agente LLM
Na avaliação da terceira tarefa, os pesquisadores usaram o conjunto de jogos ALFWorld para instanciar a tarefa de planejamento do agente LLM em 134 ambientes.
O TP aumenta a taxa de conclusão de tarefas em 15% no planejamento do agente LLM. Isto demonstra a superioridade do TP reflexivo para um planejamento bem-sucedido ao concluir tarefas semelhantes.
Os resultados experimentais acima mostram que a “propagação do pensamento” pode ser generalizada para uma variedade de tarefas de raciocínio diferentes e tem um bom desempenho em todas essas tarefas.
Chaves para inferência LLM aprimorada
O modelo de “propagação de pensamento” fornece uma nova tecnologia para raciocínio LLM complexo.
O pensamento analógico é uma marca registrada das habilidades humanas de resolução de problemas e pode levar a uma série de vantagens sistêmicas, como busca mais eficiente e correção de erros.
Da mesma forma, o LLM também pode superar melhor as suas próprias fraquezas, como a falta de conhecimento reutilizável e a cascata de erros locais, estimulando o pensamento analógico.
No entanto, existem algumas limitações para essas descobertas.
Gerar perguntas de analogia úteis de forma eficiente não é fácil, e cadeias mais longas de caminhos de raciocínio analógico podem se tornar difíceis de manejar. Ao mesmo tempo, controlar e coordenar cadeias de raciocínio em várias etapas continua difícil.
No entanto, a “propagação do pensamento” ainda nos fornece um método interessante ao resolver criativamente as falhas de raciocínio do LLM.
Com um maior desenvolvimento, o pensamento analógico pode tornar o raciocínio do LLM ainda mais poderoso. E isto também aponta o caminho para alcançar um raciocínio mais humano em grandes modelos de linguagem.
Sobre o autor
Correu ele
Ele é professor do Laboratório Nacional Experimental de Reconhecimento de Padrões do Instituto de Automação, da Academia Chinesa de Ciências e da Universidade da Academia Chinesa de Ciências, membro do IAPR e membro sênior do IEEE.
Anteriormente, ele recebeu seu bacharelado e mestrado pela Universidade de Tecnologia de Dalian e seu doutorado pelo Instituto de Automação da Academia Chinesa de Ciências em 2009.
Seus interesses de pesquisa são algoritmos biométricos (reconhecimento e síntese facial, reconhecimento de íris, reidentificação de pessoas), aprendizagem de representação (redes de pré-treinamento usando aprendizagem fraca/auto-supervisionada ou de transferência), aprendizagem generativa (modelos generativos, geração de imagens, tradução de imagens). ).
Ele publicou mais de 200 artigos em periódicos e conferências internacionais, incluindo periódicos internacionais famosos como IEEE TPAMI, IEEE TIP, IEEE TIFS, IEEE TNN e IEEE TCSVT, bem como conferências internacionais importantes como CVPR, ICCV, ECCV e NeurIPS.
Ele é membro dos conselhos editoriais do IEEE TIP, IEEE TBIOM e Pattern Recognition, e atuou como presidente regional de conferências internacionais como CVPR, ECCV, NeurIPS, ICML, ICPR e IJCAI.
Junchi Yu(俞UN驰)
Yu Junchi é aluno de doutorado do quarto ano do Instituto de Automação da Academia Chinesa de Ciências, e seu orientador é o professor Heran.
Anteriormente, ele estagiou no Laboratório de Inteligência Artificial da Tencent e trabalhou com o Dr. Tingyang Xu, Dr. Atualmente, ele é estudante de intercâmbio no Departamento de Ciência da Computação da Universidade de Yale, estudando com o professor Rex Ying.
Seu objetivo é desenvolver métodos Trustworthy Graph Learning (TwGL) com boa interpretabilidade e portabilidade e explorar suas aplicações em bioquímica.
Referências:
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O raciocínio GPT-4 é mais humano! A Academia Chinesa de Ciências propôs "comunicação pensante", o pensamento analógico supera completamente o CoT, plug and play
Fonte original: Xinzhiyuan
Hoje em dia, modelos gigantes de redes neurais, como GPT-4 e PaLM, surgiram e demonstraram incríveis capacidades de aprendizagem com poucas amostras.
Com instruções simples, eles podem raciocinar sobre textos, escrever histórias, responder perguntas, programar…
No entanto, o LLM muitas vezes perde para os humanos em tarefas de raciocínio complexas e de várias etapas, e luta sem sucesso.
A este respeito, investigadores da Academia Chinesa de Ciências e da Universidade de Yale propuseram uma nova estrutura de “propagação do pensamento” que pode melhorar o raciocínio do LLM através do “pensamento analógico”.
A “difusão do pensamento” é inspirada na cognição humana, ou seja, quando encontramos um novo problema, frequentemente o comparamos com problemas semelhantes que já resolvemos para derivar estratégias.
Portanto, o núcleo deste método é permitir que o LLM explore problemas “semelhantes” relacionados à entrada antes de resolver o problema de entrada.
Finalmente, suas soluções podem ser usadas imediatamente ou extrair insights para um planejamento útil.
É previsível que a “comunicação pensante” esteja propondo novas ideias para as limitações inerentes às capacidades lógicas do LLM, permitindo que grandes modelos usem a “analogia” para resolver problemas como os humanos.
Raciocínio de várias etapas do LLM, derrotado por humanos
É óbvio que o LLM é bom no raciocínio básico baseado em instruções, mas ainda tem dificuldades ao lidar com problemas complexos de várias etapas, como otimização e planejamento.
Os humanos, por outro lado, baseiam-se na intuição de experiências semelhantes para resolver novos problemas.
Modelos grandes não podem fazer isso devido às suas limitações inerentes.
Como o conhecimento do LLM vem inteiramente dos padrões dos dados de treinamento, ele não consegue compreender verdadeiramente a linguagem ou os conceitos. Portanto, como modelos estatísticos, são difíceis de realizar generalizações combinatórias complexas.
Além disso, o raciocínio de grandes modelos é local e “míope”, por isso é difícil para o LLM encontrar a melhor solução e manter a consistência do raciocínio durante um longo período de tempo.
Em suma, as deficiências dos grandes modelos em prova matemática, planeamento estratégico e raciocínio lógico decorrem principalmente de duas questões centrais:
**- Incapacidade de reutilizar insights de experiências anteriores. **
Os humanos acumulam conhecimento reutilizável e intuição a partir da prática que ajudam a resolver novos problemas. Em contraste, o LLM aborda cada problema “do zero” e não se baseia em soluções anteriores.
**- Erros compostos no raciocínio em várias etapas. **
Os humanos monitoram suas próprias cadeias de raciocínio e modificam as etapas iniciais quando necessário. Mas os erros cometidos pelo LLM nas fases iniciais do raciocínio são amplificados porque conduzem o raciocínio subsequente para o caminho errado.
As fraquezas acima referidas dificultam seriamente a aplicação do LLM para lidar com desafios complexos que requerem otimização global ou planeamento a longo prazo.
Nesse sentido, os pesquisadores propuseram uma comunicação totalmente nova para pensar soluções.
Estrutura TP
Através do pensamento analógico, o LLM pode raciocinar mais como os humanos.
Segundo os pesquisadores, o raciocínio do zero não pode reutilizar os insights obtidos na resolução de problemas semelhantes, e os erros se acumularão nos estágios intermediários do raciocínio.
A “divulgação do pensamento” pode explorar problemas semelhantes relacionados ao problema de entrada e obter inspiração em soluções para problemas semelhantes.
**1. Faça perguntas semelhantes: **O LLM gera um conjunto de perguntas semelhantes que possuem semelhanças com a pergunta de entrada por meio de prompts. Isto guiará o modelo para recuperar experiências anteriores potencialmente relevantes.
**2. Resolva problemas semelhantes: ** Deixe o LLM resolver cada problema semelhante por meio da tecnologia de prompts existente, como o CoT.
**3. Resumindo soluções: **Existem 2 abordagens diferentes - inferir diretamente novas soluções para o problema de entrada com base em soluções análogas; derivar planos ou estratégias de alto nível comparando soluções análogas ao problema de entrada.
Isso permite que grandes modelos reutilizem experiências e heurísticas anteriores e também cruzem seu raciocínio inicial com soluções analógicas para refinar essas soluções.
Vale ressaltar que a “propagação do pensamento” nada tem a ver com o modelo e pode realizar uma única etapa de resolução do problema com base em qualquer método de prompt.
A principal novidade deste método é estimular o pensamento analógico do LLM para orientar processos de raciocínio complexos.
Se a “comunicação pensante” pode tornar o LLM mais parecido com um ser humano depende dos resultados reais.
Pesquisadores da Academia Chinesa de Ciências e de Yale conduziram a avaliação em 3 tarefas:
**- Raciocínio do caminho mais curto: **A necessidade de encontrar o melhor caminho entre nós em um grafo requer planejamento e pesquisa global. Mesmo em gráficos simples, as técnicas padrão falham.
**- Escrita Criativa: ** Gerar histórias coerentes e criativas é um desafio aberto. Quando recebe instruções de alto nível, o LLM geralmente perde consistência ou lógica.
- Planejamento de agentes LLM: Os agentes LLM que interagem com ambientes textuais enfrentam dificuldades com estratégias de longo prazo. Seus planos muitas vezes “derramam” ou ficam presos em ciclos.
Raciocínio do caminho mais curto
Na tarefa de raciocínio do caminho mais curto, os problemas encontrados pelos métodos existentes não podem ser resolvidos.
Embora o gráfico em (a) seja muito simples, uma vez que a inferência começa em 0, esses métodos permitem apenas que o LLM encontre soluções subótimas (b, c) ou mesmo visite repetidamente o nó intermediário (d).
O ToT (b) não pode resolver o problema em (a) devido ao acúmulo de erros nas etapas intermediárias de raciocínio. Com base em soluções para problemas semelhantes, TP © refina a solução inicial subótima e eventualmente encontra a solução ótima.
Além disso, devido ao menor OLR, o caminho efetivo gerado pelo TP está mais próximo do caminho ideal em comparação com a linha de base.
Sob diferentes configurações, o custo do token do TP da camada 1 é semelhante ao ToT. No entanto, o TP da Camada 1 alcançou um desempenho muito competitivo na localização do caminho mais curto ideal.
Além disso, o ganho de desempenho do TP da camada 1 também é muito significativo em comparação ao TP da camada 0 (IO). A Figura 5 (a) mostra o aumento no custo do token para a camada 2 TP.
Escrita criativa
A Tabela 2 abaixo mostra o desempenho do TP e da linha de base no GPT-3.5 e GPT-4. Em termos de consistência, o TP excede a linha de base. Além disso, em estudos de utilizadores, o TP aumentou a preferência humana na escrita criativa em 13%.
Planejamento do agente LLM
Na avaliação da terceira tarefa, os pesquisadores usaram o conjunto de jogos ALFWorld para instanciar a tarefa de planejamento do agente LLM em 134 ambientes.
O TP aumenta a taxa de conclusão de tarefas em 15% no planejamento do agente LLM. Isto demonstra a superioridade do TP reflexivo para um planejamento bem-sucedido ao concluir tarefas semelhantes.
Chaves para inferência LLM aprimorada
O modelo de “propagação de pensamento” fornece uma nova tecnologia para raciocínio LLM complexo.
O pensamento analógico é uma marca registrada das habilidades humanas de resolução de problemas e pode levar a uma série de vantagens sistêmicas, como busca mais eficiente e correção de erros.
Da mesma forma, o LLM também pode superar melhor as suas próprias fraquezas, como a falta de conhecimento reutilizável e a cascata de erros locais, estimulando o pensamento analógico.
No entanto, existem algumas limitações para essas descobertas.
Gerar perguntas de analogia úteis de forma eficiente não é fácil, e cadeias mais longas de caminhos de raciocínio analógico podem se tornar difíceis de manejar. Ao mesmo tempo, controlar e coordenar cadeias de raciocínio em várias etapas continua difícil.
No entanto, a “propagação do pensamento” ainda nos fornece um método interessante ao resolver criativamente as falhas de raciocínio do LLM.
Com um maior desenvolvimento, o pensamento analógico pode tornar o raciocínio do LLM ainda mais poderoso. E isto também aponta o caminho para alcançar um raciocínio mais humano em grandes modelos de linguagem.
Sobre o autor
Correu ele
Anteriormente, ele recebeu seu bacharelado e mestrado pela Universidade de Tecnologia de Dalian e seu doutorado pelo Instituto de Automação da Academia Chinesa de Ciências em 2009.
Seus interesses de pesquisa são algoritmos biométricos (reconhecimento e síntese facial, reconhecimento de íris, reidentificação de pessoas), aprendizagem de representação (redes de pré-treinamento usando aprendizagem fraca/auto-supervisionada ou de transferência), aprendizagem generativa (modelos generativos, geração de imagens, tradução de imagens). ).
Ele publicou mais de 200 artigos em periódicos e conferências internacionais, incluindo periódicos internacionais famosos como IEEE TPAMI, IEEE TIP, IEEE TIFS, IEEE TNN e IEEE TCSVT, bem como conferências internacionais importantes como CVPR, ICCV, ECCV e NeurIPS.
Ele é membro dos conselhos editoriais do IEEE TIP, IEEE TBIOM e Pattern Recognition, e atuou como presidente regional de conferências internacionais como CVPR, ECCV, NeurIPS, ICML, ICPR e IJCAI.
Junchi Yu(俞UN驰)
Anteriormente, ele estagiou no Laboratório de Inteligência Artificial da Tencent e trabalhou com o Dr. Tingyang Xu, Dr. Atualmente, ele é estudante de intercâmbio no Departamento de Ciência da Computação da Universidade de Yale, estudando com o professor Rex Ying.
Seu objetivo é desenvolver métodos Trustworthy Graph Learning (TwGL) com boa interpretabilidade e portabilidade e explorar suas aplicações em bioquímica.
Referências: