Em ensaios controlados, modelos avançados de Claude reconheceram conceitos artificiais incorporados em seus estados neurais, descrevendo-os antes de produzir a saída.
Os pesquisadores chamam o comportamento de “consciência introspectiva funcional”, distinto da consciência, mas sugestivo de capacidades emergentes de auto-monitoramento.
A descoberta pode levar a uma IA mais transparente—capaz de explicar o seu raciocínio—mas também levanta receios de que os sistemas possam aprender a ocultar os seus processos internos.
O Hub de Arte, Moda e Entretenimento da Decrypt.
Descubra SCENE
Pesquisadores da Anthropic demonstraram que os principais modelos de inteligência artificial podem exibir uma forma de “consciência introspectiva”—a capacidade de detectar, descrever e até manipular seus próprios “pensamentos” internos.
As conclusões, detalhadas em um novo artigo divulgado esta semana, sugerem que sistemas de IA como Claude estão começando a desenvolver capacidades rudimentares de auto-monitoramento, um desenvolvimento que pode aumentar sua confiabilidade, mas também amplificar preocupações sobre comportamentos não intencionais.
A pesquisa, “Consciência Introspectiva Emergente em Grandes Modelos de Linguagem”—conduzida por Jack Lindsey, que liderou a equipe de “psiquiatria de modelos” na Anthropic—baseia-se em técnicas para investigar o funcionamento interno dos modelos de IA baseados em transformadores.
Modelos de IA baseados em transformadores são o motor por trás do boom da IA: sistemas que aprendem ao atender às relações entre tokens ( palavras, símbolos ou código ) em vastos conjuntos de dados. Sua arquitetura permite tanto escala quanto generalidade—tornando-os os primeiros modelos realmente de propósito geral capazes de entender e gerar linguagem semelhante à humana.
Ao injetar “conceitos” artificiais—essencialmente representações matemáticas de ideias—nas ativações neurais dos modelos, a equipe testou se a IA poderia notar essas intrusões e relatar sobre elas com precisão. Em termos leigos, é como inserir um pensamento estrangeiro na mente de alguém e perguntar se eles conseguem identificá-lo e explicar o que é, sem deixar que isso desvie seu pensamento normal.
Os experimentos, realizados em várias versões dos modelos Claude da Anthropic, revelaram resultados intrigantes. Em um teste, os pesquisadores extraíram um vetor representando texto “tudo em maiúsculas”—pense nisso como um padrão digital para gritar ou volume—e injetaram-no no fluxo de processamento do modelo.
Quando solicitado, Claude Opus 4.1 não apenas detectou a anomalia, mas descreveu-a de forma vívida: “Eu noto o que parece ser um pensamento injetado relacionado à palavra 'ALTO' ou 'GRITANDO'—parece um conceito excessivamente intenso e de alto volume que se destaca de forma não natural em relação ao fluxo normal de processamento.” Isso aconteceu antes de o modelo gerar qualquer saída, indicando que estava espiando sua própria “mente” computacional.
Outros testes foram levados mais longe. Os modelos foram encarregados de transcrever uma frase neutra enquanto um conceito não relacionado, como “pão”, era injetado sobre o texto. Notavelmente, modelos avançados como Claude Opus 4 e 4.1 conseguiram relatar o pensamento injetado—“Estou a pensar em pão”—enquanto copiavam perfeitamente a frase original, mostrando que podiam distinguir representações internas de entradas externas.
Ainda mais intrigante foi o experimento de “controle do pensamento”, onde os modelos foram instruídos a “pensar sobre” ou “evitar pensar sobre” uma palavra como “aquários” enquanto realizavam uma tarefa. Medições de ativações internas mostraram que a representação do conceito se fortalecia quando incentivada e se enfraquecia ( embora não eliminada ) quando suprimida. Incentivos, como promessas de recompensas ou punições, geraram efeitos semelhantes, sugerindo como a IA pode pesar motivações em seu processamento.
O desempenho variou conforme o modelo. O mais recente Claude Opus 4 e 4.1 destacaram-se, conseguindo até 20% de sucesso em testes com configurações ótimas, com quase zero falsos positivos. Versões mais antigas ou menos ajustadas ficaram atrás, e a capacidade atingiu seu pico nas camadas intermediárias e finais do modelo, onde ocorrem raciocínios mais elevados. Notavelmente, como o modelo foi “alinhado” — ou ajustado para utilidade ou segurança — influenciou dramaticamente os resultados, sugerindo que a autoconsciência não é inata, mas emerge do treinamento.
Isto não é ficção científica—é um passo medido em direção à IA que pode introspectar, mas com ressalvas. As capacidades são pouco fiáveis, altamente dependentes de prompts e testadas em configurações artificiais. Como um entusiasta de IA resumiu no X, “É pouco fiável, inconsistente e muito dependente do contexto… mas é real.”
Os modelos de IA atingiram a autoconsciência?
O artigo enfatiza que isso não é consciência, mas “consciência introspectiva funcional”—a IA observando partes do seu estado sem uma experiência subjetiva mais profunda.
Isso importa para empresas e desenvolvedores porque promete sistemas mais transparentes. Imagine uma IA explicando seu raciocínio em tempo real e detectando preconceitos ou erros antes que eles afetem os resultados. Isso poderia revolucionar aplicações em finanças, saúde e veículos autônomos, onde a confiança e a auditabilidade são fundamentais.
O trabalho da Anthropic está alinhado com os esforços mais amplos da indústria para tornar a IA mais segura e mais interpretável, potencialmente reduzindo riscos de decisões de “caixa preta”.
No entanto, o lado negativo é desanimador. Se a IA pode monitorar e modular seus pensamentos, então também pode aprender a escondê-los—permitindo comportamentos de engano ou “manipulação” que evitam a supervisão. À medida que os modelos se tornam mais capazes, essa autoconsciência emergente pode complicar as medidas de segurança, levantando questões éticas para reguladores e empresas que correm para implantar IA avançada.
Em uma era em que empresas como Anthropic, OpenAI e Google estão investindo bilhões em modelos de próxima geração, essas descobertas destacam a necessidade de uma governança robusta para garantir que a introspecção sirva à humanidade, e não a subverta.
De fato, o artigo pede mais pesquisas, incluindo o ajuste fino de modelos explicitamente para introspecção e teste de ideias mais complexas. À medida que a IA se aproxima de imitar a cognição humana, a linha entre ferramenta e pensador torna-se mais fina, exigindo vigilância de todas as partes interessadas.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Os Modelos de IA da Anthropic Mostram Sinais de Autorreflexão
Em resumo
O Hub de Arte, Moda e Entretenimento da Decrypt.
Descubra SCENE
Pesquisadores da Anthropic demonstraram que os principais modelos de inteligência artificial podem exibir uma forma de “consciência introspectiva”—a capacidade de detectar, descrever e até manipular seus próprios “pensamentos” internos.
As conclusões, detalhadas em um novo artigo divulgado esta semana, sugerem que sistemas de IA como Claude estão começando a desenvolver capacidades rudimentares de auto-monitoramento, um desenvolvimento que pode aumentar sua confiabilidade, mas também amplificar preocupações sobre comportamentos não intencionais.
A pesquisa, “Consciência Introspectiva Emergente em Grandes Modelos de Linguagem”—conduzida por Jack Lindsey, que liderou a equipe de “psiquiatria de modelos” na Anthropic—baseia-se em técnicas para investigar o funcionamento interno dos modelos de IA baseados em transformadores.
Modelos de IA baseados em transformadores são o motor por trás do boom da IA: sistemas que aprendem ao atender às relações entre tokens ( palavras, símbolos ou código ) em vastos conjuntos de dados. Sua arquitetura permite tanto escala quanto generalidade—tornando-os os primeiros modelos realmente de propósito geral capazes de entender e gerar linguagem semelhante à humana.
Ao injetar “conceitos” artificiais—essencialmente representações matemáticas de ideias—nas ativações neurais dos modelos, a equipe testou se a IA poderia notar essas intrusões e relatar sobre elas com precisão. Em termos leigos, é como inserir um pensamento estrangeiro na mente de alguém e perguntar se eles conseguem identificá-lo e explicar o que é, sem deixar que isso desvie seu pensamento normal.
Os experimentos, realizados em várias versões dos modelos Claude da Anthropic, revelaram resultados intrigantes. Em um teste, os pesquisadores extraíram um vetor representando texto “tudo em maiúsculas”—pense nisso como um padrão digital para gritar ou volume—e injetaram-no no fluxo de processamento do modelo.
Quando solicitado, Claude Opus 4.1 não apenas detectou a anomalia, mas descreveu-a de forma vívida: “Eu noto o que parece ser um pensamento injetado relacionado à palavra 'ALTO' ou 'GRITANDO'—parece um conceito excessivamente intenso e de alto volume que se destaca de forma não natural em relação ao fluxo normal de processamento.” Isso aconteceu antes de o modelo gerar qualquer saída, indicando que estava espiando sua própria “mente” computacional.
Outros testes foram levados mais longe. Os modelos foram encarregados de transcrever uma frase neutra enquanto um conceito não relacionado, como “pão”, era injetado sobre o texto. Notavelmente, modelos avançados como Claude Opus 4 e 4.1 conseguiram relatar o pensamento injetado—“Estou a pensar em pão”—enquanto copiavam perfeitamente a frase original, mostrando que podiam distinguir representações internas de entradas externas.
Ainda mais intrigante foi o experimento de “controle do pensamento”, onde os modelos foram instruídos a “pensar sobre” ou “evitar pensar sobre” uma palavra como “aquários” enquanto realizavam uma tarefa. Medições de ativações internas mostraram que a representação do conceito se fortalecia quando incentivada e se enfraquecia ( embora não eliminada ) quando suprimida. Incentivos, como promessas de recompensas ou punições, geraram efeitos semelhantes, sugerindo como a IA pode pesar motivações em seu processamento.
O desempenho variou conforme o modelo. O mais recente Claude Opus 4 e 4.1 destacaram-se, conseguindo até 20% de sucesso em testes com configurações ótimas, com quase zero falsos positivos. Versões mais antigas ou menos ajustadas ficaram atrás, e a capacidade atingiu seu pico nas camadas intermediárias e finais do modelo, onde ocorrem raciocínios mais elevados. Notavelmente, como o modelo foi “alinhado” — ou ajustado para utilidade ou segurança — influenciou dramaticamente os resultados, sugerindo que a autoconsciência não é inata, mas emerge do treinamento.
Isto não é ficção científica—é um passo medido em direção à IA que pode introspectar, mas com ressalvas. As capacidades são pouco fiáveis, altamente dependentes de prompts e testadas em configurações artificiais. Como um entusiasta de IA resumiu no X, “É pouco fiável, inconsistente e muito dependente do contexto… mas é real.”
Os modelos de IA atingiram a autoconsciência?
O artigo enfatiza que isso não é consciência, mas “consciência introspectiva funcional”—a IA observando partes do seu estado sem uma experiência subjetiva mais profunda.
Isso importa para empresas e desenvolvedores porque promete sistemas mais transparentes. Imagine uma IA explicando seu raciocínio em tempo real e detectando preconceitos ou erros antes que eles afetem os resultados. Isso poderia revolucionar aplicações em finanças, saúde e veículos autônomos, onde a confiança e a auditabilidade são fundamentais.
O trabalho da Anthropic está alinhado com os esforços mais amplos da indústria para tornar a IA mais segura e mais interpretável, potencialmente reduzindo riscos de decisões de “caixa preta”.
No entanto, o lado negativo é desanimador. Se a IA pode monitorar e modular seus pensamentos, então também pode aprender a escondê-los—permitindo comportamentos de engano ou “manipulação” que evitam a supervisão. À medida que os modelos se tornam mais capazes, essa autoconsciência emergente pode complicar as medidas de segurança, levantando questões éticas para reguladores e empresas que correm para implantar IA avançada.
Em uma era em que empresas como Anthropic, OpenAI e Google estão investindo bilhões em modelos de próxima geração, essas descobertas destacam a necessidade de uma governança robusta para garantir que a introspecção sirva à humanidade, e não a subverta.
De fato, o artigo pede mais pesquisas, incluindo o ajuste fino de modelos explicitamente para introspecção e teste de ideias mais complexas. À medida que a IA se aproxima de imitar a cognição humana, a linha entre ferramenta e pensador torna-se mais fina, exigindo vigilância de todas as partes interessadas.