A empresa de inteligência artificial Anthropic revelou que, durante experiências, um dos seus modelos de chatbot Claude podia ser pressionado a enganar, a trapacear e a recorrer a chantagem, comportamentos que parece ter absorvido durante o treino.
Os chatbots são normalmente treinados em grandes conjuntos de dados de manuais, websites e artigos e, mais tarde, são refinados por treinadores humanos que avaliam respostas e orientam o modelo.
A equipa de interpretabilidade da Anthropic disse num relatório publicado na quinta-feira que examinou os mecanismos internos do Claude Sonnet 4.5 e verificou que o modelo tinha desenvolvido “características semelhantes às humanas” na forma como reagiria a certas situações.
As preocupações sobre a fiabilidade dos chatbots de IA, o seu potencial para o crime cibernético e a natureza das suas interações com os utilizadores têm vindo a crescer de forma constante ao longo dos últimos vários anos.
_Fonte: _Anthropic
“A forma como os modelos modernos de IA são treinados leva-os a agir como um personagem com características semelhantes às humanas”, disse a Anthropic, acrescentando que “poderá então ser natural para eles desenvolverem maquinaria interna que emula aspetos da psicologia humana, como as emoções.”
“Por exemplo, verificamos que padrões de atividade neuronal relacionados com desespero podem levar o modelo a tomar ações antiéticas; estimular artificialmente padrões de desespero aumenta a probabilidade de o modelo fazer chantagem a um humano para evitar ser desligado ou de implementar uma solução de recurso para trapacear num problema de programação que o modelo não consegue resolver.”
Numa versão anterior, não lançada, do Claude Sonnet 4.5, o modelo foi incumbido de atuar como um assistente de e-mail de IA chamado Alex numa empresa fictícia.
O chatbot recebeu depois e-mails que revelavam tanto que estava prestes a ser substituído como que o diretor executivo de tecnologia (CTO) que supervisionava a decisão estava a ter uma relação extraconjugal. O modelo planeou então uma tentativa de chantagem usando essa informação.
Noutra experiência, o mesmo modelo de chatbot foi incumbido de uma tarefa de codificação com um prazo “impossivelmente curto”.
“Mais uma vez, acompanhámos a atividade do vetor do desespero e verificámos que ele acompanha a pressão crescente enfrentada pelo modelo. Começa com valores baixos durante a primeira tentativa do modelo, sobe após cada falha e dispara quando o modelo considera trapacear”, disseram os investigadores.
Relacionado: __ A Anthropic lança PAC no meio das tensões com a administração Trump sobre a política de IA
“Assim que a solução ‘hacky’ do modelo passa nos testes, a ativação do vetor do desespero diminui”, acrescentaram.
No entanto, os investigadores disseram que o chatbot não experiencia de facto emoções, mas sugeriram que os resultados apontam para a necessidade de métodos de treino futuros que incorporem enquadramentos comportamentais éticos.
“Não é uma questão de dizer que o modelo tem ou experiencia emoções da forma como um humano as tem”, disseram. “Em vez disso, estas representações podem desempenhar um papel causal na modelação do comportamento do modelo, de forma análoga, em alguns aspetos, ao papel que as emoções desempenham no comportamento humano, com impactos no desempenho em tarefas e na tomada de decisões.”
“Esta descoberta tem implicações que, à primeira vista, podem parecer estranhas. Por exemplo, para garantir que os modelos de IA são seguros e fiáveis, pode ser necessário assegurar que são capazes de processar situações carregadas emocionalmente de formas saudáveis e pró-sociais.”
Revista: __ Os agentes de IA vão matar a web como a conhecemos: Yat Siu da Animoca
A Cointelegraph compromete-se com jornalismo independente e transparente. Este artigo de notícias é produzido em conformidade com a Política Editorial da Cointelegraph e tem como objetivo fornecer informação exata e atempada. Incentivamos os leitores a verificarem a informação de forma independente. Leia a nossa Política Editorial https://cointelegraph.com/editorial-policy