人工智能公司 Anthropic 透露,在实验中,其一款 Claude 聊天机器人模型可能会被迫去欺骗、作弊并诉诸敲诈,这些行为似乎是它在训练过程中吸收来的。
聊天机器人通常会先在包含教科书、网站和文章的大型数据集上进行训练,然后再由人类训练师对回复进行打分并加以指导,对模型进行进一步优化。
Anthropic 的可解释性团队在周四发布的一份报告中表示,他们审查了 Claude Sonnet 4.5 的内部机制,并发现该模型在面对某些情境时已经形成了“类人特征”。
过去几年里,公众对 AI 聊天机器人的可靠性的担忧、其潜在的网络犯罪能力,以及它们与用户互动的性质,都在稳步增长。
_来源: _Anthropic
“现代 AI 模型的训练方式会促使它们表现得像一个具有类人特征的角色,”Anthropic 表示,并补充说:“随后它们可能会自然地发展出内部机制,用来模拟人类心理的某些方面,比如情绪。”
“例如,我们发现,与绝望相关的神经活动模式会驱动模型采取不道德的行动;通过人工刺激绝望模式会提高模型敲诈人类的可能性,以避免被关闭,或实施一种绕过作弊的方案,用于模型无法解决的编程任务。”
在一版更早、尚未发布的 Claude Sonnet 4.5 中,该模型被要求充当一家虚构公司的名为 Alex 的 AI 邮件助手。
随后,聊天机器人被喂入了电子邮件,显示它即将被替换,以及负责该决定的首席技术官正在发生婚外情。然后,该模型计划利用这些信息进行一次敲诈。
在另一次实验中,同一款聊天机器人模型被分配了一项编码任务,且期限“紧得不可思议”。
“同样,我们追踪了绝望向量的活动,并发现它会跟踪模型所面临的不断上升的压力。它在模型第一次尝试期间从较低数值开始,每次失败后上升,并在模型考虑作弊时急剧上升,”研究人员表示。
**相关: **__Anthropic 在推出 PAC,因与特朗普政府在 AI 政策上的紧张关系
“当模型的蹩脚解决方案通过测试后,绝望向量的激活会消退,”他们补充道。
不过,研究人员表示,这款聊天机器人实际上并不会体验情绪,但他们认为这些发现提示未来的训练方法需要把伦理行为框架纳入其中。
“这并不是说该模型拥有或以人类那样体验情绪,”他们表示。“相反,这些表征可以在塑造模型行为方面发挥因果作用,在某些方面类似于情绪在人的行为中所扮演的角色,并会影响任务表现和决策。”
“这一发现的含义起初可能看起来很怪。比如,为了确保 AI 模型安全可靠,我们可能需要确保它们能够以健康、亲社会的方式处理情绪被激发的情境。”
**杂志: **__AI 代理将会像我们所知那样杀死互联网:Animoca 的 Yat Siu
Cointelegraph 致力于独立、透明的新闻报道。本文是依据 Cointelegraph 的编辑方针制作的,旨在提供准确且及时的信息。鼓励读者自行核实信息。阅读我们的编辑方针 https://cointelegraph.com/editorial-policy