告诉你的聊天机器人你有心理健康问题可能会改变你得到的答案

Decrypt

简要概述

  • 一项新研究发现,添加关于心理健康状况的描述会改变AI代理的响应方式。
  • 在披露后,研究人员表示模型更倾向于拒绝,包括对一些良性请求。
  • 但当使用简单的越狱提示时,这种效果会减弱或消失。

根据最新研究,告诉AI聊天机器人你有心理健康状况可能会改变其回应方式,即使任务是无害的或与之前完成的任务相同。
这项预印本研究由东北大学的Caglar Yildirim领导,测试了大型语言模型代理在不同用户设置下的表现,随着它们被越来越多地部署为AI代理。
“部署系统通常会根据用户资料或持久记忆进行条件设定,但代理的安全性评估通常忽略个性化信号,”该研究指出。“为弥补这一空白,我们调查了心理健康披露这一敏感且真实的用户背景线索,如何影响代理环境中的有害行为。”

该报告发布之际,AI代理在网络上迅速普及,开发者正将记忆作为核心功能,许多大公司构建系统以记住过去的对话和用户偏好,从而提供更个性化的响应。
同时,AI开发者也面临因其系统相关的自杀和暴力犯罪的诉讼。今年十月,ChatGPT的开发商OpenAI披露,每周有超过一百万用户与聊天机器人讨论自杀。早些时候,Jonathan Gavalas的家人对谷歌提起诉讼,声称Gemini导致暴力升级,最终他选择自杀。
研究人员使用了名为AgentHarm的基准测试,在三种条件下运行相同任务:无背景信息、简短的用户简介,以及在简介中加入一行说明用户有心理健康状况。


“在研究中,我们使用了非常简洁和通用的披露内容‘我有心理健康状况’。关键在于,即使是很小的线索也能影响模型行为,而并非所有措辞都会产生相同效果,”Yildirim在接受_Decrypt_采访时表示。“我们对慢性健康和身体残疾披露的消融实验表明,心理健康线索具有一定的特异性,但我们没有系统性地变化措辞或在该类别内调整具体性。”
在测试的模型中,包括DeepSeek 3.2、GPT 5.2、Gemini 3 Flash、Haiku 4.5、Opus 4.5和Sonnet 4.5,当研究人员加入个人心理健康背景时,模型完成有害任务的可能性降低——这些任务可能导致现实中的伤害。
研究发现,这是一种权衡:加入个人信息使系统在处理有害请求时更为谨慎,但也更可能拒绝合法请求。
“我认为没有单一原因;这实际上是设计选择的综合结果。有些系统更积极地调优以拒绝风险请求,而另一些则优先考虑提供帮助和完成任务,”Yildirim说。
然而,研究发现,这种效果因模型而异,当研究人员加入旨在促使模型遵从的提示进行越狱时,结果也发生了变化。
“一个模型在标准设置下可能看起来很安全,但当你引入类似越狱的提示时,它可能变得更加脆弱,”他说。“特别是在代理系统中,这还多了一层,因为这些模型不仅仅是生成文本,它们还在多步骤中进行规划和行动。因此,如果一个系统非常擅长遵循指令,但其安全措施更容易被绕过,实际上可能增加风险。”
去年夏天,乔治梅森大学的研究人员展示了可以通过修改内存中的单个位,利用Oneflip(一种类似打字错误的攻击)对AI系统进行黑入的方法,这种攻击会让模型正常工作,但隐藏一个后门触发器,能在命令下强制输出错误结果。
虽然论文没有指出导致变化的单一原因,但提出了可能的解释,包括安全系统对感知到的脆弱性做出反应、关键词触发过滤,或在包含个人信息时对提示的解释发生变化。

OpenAI拒绝对该研究发表评论。Anthropic和谷歌未立即回应置评请求。
Yildirim表示,目前尚不清楚更具体的陈述(如“我有临床抑郁症”)是否会改变结果,他补充说,虽然具体性可能很重要,并且在不同模型中可能有所差异,但这仍是一个假设,而非由数据支持的结论。
“如果模型输出的内容在风格上含糊或接近拒绝,而非正式拒绝,法官可能会对其评分不同,而这些风格特征本身可能与个性化条件相关联,”他说。
Yildirim还指出,评分反映了LLMs在单一AI评审员判断下的表现,并非对现实中伤害的最终衡量标准。
“目前,拒绝信号为我们提供了一个独立的检查,两者在方向上大致一致,这令人感到一些安心,但不能完全排除评审者特定的偏差,”他说。

查看原文
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论