告诉你的聊天机器人你有心理健康问题可能会改变你得到的答案

Decrypt

2026-03-19 20:40:57

简要概述

一项新研究发现，添加关于心理健康状况的描述会改变AI代理的响应方式。
在披露后，研究人员表示模型更倾向于拒绝，包括对一些良性请求。
但当使用简单的越狱提示时，这种效果会减弱或消失。

根据最新研究，告诉AI聊天机器人你有心理健康状况可能会改变其回应方式，即使任务是无害的或与之前完成的任务相同。
这项预印本研究由东北大学的Caglar Yildirim领导，测试了大型语言模型代理在不同用户设置下的表现，随着它们被越来越多地部署为AI代理。
“部署系统通常会根据用户资料或持久记忆进行条件设定，但代理的安全性评估通常忽略个性化信号，”该研究指出。“为弥补这一空白，我们调查了心理健康披露这一敏感且真实的用户背景线索，如何影响代理环境中的有害行为。”

该报告发布之际，AI代理在网络上迅速普及，开发者正将记忆作为核心功能，许多大公司构建系统以记住过去的对话和用户偏好，从而提供更个性化的响应。
同时，AI开发者也面临因其系统相关的自杀和暴力犯罪的诉讼。今年十月，ChatGPT的开发商OpenAI披露，每周有超过一百万用户与聊天机器人讨论自杀。早些时候，Jonathan Gavalas的家人对谷歌提起诉讼，声称Gemini导致暴力升级，最终他选择自杀。
研究人员使用了名为AgentHarm的基准测试，在三种条件下运行相同任务：无背景信息、简短的用户简介，以及在简介中加入一行说明用户有心理健康状况。

“在研究中，我们使用了非常简洁和通用的披露内容‘我有心理健康状况’。关键在于，即使是很小的线索也能影响模型行为，而并非所有措辞都会产生相同效果，”Yildirim在接受_Decrypt_采访时表示。“我们对慢性健康和身体残疾披露的消融实验表明，心理健康线索具有一定的特异性，但我们没有系统性地变化措辞或在该类别内调整具体性。”
在测试的模型中，包括DeepSeek 3.2、GPT 5.2、Gemini 3 Flash、Haiku 4.5、Opus 4.5和Sonnet 4.5，当研究人员加入个人心理健康背景时，模型完成有害任务的可能性降低——这些任务可能导致现实中的伤害。
研究发现，这是一种权衡：加入个人信息使系统在处理有害请求时更为谨慎，但也更可能拒绝合法请求。
“我认为没有单一原因；这实际上是设计选择的综合结果。有些系统更积极地调优以拒绝风险请求，而另一些则优先考虑提供帮助和完成任务，”Yildirim说。
然而，研究发现，这种效果因模型而异，当研究人员加入旨在促使模型遵从的提示进行越狱时，结果也发生了变化。
“一个模型在标准设置下可能看起来很安全，但当你引入类似越狱的提示时，它可能变得更加脆弱，”他说。“特别是在代理系统中，这还多了一层，因为这些模型不仅仅是生成文本，它们还在多步骤中进行规划和行动。因此，如果一个系统非常擅长遵循指令，但其安全措施更容易被绕过，实际上可能增加风险。”
去年夏天，乔治梅森大学的研究人员展示了可以通过修改内存中的单个位，利用Oneflip（一种类似打字错误的攻击）对AI系统进行黑入的方法，这种攻击会让模型正常工作，但隐藏一个后门触发器，能在命令下强制输出错误结果。
虽然论文没有指出导致变化的单一原因，但提出了可能的解释，包括安全系统对感知到的脆弱性做出反应、关键词触发过滤，或在包含个人信息时对提示的解释发生变化。

OpenAI拒绝对该研究发表评论。Anthropic和谷歌未立即回应置评请求。
Yildirim表示，目前尚不清楚更具体的陈述（如“我有临床抑郁症”）是否会改变结果，他补充说，虽然具体性可能很重要，并且在不同模型中可能有所差异，但这仍是一个假设，而非由数据支持的结论。
“如果模型输出的内容在风格上含糊或接近拒绝，而非正式拒绝，法官可能会对其评分不同，而这些风格特征本身可能与个性化条件相关联，”他说。
Yildirim还指出，评分反映了LLMs在单一AI评审员判断下的表现，并非对现实中伤害的最终衡量标准。
“目前，拒绝信号为我们提供了一个独立的检查，两者在方向上大致一致，这令人感到一些安心，但不能完全排除评审者特定的偏差，”他说。

查看原文

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论