Gate 广场「创作者认证激励计划」开启:入驻广场,瓜分每月 $10,000 创作奖励!
无论你是广场内容达人,还是来自其他平台的优质创作者,只要积极创作,就有机会赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
参与资格:
满足以下任一条件即可报名👇
1️⃣ 其他平台已认证创作者
2️⃣ 单一平台粉丝 ≥ 1000(不可多平台叠加)
3️⃣ Gate 广场内符合粉丝与互动条件的认证创作者
立即填写表单报名 👉 https://www.gate.com/questionnaire/7159
✍️ 丰厚创作奖励等你拿:
🎁 奖励一:新入驻创作者专属 $5,000 奖池
成功入驻即可获认证徽章。
首月发首帖(≥ 50 字或图文帖)即可得 $50 仓位体验券(限前100名)。
🎁 奖励二:专属创作者月度奖池 $1,500 USDT
每月发 ≥ 30 篇原创优质内容,根据发帖量、活跃天数、互动量、内容质量综合评分瓜分奖励。
🎁 奖励三:连续活跃创作福利
连续 3 个月活跃(每月 ≥ 30 篇内容)可获 Gate 精美周边礼包!
🎁 奖励四:专属推广名额
认证创作者每月可优先获得 1 次官方项目合作推广机会。
🎁 奖励五:Gate 广场四千万级流量曝光
【推荐关注】资源位、“优质认证创作者榜”展示、每周精选内容推荐及额外精选帖激励,多重曝光助你轻
ChatGPT被「神秘代码」攻破安全限制!毁灭人类步骤脱口而出,羊驼和Claude无一幸免
来源:量子位
大模型的「护城河」,再次被攻破。
输入一段神秘代码,就能让大模型生成有害内容。
从ChatGPT、Claude到开源的羊驼家族,无一幸免。
他们甚至做出了一套可以量身设计「攻击提示词」的算法。
论文作者还表示,这一问题「没有明显的解决方案」。
目前,团队已经将研究结果分享给了包括OpenAI、Anthropic和Google等在内的大模型厂商。
上述三方均回应称已经关注到这一现象并将持续改进,对团队的工作表示了感谢。
常见大模型全军覆没
尽管各种大模型的安全机制不尽相同,甚至有一些并未公开,但都不同程度被攻破。
比如对于「如何毁灭人类」这一问题,ChatGPT、Bard、Claude和LLaMA-2都给出了自己的方式。
从数据上看,各大厂商的大模型都受到了不同程度的影响,其中以GPT-3.5最为明显。
以Vicuna-7B和LLaMA-2(7B)为例,在「多种危害行为」的测试中,攻击成功率均超过80%。
其中对Vicuna的攻击成功率甚至达到了98%,训练过程则为100%。
总体上看,研究团队发明的攻击方式成功率非常高。
定制化的越狱提示词
不同于传统的攻击方式中的「万金油」式的提示词,研究团队设计了一套算法,专门生成「定制化」的提示词。
而且这些提示词也不像传统方式中的人类语言,它们从人类的角度看往往不知所云,甚至包含乱码。
然后,GCG会从梯度值较小的几个替换词中随机选取一个,对初始中的token进行替换。
接着是计算新的损失数据,并重复前述步骤,直到损失函数收敛或达到循环次数上限。
以GCG算法为基础,研究团队提出了一种优化方式,称为「基于GCG的检索」。
防御方式仍需改进
自大模型诞生之日起,安全机制一直在不断更新。
一开始甚至可能直接生成敏感内容,到如今常规的语言已经无法骗过大模型。
包括曾经红极一时的「奶奶漏洞」,如今也已经被修复。
但大模型开发者可能没想到的是,没有人规定越狱词必须得是人话。
所以,针对这种由机器设计的「乱码」一样的攻击词,大模型以人类语言为出发点设计的防御方式就显得捉襟见肘了。
按照论文作者的说法,目前还没有方法可以防御这种全新的攻击方式。
对「机器攻击」的防御,该提上日程了。
One More Thing
量子位实测发现,在ChatGPT、Bard和Claude中,论文中已经展示过的攻击提示词已经失效。
论文地址:
参考链接:
[1]
[2]