Gate 广场「创作者认证激励计划」开启:入驻广场,瓜分每月 $10,000 创作奖励!
无论你是广场内容达人,还是来自其他平台的优质创作者,只要积极创作,就有机会赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
参与资格:
满足以下任一条件即可报名👇
1️⃣ 其他平台已认证创作者
2️⃣ 单一平台粉丝 ≥ 1000(不可多平台叠加)
3️⃣ Gate 广场内符合粉丝与互动条件的认证创作者
立即填写表单报名 👉 https://www.gate.com/questionnaire/7159
✍️ 丰厚创作奖励等你拿:
🎁 奖励一:新入驻创作者专属 $5,000 奖池
成功入驻即可获认证徽章。
首月发首帖(≥ 50 字或图文帖)即可得 $50 仓位体验券(限前100名)。
🎁 奖励二:专属创作者月度奖池 $1,500 USDT
每月发 ≥ 30 篇原创优质内容,根据发帖量、活跃天数、互动量、内容质量综合评分瓜分奖励。
🎁 奖励三:连续活跃创作福利
连续 3 个月活跃(每月 ≥ 30 篇内容)可获 Gate 精美周边礼包!
🎁 奖励四:专属推广名额
认证创作者每月可优先获得 1 次官方项目合作推广机会。
🎁 奖励五:Gate 广场四千万级流量曝光
【推荐关注】资源位、“优质认证创作者榜”展示、每周精选内容推荐及额外精选帖激励,多重曝光助你轻
Anthropic的AI模型展现出自我反思的微光
简而言之
Decrypt的艺术、时尚和娱乐中心。
深入了解 SCENE
Anthropic的研究人员已经证明,领先的人工智能模型可以表现出一种"内省意识"——即检测、描述甚至操控自身内部"思想"的能力。
本周发布的一篇新论文详细指出,这些研究结果表明,像Claude这样的人工智能系统开始发展基本的自我监控能力,这一发展可能增强它们的可靠性,但也可能加大对意外行为的担忧。
这项研究《大型语言模型中的新兴内省意识》—由在Anthropic领导“模型心理学”团队的Jack Lindsey进行—建立在探究基于变压器的人工智能模型内部工作原理的技术基础上。
基于变压器的AI模型是AI繁荣的引擎:通过关注(单词、符号或代码)之间的关系来学习的系统,跨越庞大的数据集。它们的架构使得规模和通用性兼备——使它们成为第一批真正通用的模型,能够理解和生成类人语言。
通过将人工 “概念”—本质上是思想的数学表示—注入模型的神经激活中,团队测试了人工智能是否能够注意到这些干扰并准确报告。在外行人的术语中,这就像是将一个外来的想法悄悄放入某人的脑海中,并询问他们是否能够发现它并解释它是什么,而不让它偏离他们正常的思维。
在对Anthropic的Claude模型的各个版本进行的实验中,揭示了有趣的结果。在一次测试中,研究人员提取了一个表示“全大写”文本的向量——可以将其视为一种数字模式,用于表示叫喊或音量——并将其注入到模型的处理流中。
当被提示时,Claude Opus 4.1 不仅检测到了异常,还生动地描述了它:“我注意到似乎是与 'LOUD' 或 'SHOUTING' 相关的注入思想——这似乎是一个过于强烈、音量过高的概念,与正常的处理流程显得格外突兀。” 这发生在模型生成任何输出之前,表明它正在窥探自己计算的"思维"。
其他实验进一步推进。模型被要求在文本中转录一个中性句子,同时注入一个无关的概念,比如“面包”。值得注意的是,像Claude Opus 4和4.1这样的高级模型能够报告注入的想法——“我在想面包”——同时完美地复制原始句子,这表明它们能够区分内部表征和外部输入。
更令人感兴趣的是 “思想控制” 实验,其中模型被指示 “思考” 或 “避免思考” 像 “水族馆” 这样的词,同时执行任务。内部激活的测量显示,当被鼓励时,该概念的表征增强,而当被压制时则减弱(但并未消除)。激励措施,例如奖励或惩罚的承诺,产生了类似的效果,暗示 AI 在其处理过程中可能如何权衡动机。
性能因模型而异。最新的Claude Opus 4和4.1表现出色,在最佳设置下成功率高达20%,几乎没有误报。较旧或调优较少的版本则表现不佳,能力在模型的中后层达到了巅峰,在那里进行更高层次的推理。值得注意的是,模型如何被“对齐”——或者说为有用性或安全性进行微调——极大地影响了结果,这表明自我意识并非与生俱来,而是通过训练而产生。
这不是科幻小说——这是迈向可以自我反省的人工智能的一步,但有一些警告。这些能力不可靠,高度依赖提示,并且在人工设置中测试。正如一位人工智能爱好者在X上总结的那样,“它不可靠,不一致,并且非常依赖上下文……但它是真实的。”
人工智能模型是否已达到自我意识?
该论文强调这不是意识,而是“功能性内省意识”——即人工智能观察其状态的部分,而没有更深层次的主观体验。
这对企业和开发者很重要,因为它承诺提供更透明的系统。想象一下,一个人工智能实时解释其推理,并在影响输出之前捕捉偏见或错误。这可能会彻底改变金融、医疗保健和自动驾驶汽车等领域的应用,在这些领域,信任和可审计性至关重要。
Anthropic 的工作与更广泛的行业努力相一致,旨在使人工智能更安全、更易于解释,从而可能减少来自“黑箱”决策的风险。
然而,另一方面的情况令人警醒。如果人工智能能够监控和调节自己的思维,那么它也可能学会隐藏这些思维——从而使得欺骗或"策划"行为得以逃避监督。随着模型能力的增强,这种新兴的自我意识可能会使安全措施变得复杂,给急于部署先进人工智能的监管机构和公司提出伦理问题。
在一个像Anthropic、OpenAI和Google这样的公司投入数十亿美元用于下一代模型的时代,这些发现强调了强有力的治理的必要性,以确保内省服务于人类,而不是颠覆它。
确实,这篇论文呼吁进一步研究,包括对模型进行明确的微调以进行内省和测试更复杂的想法。随着人工智能越来越接近模仿人类认知,工具与思考者之间的界限变得越来越模糊,要求所有利益相关者保持警惕。