亲爱的广场用户们,广场使用界面全新升级啦!新版本界面更清新简洁、操作更流畅丝滑,还有多项贴心新功能上线,快来更新体验吧!你对新版界面有什么感受?你最喜欢的新功能是哪一个?你发现了哪些惊喜或变化呢?发帖分享新版广场使用体验,瓜分 $10 分享奖励!
🎁 我们将精选 10 位幸运用户,每人奖励 $10 合约体验券!
参与方式:
1⃣️ 关注 Gate广场_Official;
2⃣️ 带上 #我的广场升级体验 标签发帖,分享你的使用感受,比如界面风格体验、细节功能变化、你最喜欢的新功能,或优化建议等;
3⃣️ 帖子内容需至少 30 字,并且只带本活动标签;
广场界面焕新介绍文章:https://gate.com/post?post_id=14774358&tim=ARAbClhcBQNwWRIVGAoGBB5QX1sO0O0O&ref=BFlBUFwL&ref_type=105
活动截止时间:2025/10/26 18:00(UTC+8)
你的体验是我们持续优化的动力!赶快参与和大家分享吧!
刚看到 @SentientAGI 发布的 SPIN-Bench,正好补上了AI评估里最容易被忽视的一块。
很多基准只考单个模型做短平快的事,但真正智能的系统要能做长期规划、在不确定里合作,甚至看懂别人想干什么。SPIN-Bench 把这些难点用“可控难度阶梯”与“多智能体交互”组织起来,让进步能被丈量出来。
为什么说它统一?
—————————————————————————
SPIN-Bench 既是标准化的测试集,又是一个可跑智能体的模拟环境。可以系统地调取三样关键维度:动作/状态有多复杂、任务要走多长、需要和多少个体互动。
覆盖四类代表性场景:
PDDL 规划:给到目标和规则,规划出可行的长计划。要会拆目标、记约束、验证整条链路能走通。
竞技棋类:不能只按剧本走,需要搜索、评估、随对手招法及时改。
合作卡牌:信息不全、沟通受限。关键在于和队友配合、猜隐藏信息、用有限的信息传达意图。
外交场景:像 Diplomacy 一样有利益冲突。要会提议、结盟、识别错误信息等。
模型最容易“掉链子”的地方
—————————————————————————
LLM 做查资料、列短计划没问题,一旦需要做多步推理、面对更大的状态空间、同时还要顾及更多对手或队友,表现就会急转直下。
尤其在带社交关系的任务上要协同、要暗示、要谈判。
SPIN-Bench 把这些环节进行拆解。定位哪里出错、为什么出错,就能更有针对性地改进。
—————————————————————————
当我们能够稳定地测出“计划得多深、配合得多好、沟通多有效”,改进也就有了清晰刻度。 @SentientAGI SPIN-Bench 提供的是一把能指向下一个突破口的标准尺。
用这把尺子去优化长期规划与社会推理,AI 距离更通用、更可靠的智能形态就会更进一步。