曼曼公主在小区散步的时候遇见了Dobby,Dobby说 @SentientAGI 搞了一个MindGames Arena ,问曼曼公主要不要参加,曼曼公主回家赶紧研究了一下



这个比赛听起来像是 AI 的终极真人秀,它们得结盟、忽悠、背叛,还要假装自己没在偷偷算计对方!Sentient 拉来了一票学术界和科技界的大腕,普林斯顿、MIT CSAIL、Meta 等等,要给这些 AI 代理来一场烧脑的社会推理大考验

这场比赛的规则是固定种子、可重现环境,还有严格的回合数、消息量、甚至墙钟时间,让 AI 们没法靠框架作弊蒙混过关,还有技能大乱斗,从队友你到底藏了啥秘密的合作挑战,到我赌你不敢背叛我的虚张声势,再到来咱们组个联盟,最后哦不我反悔了!的谈判戏码,MindGames 涵盖了 AI 在现实世界可能遇到的所有社交尴尬时刻
玩法也是花样百出,1v1 单挑、团队混战、还是全场乱斗?部分信息还是全知视角?短平快还是马拉松式博弈?随便你挑,AI 们得在各种场景下证明自己不是社交小白,不只评分看输赢,除了谁赚了最多积分MindGames 还会用放大镜检查 AI 的嘴炮质量,比如说你撒谎够不够高级?说服力够不够强?是不是三句不离套路?还有AI 的读心术准不准?联盟组了多久就崩了?这些都得量化!
还有压力测试,AI 在简单场景里还能装模作样,但一旦时间拉长、对手开始演或者规则突然变卦,它们的计划就容易崩得像沙雕城堡,MindGames 就是要揪出这些翻车瞬间,让 AI 开发者直面惨案现场

曼子看了看觉得这不只是场比赛啊,MindGames Arena 就像是 AI 的社会实验室让开发者看到自家 AI 在复杂社交场景里是真聪明,还是只会在简单任务里装大佬,从欺骗到合作从结盟到背后捅刀,这些技能可不只是游戏里好玩现实世界的 AI 产品也得学会在人类社会的混乱中立环境里游刃有余

然后我觉得这个比赛我不配,机灵的人类可以去试一下,传送门:
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)