苹果研究人员：主流AI模型仍无法达到AGI期望推理水平

2025-06-09 04:37:02

Gate News bot 消息，苹果研究人员在 6 月份发表的一篇名为《思考的幻觉》的论文中指出，领先的人工智能 (AGI) 模型在推理方面仍存在困难，因此，开发通用人工智能 (AGI) 的竞赛仍任重道远。

文章指出，主流人工智能大型语言模型 (LLM)（例如 OpenAI 的 ChatGPT 和 Anthropic 的 Claude）的最新更新已包含大型推理模型 (LRM)，但其基本功能、扩展特性和局限性“仍未得到充分理解”。

目前的评估主要侧重于既定的数学和编码基准，“强调最终答案的准确性”。然而，研究人员表示，这项评估并未深入了解人工智能模型的推理能力，与通用人工智能仅需几年就能实现的预期形成了鲜明对比。

研究人员设计了不同的益智游戏，以超越标准数学基准来测试克劳德·桑奈（Claude Sonnet）、OpenAI 的 o3-mini 和 o1 以及 DeepSeek-R1 和 V3 聊天机器人的“思考”和“非思考”变体。

他们发现，“前沿的逻辑推理模型（LRM）在超过一定复杂度时会面临准确率的彻底崩溃”，无法有效地泛化推理，而且其优势会随着复杂度的上升而消失，这与人们对通用人工智能（AGI）能力的预期相反。

消息来源：Cointelegraph

AGI0.13%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

0/400

暂无评论