史上首个 AI 造 AI!GPT-5.3 参与开发自己,科幻照进现实

Market Whisper

OpenAI 发布GPT-5.3-Codex,首个「参与创造自己」的模型,调试自己代码、管理部署、诊断测试。 Karpathy称此次改版「最接近 AI 起飞场景」。

AI 开始造 AI 的技术奇点突破

OpenAI 官方帐号发布:GPT-5.3-Codex 正式上线,这是「第一个参与创造自己的模型」。 什么意思? 就是说,这个 AI 在开发过程中,帮忙调试了自己的训练代码、管理了自己的部署流程、诊断了自己的测试结果。 说人话就是:AI 开始造 AI 了。

前OpenAI研究员、特斯拉AI总监Andrej Karpathy看完直接发推文:「这是我见过最接近科幻小说中AI起飞场景的东西。」这种来自顶级 AI 研究者的评价极具分量,因为 Karpathy 亲身经历了 AI 发展的多个关键阶段,他的判断基于深刻的技术理解。

AI 自我迭代自己,这不是营销话术。 根据 OpenAI 内部揭露,GPT-5.3-Codex 在开发过程中做了这些事:分析训练日志标记失败的测试、给训练脚本和设定文件提建议修复方案、生成部署配方、总结评估异常供人类审查。 这意味着什么? AI 不再只是工具,它开始成为开发团队的一员,而且是能改进自己的那种。

这种自我参与开发的能力突破了传统 AI 的定位。 以往 AI 模型完全由人类设计、训练和部署,AI 是被动的产物。 现在GPT-5.3在自己的诞生过程中发挥了主动作用,虽然仍在人类监督下,但这种角色转变具有深远意义。 它暗示了一种可能性:未来的 AI 模型可能大部分由 AI 自己设计和优化,人类仅提供方向和最终审查。

GPT-5.3 自我参与开发的四大行为

分析训练日志:自动标记失败测试,识别训练过程中的异常

建议修复方案:对训练脚本和配置文件提出改进建议

生成部署配方:自动化部署流程,减少人工作

总结评估异常:将复杂的评估结果整理成人类可理解的报告

MIT 最近发表的SEAL论文(arXiv:2506.10943)描述了一种能在部署后持续学习的AI架构,无需重新训练就能自我进化。 值得注意的是,部分SEAL研究者现已加入OpenAI。 这意味着 AI 从「静态工具」变成了「动态系统」,学习不再止步于部署,推理和训练的边界正在消融。 GPT-5.3 可能正是这种新架构的首个商业化应用。

77.3% 碾压 Claude 的基准测试屠杀

2月5日,OpenAI和Anthropic仅仅相隔20分钟,就都发表了新一代模型。 先是Anthropic发布Claude Opus 4.6,接着OpenAI推出GPT-5.3-Codex,中门对狙。 既然 OpenAI 想用 GPT-5.3-Codex 狙击别人家的新模型,那肯定得有点本事。 数据不会骗人,GPT-5.3-Codex 一上线就在多个行业基准测试中刷新了纪录。

Terminal-Bench 2.0 测试 AI 在真实终端环境中的作能力,编译代码、训练模型、配置服务器这些实际工作。 GPT-5.3-Codex 得分 77.3%,而 GPT-5.2-Codex 只有 64.0%,Claude Opus 4.6 据报道是 65.4%。 世代之间提升13个百分点,这在AI领域已经是个巨大的飞跃。 77.3% vs 65.4% 的对比显示,GPT-5.3 在实际工程任务上建立了显著优势。

SWE-Bench Pro 是一个专门测试真实软件工程能力的基准,涵盖 Python、JavaScript、Go、Ruby 四种编程语言。 GPT-5.3-Codex 拿下了 56.8% 的成绩,超过了前代 GPT-5.2-Codex 的 56.4%,继续保持行业第一。 更关键的是,OpenAI 透露,GPT-5.3-Codex 在达到这个分数时使用的输出 token 数量是所有模型中最少的,这意味着它不仅准确,而且高效。

OSWorld-Verified 测试 AI 在可视化桌面环境中完成生产力任务的能力,编辑电子表格、制作简报、处理文件等。 GPT-5.3-Codex得分 64.7%,而人类的平均值是 72%。 这意味着它在电脑作任务上已经接近普通人的表现,比前代几乎增加了一倍。 这种接近人类水平的表现,使得 AI 首次能够真正胜任办公室工作,而非仅是辅助工具。

Claude 反击 100 万 Token 与 Agent Teams

更值得关注的是,Claude Opus 4.6首次在Opus级模型中支持100万 token 上下文视窗(beta),可以一次性处理整个代码库或数百页文档,并推出了 Agent Teams 功能,多个 AI 智能体可以同时协作编程、测试、写文档,这种「AI 团队作战」的模式,正在将编程从个人技能变成协作工作。

当OpenAI和Anthropic在同一天、同一时刻发布旗舰模型,这场竞争不再是单纯的技术比拼,而是关于AI未来形态的路线之争:是OpenAI的「自我进化」路线,还是Anthropic的「多智能体协作」路线? OpenAI 的策略是让单一 AI 越来越强大,甚至能够改进自己。 Anthropic 的策略是让多个 AI 协作,通过分工和协同来完成复杂任务。

100 万 token 的上下文是技术突破。 这相当于约 75 万个英文单词或 300 万个中文字符,足以容纳一个中型软件项目的全部代码或一本厚厚的技术文档。 这种容量使得Claude能够「看到」整个项目的全貌,而非片段式理解。 对于大型项目的架构分析和重构,这种全局视野至关重要。

Agent Teams 则是将协作概念引入 AI。 一个 Agent 负责写代码,另一个负责测试,第三个负责写文档,它们之间可以通信和协调。 这种模式模仿了人类软件团队的工作方式,可能比单一超级 AI 更适合某些场景。 然而,多 Agent 协作也引入了新的复杂性:如何协调、如何避免冲突、如何保证一致性。

两种路线各有优劣。 OpenAI 的自我进化路线更激进,若成功可能引发指数级的能力提升,但也可能失控。 Anthropic 的多 Agent 路线更保守,通过分散能力来降低单点风险,但协调成本可能限制效率。 当 AI 开始在野外进化,治理问题将从「它有多聪明」转向「我们如何管理一个持续变化的系统」。 而当两家顶级AI公司在20分钟内连续发布突破性模型,留给人类思考和准备的时间窗口,正在以肉眼可见的速度缩小。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

现货比特币ETF打破了为期四周的资金流入趋势,因为资本避免“方向性风险”。

现货比特币交易所交易基金(ETF)结束了连续四周的资金流入,截止至周五的这一周净流出达2.9618亿美元。 这一转变发生在连续四周的资金流入总计超过22亿美元的情况下,其中包括7.8731亿美元和5.6845亿美元。

Cointelegraph1小时前

比特币的采用随着南非航空的加入而扩大

比特币在非洲的普及正迈出重要一步,南非航空公司推出了航班预订的加密支付。2026年初,该航空公司确认客户现在可以通过其网站和移动应用程序使用比特币付款。因此,它已成为首家提供此项服务的主要航空公司。

Coinfomania2小时前

狗狗币ETF未见资金流入,交易者在价格下跌时选择持有。

关键见解 尽管价格波动,狗狗币ETF连续八天没有资金流入,显示出机构投资者对表情包币暴露产品的犹豫。 交易者在价格下跌时积累了数百万DOGE,表明对该产品的持续信心。

CryptoFrontNews2小时前

Revolut 在 Polygon 上的稳定币交易量超过 12 亿美元

Revolut在Polygon上的稳定币交易量超过12亿美元,反映出区块链在日常支付中的快速采用。 凭借低费用和快速交易,稳定币正在彻底改变金融。 Revolut的扩张计划可能会提升其作为主要金融科技参与者的地位。

Coinfomania3小时前

比特幣 ETF 終結連七紅,比特幣價格壓力再現

近期美國比特幣現貨ETF經歷連續七個交易日的淨流入後,出現大幅流出,18日淨流出1.635億美元,19日再流出5190萬美元,顯示市場資金與價格同時減弱。比特幣價格一度跌破7萬美元,這突顯出ETF的資金流向已無法支撐其反彈,且背後宏觀環境變差對風險資產形成壓力,使投資者偏好明顯收縮。7萬美元關卡的測試成為短期市場情緒的風向標。

区块客4小时前

数字资产ETP市场:过去、现在与未来

数字资产ETP达到了超过2500亿美元的高峰,到2025年底达到1840亿美元的管理资产,主要受到比特币产品的推动。市场正在发展,超过125份新的申请表明了向多样化资产产品的趋势。

CoinDesk4小时前
评论
0/400
暂无评论