DeepSeek 于 4 月 8 日悄悄推送三种模式测试:快速、专家、视觉三轨分流,被社群视为 V4 正式上线前的最后暖身。
(前情提要:DeepSeek V4 拒绝英伟达 找华为!阿里、字节跳动、腾讯抢买昇腾950PR晶片)
(背景补充:DeepSeek V4 宣布弃用英伟达!中国 AI「算力独立」突围战走到哪了?)
本文目录
Toggle
4月 8 日凌晨,DeepSeek 网站与 App 同步推送了一次更新,界面变成三个模式选项。这不是功能完整的正式上线,而是针对部分用户的先行测试,但消息一出,社群立刻把它和 V4 的发布时间程连接在一起。
三个模式的分工相当明确:
**快速模式(Fast Mode)**是默认选项,面向日常对话与即时响应,使用轻量低延迟模型,无使用上限限制,但附件支持仅限文字提取,不处理影像或语音。
**专家模式(Expert Mode)**定位复杂推理任务,支持深度思考模式,社群实测显示单次推理可触发超过 500 秒的思考时间。这个模式在高峰时段需要等待,也不支持附件和语音上传。目前仍处于测试阶段,未对所有用户开放。
**视觉模式(Vision Mode)**是三者中最具象征意义的一个,这是 DeepSeek 首次在消费端正式支持视觉输入,多模态能力不再只是 API 层面的技术选项,而是直接面向一般用户。
整体逻辑是:把算力消耗按任务类型分流,高频低需求走快速通道,高算力推理走专家通道,图文输入走视觉通道。这套设计本身并不新鲜,但 DeepSeek 是中国头部模型里第一个在消费产品层面这样做的。
社群对这次测试的讨论,很快聚焦在一个技术疑点上。
部分测试用户发现,专家模式的回答质量比快速模式只有微幅提升,差距没有想像中大。更关键的是,有用户直接询问模型本身,得到的答复是:两个模式的底层架构相同,差异主要来自 system prompt 的调整。
如果这是真的,那「专家模式」的本质更接近一个调校过的系统提示词,而非一个独立的推理模型。
DeepSeek 没有正式回应这个质疑。从外部视角看,有两种可能的解读:一是这只是灰度阶段的临时配置,真正的模型分层等 V4 上线后才会启用;二是分层设计的目的本来就不是模型层面的切换,而是通过不同的推理预算和系统配置来控制算力消耗,让更多用户可以同时使用。
三模式界面本身,是个用户体验层面的升级。但它背后连接的 V4,才是这次更新真正的重量所在。
DeepSeek 团队已确认 V4 推迟至 4 月,主因是华为昇腾晶片的深度适配工作。已知的技术规格相当激进:1 兆引数规模、SWE-bench 编码能力测试 81% 通过率、API 定价 $0.30/MTok,以及一套自研的长期记忆技术 Engram:一个条件式记忆机制,让模型能跨对话保留用户偏好与上下文。
但 V4 最值得观察的,还是算力底层的选择。
如果 V4 真的完整执行在华为昇腾与寒武纪等国产晶片上,它将成为第一款在消费端规模化的、完全绕过英伟达 CUDA 生态的主流大模型(不过由于我们知道有大量英伟达晶片走私进入中国,所以背后真实情况又更为复杂)。