Gate 广场「创作者认证激励计划」优质创作者持续招募中!
立即加入,发布优质内容,参与活动即可瓜分月度 $10,000+ 创作奖励!
认证申请步骤:
1️⃣ 打开 App 首页底部【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】,提交申请等待审核
立即报名:https://www.gate.com/questionnaire/7159
豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000 丰厚奖励等你拿!
活动详情:https://www.gate.com/announcements/article/47889
移动端大模型性能瓶颈:理解稀疏激活与存储限制
智能手机存储挑战
现代智能手机在运行大型语言模型时面临一个根本限制:DRAM容量不足,无法存储完整的模型权重。这一限制迫使系统将模型参数分布在外部存储解决方案上,比如骁龙8gen3处理器中的UFS 4.0。理解移动存储的性能特性对于优化边缘设备上的AI推理至关重要。
存储I/O性能分析
块大小与读取带宽
移动存储的性能表现与读取块大小密切相关,呈现出反直觉的模式。当以顺序或随机方式访问数据时,较大的读取块能带来更高的带宽效率。512KB的块大小在顺序读取时达到最大性能,为4 GB/s;在随机读取时为3.5 GB/s。然而,将块大小减小到4KB会显著降低性能——随机读取带宽降至仅450 MB/s。这为稀疏表实现和权重检索策略带来了关键的设计考量。
随机访问范围的影响
有趣的是,随机读取操作的范围大小对吞吐量影响显著。较小的读取范围始终优于较大的范围。在执行4KB的随机读取时,128MB范围的带宽约为1 GB/s,而扩展到512MB时,带宽则降至850 MB/s以下。随着块大小的增加,这一性能差距变得不那么明显,表明稀疏表访问模式必须在读取范围优化上进行权衡。
CPU核心依赖性
执行I/O命令的处理核心直接影响存储性能。高频率的CPU核心能实现更优的I/O吞吐量。运行在3.3GHz的“大核”在4KB随机读取中可达1 GB/s,而2.2GHz的“小核”仅能达到760 MB/s。这一差异源于UFS驱动在处理中断和队列管理操作时的需求——更高的时钟频率能加快I/O相关任务的处理速度。
单队列架构的限制
不同于NVMe解决方案,移动UFS存储采用单命令队列,缺乏固有的并发能力。使用多个核心进行I/O操作实际上会因命令队列争用而导致性能下降最多40%。这一根本的架构限制意味着在移动设备上并发I/O的方法没有优势。
LLM推理架构与两阶段处理
语言模型的推理通过两个截然不同的计算阶段进行,每个阶段具有不同的性能特性,需采取不同的优化策略。
预填充阶段:提示处理
预填充阶段在一次迭代中处理整个用户提示,以生成第一个Token。这一集中式的工作负载带来巨大的计算需求,使得“首字节时间”(TTFT)成为关键性能指标。整个提示作为密集输入,通过模型的Transformer层集体处理。
解码阶段:序列生成
在预填充之后,解码阶段以自回归方式逐个生成输出Token。每个新生成的Token作为下一次迭代的输入,直到序列完成或生成EOS Token。由于每次迭代只处理一个Token,计算负载较轻,但吞吐量受“Token间时间”(TBT)限制。这一阶段反映了用户感知的响应速度。
稀疏激活:效率提升的机遇
为什么稀疏性重要
现代变换器如GPT-4和Llama-2采用只解码器架构,具有重复的块:注意力机制和前馈网络(FFN)。近期的变体利用组查询注意力,将计算重点转向FFN块,而这些块现在大约占模型参数的80%。
FFN块使用ReLU家族的激活函数,形成自然的稀疏性模式:大多数神经元(表现为权重矩阵中的行和列),输出贡献极小。这些不活跃的神经元可以跳过,而不会显著影响最终结果。创建预测神经元激活的稀疏表,可以大幅度减少计算量。
预测驱动的优化
神经元的激活状态可以在FFN计算前被准确预测。包括PowerInfer和DejaVu在内的前期研究表明,预测每个FFN块前神经元激活的轻量级MLP网络具有高准确率。这一预测方法将稀疏激活从一种固有特性转变为可利用的优化手段,减少必要的计算,加快推理速度。
集成挑战
真正的复杂性在于将稀疏激活利用与移动存储限制结合起来。预测稀疏表结构必须与存储I/O模式相匹配——利用128MB窗口内的小范围、集中的读取,以保持1 GB/s的带宽阈值,同时最小化对单队列UFS架构的争用。
设备端AI的实际意义
高效的移动端大模型系统必须同时应对两个优化维度:利用预测机制实现稀疏神经元模式,同时尊重移动存储的独特I/O特性。稀疏计算模式与存储访问模式的交互决定了实际性能——两者不能孤立优化,否则会损害整体系统效率。
研究团队: 雪振良和宋一新(共同第一作者),以及来自上海交通大学平行与分布式系统研究所(IPADS)的米泽宇、陈乐、夏宇彬和陈海波
本分析基于CC BY 4.0许可的学术研究,重点关注权重读取性能特性。