Bottleneck Kinerja LLM Mobile: Memahami Aktivasi Sparse dan Kendala Penyimpanan

2025-12-20 11:25:14

Tantangan Penyimpanan di Smartphone

Smartphone modern menghadapi kendala mendasar saat menjalankan model bahasa besar: kapasitas DRAM yang tidak cukup untuk menyimpan bobot model secara lengkap. Pembatasan ini memaksa sistem untuk mendistribusikan parameter model ke solusi penyimpanan eksternal seperti UFS 4.0 yang ditemukan di prosesor Snapdragon 8gen3. Memahami karakteristik kinerja penyimpanan mobile sangat penting untuk mengoptimalkan inferensi AI di perangkat edge.

Analisis Kinerja I/O Penyimpanan

Ukuran Blok dan Bandwidth Baca

Penyimpanan mobile menunjukkan pola kinerja yang kontraintuitif terkait dengan ukuran blok baca. Saat mengakses data secara berurutan atau acak, blok baca yang lebih besar menghasilkan efisiensi bandwidth yang lebih tinggi. Ukuran blok 512KB mencapai kinerja maksimum di 4 GB/s untuk baca berurutan dan 3,5 GB/s untuk baca acak. Namun, mengurangi ukuran blok menjadi 4KB secara dramatis menurunkan kinerja—bandwidth baca acak turun menjadi hanya 450 MB/s. Ini menjadi pertimbangan penting dalam implementasi tabel jarang dan strategi pengambilan bobot.

Pengaruh Rentang Akses Acak

Menariknya, cakupan operasi baca acak secara signifikan mempengaruhi throughput. Rentang baca yang lebih kecil secara konsisten mengungguli yang lebih besar. Saat melakukan baca acak 4KB, rentang 128MB mencapai sekitar 1 GB/s, sementara memperluas ke 512MB mengurangi bandwidth di bawah 850 MB/s. Celah kinerja ini menjadi kurang mencolok dengan ukuran blok yang lebih besar, menunjukkan bahwa pola akses tabel jarang harus menyeimbangkan secara hati-hati pengoptimalan rentang baca.

Ketergantungan pada Inti CPU

Inti pemroses yang menjalankan perintah I/O secara langsung mempengaruhi kinerja penyimpanan. Inti CPU dengan frekuensi lebih tinggi mencapai throughput I/O yang lebih baik. Inti besar yang beroperasi pada 3,3GHz mampu mencapai 1 GB/s untuk baca acak 4KB, sementara inti kecil di 2,2GHz hanya mencapai 760 MB/s. Perbedaan ini berasal dari kebutuhan driver UFS untuk menangani interrupt dan operasi manajemen antrean—kecepatan clock yang lebih tinggi memungkinkan pemrosesan tugas I/O yang lebih cepat.

Keterbatasan Arsitektur Antrian Tunggal

Berbeda dengan solusi NVMe, penyimpanan UFS mobile beroperasi dengan satu antrean perintah tanpa kemampuan konkuren bawaan. Menggunakan beberapa inti untuk operasi I/O sebenarnya menurunkan kinerja hingga 40% karena kontensi antrean perintah. Kendala arsitektur mendasar ini berarti pendekatan I/O konkuren tidak memberikan keuntungan di perangkat mobile.

Arsitektur Inferensi LLM dan Pemrosesan Dua Tahap

Inferensi model bahasa beroperasi melalui dua tahap komputasi yang berbeda secara mendasar, masing-masing memerlukan strategi optimasi yang disesuaikan.

Tahap Pre-fill: Pemrosesan Prompt

Tahap prefill memproses seluruh prompt pengguna dalam satu iterasi untuk menghasilkan token pertama. Beban kerja yang terkonsentrasi ini menciptakan tuntutan komputasi yang besar, menjadikan waktu ke token pertama (TTFT) sebagai metrik kinerja kritis. Seluruh prompt berfungsi sebagai input padat, diproses secara kolektif melalui lapisan transformer model.

Tahap Decoding: Generasi Berurutan

Setelah prefill, tahap decoding menghasilkan token output secara berurutan secara autoregresif. Setiap token yang baru dihasilkan menjadi input untuk iterasi berikutnya, berlanjut hingga selesai atau token EOS dihasilkan. Karena setiap iterasi hanya memproses satu token, beban komputasi tetap lebih ringan tetapi throughput dibatasi oleh waktu antar token (TBT). Tahap ini mencerminkan pengalaman pengguna terhadap kecepatan respons.

Aktivasi Jarang: Peluang Efisiensi

Mengapa Sparsity Penting

Transformer modern seperti GPT-4 dan Llama-2 menggunakan arsitektur decoder-saja dengan blok berulang: mekanisme perhatian dan Feed-Forward Networks (FFN). Varian terbaru yang menggunakan Group Query Attention menggeser beban komputasi secara signifikan ke blok FFN, yang kini mencakup sekitar 80% dari parameter model.

Blok FFN menggunakan fungsi aktivasi dari keluarga ReLU yang menciptakan pola sparsity alami: sebagian besar neuron (yang diwakili sebagai baris dan kolom dalam matriks bobot) menghasilkan kontribusi output minimal. Neuron yang tidak aktif ini dapat dilewati tanpa secara signifikan mempengaruhi hasil akhir. Membuat tabel jarang dari prediksi aktivasi neuron memungkinkan pengurangan komputasi secara substansial.

Optimasi Berbasis Prediksi

Status aktivasi neuron dapat diprediksi secara akurat sebelum komputasi FFN. Penelitian sebelumnya termasuk PowerInfer dan DejaVu menunjukkan bahwa jaringan MLP ringan yang memprediksi aktivasi neuron sebelum setiap blok FFN mencapai tingkat akurasi tinggi. Pendekatan prediktif ini mengubah sparsity dari sifat bawaan menjadi peluang optimasi yang dapat dieksploitasi, mengurangi perhitungan yang diperlukan dan mempercepat inferensi.

Tantangan Integrasi

Kekompleksan nyata muncul saat menggabungkan eksploitasi aktivasi jarang dengan kendala penyimpanan mobile. Struktur tabel jarang prediktif harus selaras dengan pola I/O penyimpanan—memanfaatkan rentang baca kecil yang terfokus dalam jendela 128MB untuk mempertahankan ambang bandwidth 1 GB/s sekaligus meminimalkan kontensi pada arsitektur UFS satu antrean.

Implikasi Praktis untuk AI di Perangkat

Sistem LLM mobile yang efisien harus secara bersamaan mengatasi dua dimensi optimasi: memanfaatkan pola neuron jarang melalui mekanisme prediktif sambil menghormati karakteristik I/O penyimpanan mobile. Interaksi antara pola komputasi jarang dan pola akses penyimpanan menentukan kinerja dunia nyata—keduanya tidak dapat dioptimalkan secara terpisah tanpa mengorbankan efisiensi sistem secara keseluruhan.

Tim Peneliti: Zhenliang Xue dan Yixin Song (Penulis bersama), bersama Zeyu Mi, Le Chen, Yubin Xia, dan Haibo Chen dari Institute of Parallel and Distributed Systems (IPADS), Shanghai Jiao Tong University

Analisis ini diambil dari penelitian akademik yang tersedia di bawah lisensi CC BY 4.0, berfokus pada karakteristik kinerja pembacaan bobot.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.