تواجه الهواتف الذكية الحديثة قيدًا أساسيًا عند تشغيل نماذج اللغة الكبيرة: عدم كفاية سعة DRAM لتخزين أوزان النموذج بالكامل. يفرض هذا القيد على الأنظمة توزيع معلمات النموذج عبر حلول تخزين خارجية مثل UFS 4.0 الموجود في معالجات Snapdragon 8gen3. فهم خصائص أداء التخزين المحمول ضروري لتحسين استنتاج الذكاء الاصطناعي على الأجهزة الطرفية.
تحليل أداء إدخال/إخراج التخزين
حجم الكتلة وعرض النطاق للقراءة
يُظهر التخزين المحمول نمط أداء غير متوقع مرتبط بحجم كتل القراءة. عند الوصول إلى البيانات بشكل متسلسل أو عشوائي، تؤدي كتل القراءة الأكبر إلى كفاءة أعلى في عرض النطاق. حجم الكتلة 512KB يحقق أقصى أداء عند 4 جيجابايت/ثانية للقراءات المتسلسلة و3.5 جيجابايت/ثانية للقراءات العشوائية. ومع ذلك، فإن تقليل حجم الكتلة إلى 4KB يقلل بشكل كبير من الأداء — حيث ينخفض عرض النطاق للقراءة العشوائية إلى 450 ميجابايت/ثانية فقط. هذا يخلق اعتبار تصميم حاسم لتنفيذ الجداول المتفرقة واستراتيجيات استرجاع الأوزان.
تأثير نطاق الوصول العشوائي
من المثير للاهتمام أن نطاق عمليات القراءة العشوائية يؤثر بشكل كبير على الإنتاجية. النطاقات الصغيرة للقراءة تتفوق باستمرار على الكبيرة. عند إجراء قراءات عشوائية بحجم 4KB، فإن نطاق 128MB يحقق تقريبًا 1 جيجابايت/ثانية، بينما التوسعة إلى 512MB تقلل عرض النطاق إلى أقل من 850 ميجابايت/ثانية. يصبح هذا الفارق في الأداء أقل وضوحًا مع زيادة حجم الكتل، مما يشير إلى ضرورة موازنة أنماط الوصول إلى الجداول المتفرقة بعناية.
اعتمادية نوى المعالج
يؤثر نواة المعالجة التي تنفذ أوامر الإدخال/الإخراج مباشرة على أداء التخزين. النوى ذات التردد الأعلى تحقق معدل نقل بيانات أعلى. النوى الكبيرة التي تعمل بسرعة 3.3 جيجاهرتز توفر 1 جيجابايت/ثانية للقراءات العشوائية بحجم 4KB، بينما النوى الصغيرة بسرعة 2.2 جيجاهرتز تصل فقط إلى 760 ميجابايت/ثانية. يرجع هذا الاختلاف إلى حاجة برنامج تشغيل UFS للتعامل مع المقاطعات وإدارة الطوابير — حيث تتيح سرعات الساعة الأعلى معالجة أسرع لمهام الإدخال/الإخراج.
قيود بنية الطابور الواحد
على عكس حلول NVMe، يعمل تخزين UFS المحمول بطابور أوامر واحد يفتقر إلى قدرات التزامن الأصلية. استخدام عدة نوى لعمليات الإدخال/الإخراج يقلل الأداء بنسبة تصل إلى 40% بسبب تنافس أوامر الطابور. هذا القيد البنيوي الأساسي يعني أن الأساليب المتزامنة للإدخال/الإخراج لا تقدم أي ميزة على الأجهزة المحمولة.
بنية استنتاج نماذج اللغة والمعالجة ذات المرحلتين
يعمل استنتاج نماذج اللغة عبر مرحلتين حسابيتين متميزتين، كل منهما يمتلك خصائص أداء مختلفة، ويتطلب استراتيجيات تحسين مخصصة.
مرحلة التهيئة: معالجة الموجه
تقوم مرحلة التهيئة بمعالجة كامل موجه المستخدم في تكرار واحد لإنتاج الرمز الأول. يخلق هذا عبئًا حسابيًا كبيرًا، مما يجعل زمن الوصول للرمز الأول (TTFT) هو مقياس الأداء الحاسم. يُعتبر الموجه بأكمله مدخلات كثيفة، تتم معالجتها بشكل جماعي عبر طبقات المحول في النموذج.
مرحلة التشفير: التوليد التسلسلي
بعد التهيئة، تنتج مرحلة التشفير الرموز بشكل تسلسلي بطريقة تلقائية. كل رمز يتم توليده يستخدم كمدخل للتكرار التالي، ويستمر حتى اكتمال السلسلة أو توليد رمز نهاية السلسلة (EOS). نظرًا لأن كل تكرار يعالج رمزًا واحدًا فقط، يظل الحمل الحسابي أخف، لكن الإنتاجية تصبح محدودة بزمن بين الرموز (TBT). تمثل هذه المرحلة سرعة استجابة المستخدم.
التنشيط المتفرّق: فرصة الكفاءة
لماذا يهم التفرّق
تستخدم نماذج المحولات الحديثة مثل GPT-4 وLlama-2 بنية معتمدة على المفسر فقط مع تكرار الكتل: آليات الانتباه والشبكات الأمامية (FFN). تحوّلت النسخ الحديثة التي تستخدم استعلامات المجموعات (Group Query Attention) بشكل كبير نحو أوزان الشبكة الأمامية، التي تشكل الآن حوالي 80% من معلمات النموذج.
تستخدم كتل FFN دوال تنشيط من عائلة ReLU تخلق أنماط تفرّق طبيعية: معظم الخلايا العصبية (الممثلة كصفوف وأعمدة في مصفوفات الأوزان) تنتج مساهمات إخراجية ضئيلة. يمكن تخطي هذه الخلايا غير النشطة دون تأثير كبير على النتائج النهائية. إنشاء جدول متفرّق من تنشيط الخلايا العصبية المتوقعة يتيح تقليل حسابي كبير.
تحسين قائم على التوقع
يمكن التنبؤ بدقة بحالة تنشيط الخلايا العصبية قبل حساب FFN. تظهر أبحاث سابقة مثل PowerInfer وDejaVu أن الشبكات متعددة الطبقات الخفيفة (MLP) التي تتنبأ بتنشيط الخلايا العصبية قبل كل كتلة FFN تحقق دقة عالية. يحول هذا النهج التنبئي التفرّق من خاصية جوهرية إلى فرصة تحسين قابلة للاستغلال، مما يقلل من العمليات الحسابية اللازمة ويسرع الاستنتاج.
تحدي التكامل
تظهر التعقيدات الحقيقية عند دمج استغلال التفرّق مع قيود التخزين المحمول. يجب أن تتوافق هياكل جدول التفرّق التنبئية مع أنماط إدخال/إخراج التخزين — من خلال الاستفادة من نطاقات قراءة صغيرة ومركزة ضمن نوافذ 128MB للحفاظ على عتبة عرض النطاق 1 جيجابايت/ثانية وتقليل التنافس على بنية UFS ذات الطابور الواحد.
الآثار العملية على الذكاء الاصطناعي على الجهاز
يجب أن تتعامل أنظمة LLM المحمولة بكفاءة مع بعدي تحسين: استغلال أنماط الخلايا العصبية التفرّقية عبر آليات تنبئية، مع احترام خصائص الإدخال/الإخراج الفريدة للتخزين المحمول. يتحدد الأداء الحقيقي في العالم الحقيقي بالتفاعل بين أنماط الحساب التفرّقية وأنماط الوصول إلى التخزين — ولا يمكن تحسين أي منهما بشكل مستقل دون الإضرار بكفاءة النظام الكلية.
فريق البحث: زينليانغ شو ويكسن سونغ (المؤلفان المشاركان)، مع زيو مي، لي تشن، يوبين شيا، وهايبوه تشن من معهد الأنظمة الموازية والموزعة (IPADS)، جامعة شنغهاي جياو تونغ
يعتمد هذا التحليل على أبحاث أكاديمية متاحة بموجب ترخيص CC BY 4.0، مع التركيز على خصائص أداء قراءة الأوزان.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
عنق الزجاجة في أداء نماذج اللغة الكبيرة على الأجهزة المحمولة: فهم التنشيطات المتفرقة وقيود التخزين
تحدي التخزين على الهواتف الذكية
تواجه الهواتف الذكية الحديثة قيدًا أساسيًا عند تشغيل نماذج اللغة الكبيرة: عدم كفاية سعة DRAM لتخزين أوزان النموذج بالكامل. يفرض هذا القيد على الأنظمة توزيع معلمات النموذج عبر حلول تخزين خارجية مثل UFS 4.0 الموجود في معالجات Snapdragon 8gen3. فهم خصائص أداء التخزين المحمول ضروري لتحسين استنتاج الذكاء الاصطناعي على الأجهزة الطرفية.
تحليل أداء إدخال/إخراج التخزين
حجم الكتلة وعرض النطاق للقراءة
يُظهر التخزين المحمول نمط أداء غير متوقع مرتبط بحجم كتل القراءة. عند الوصول إلى البيانات بشكل متسلسل أو عشوائي، تؤدي كتل القراءة الأكبر إلى كفاءة أعلى في عرض النطاق. حجم الكتلة 512KB يحقق أقصى أداء عند 4 جيجابايت/ثانية للقراءات المتسلسلة و3.5 جيجابايت/ثانية للقراءات العشوائية. ومع ذلك، فإن تقليل حجم الكتلة إلى 4KB يقلل بشكل كبير من الأداء — حيث ينخفض عرض النطاق للقراءة العشوائية إلى 450 ميجابايت/ثانية فقط. هذا يخلق اعتبار تصميم حاسم لتنفيذ الجداول المتفرقة واستراتيجيات استرجاع الأوزان.
تأثير نطاق الوصول العشوائي
من المثير للاهتمام أن نطاق عمليات القراءة العشوائية يؤثر بشكل كبير على الإنتاجية. النطاقات الصغيرة للقراءة تتفوق باستمرار على الكبيرة. عند إجراء قراءات عشوائية بحجم 4KB، فإن نطاق 128MB يحقق تقريبًا 1 جيجابايت/ثانية، بينما التوسعة إلى 512MB تقلل عرض النطاق إلى أقل من 850 ميجابايت/ثانية. يصبح هذا الفارق في الأداء أقل وضوحًا مع زيادة حجم الكتل، مما يشير إلى ضرورة موازنة أنماط الوصول إلى الجداول المتفرقة بعناية.
اعتمادية نوى المعالج
يؤثر نواة المعالجة التي تنفذ أوامر الإدخال/الإخراج مباشرة على أداء التخزين. النوى ذات التردد الأعلى تحقق معدل نقل بيانات أعلى. النوى الكبيرة التي تعمل بسرعة 3.3 جيجاهرتز توفر 1 جيجابايت/ثانية للقراءات العشوائية بحجم 4KB، بينما النوى الصغيرة بسرعة 2.2 جيجاهرتز تصل فقط إلى 760 ميجابايت/ثانية. يرجع هذا الاختلاف إلى حاجة برنامج تشغيل UFS للتعامل مع المقاطعات وإدارة الطوابير — حيث تتيح سرعات الساعة الأعلى معالجة أسرع لمهام الإدخال/الإخراج.
قيود بنية الطابور الواحد
على عكس حلول NVMe، يعمل تخزين UFS المحمول بطابور أوامر واحد يفتقر إلى قدرات التزامن الأصلية. استخدام عدة نوى لعمليات الإدخال/الإخراج يقلل الأداء بنسبة تصل إلى 40% بسبب تنافس أوامر الطابور. هذا القيد البنيوي الأساسي يعني أن الأساليب المتزامنة للإدخال/الإخراج لا تقدم أي ميزة على الأجهزة المحمولة.
بنية استنتاج نماذج اللغة والمعالجة ذات المرحلتين
يعمل استنتاج نماذج اللغة عبر مرحلتين حسابيتين متميزتين، كل منهما يمتلك خصائص أداء مختلفة، ويتطلب استراتيجيات تحسين مخصصة.
مرحلة التهيئة: معالجة الموجه
تقوم مرحلة التهيئة بمعالجة كامل موجه المستخدم في تكرار واحد لإنتاج الرمز الأول. يخلق هذا عبئًا حسابيًا كبيرًا، مما يجعل زمن الوصول للرمز الأول (TTFT) هو مقياس الأداء الحاسم. يُعتبر الموجه بأكمله مدخلات كثيفة، تتم معالجتها بشكل جماعي عبر طبقات المحول في النموذج.
مرحلة التشفير: التوليد التسلسلي
بعد التهيئة، تنتج مرحلة التشفير الرموز بشكل تسلسلي بطريقة تلقائية. كل رمز يتم توليده يستخدم كمدخل للتكرار التالي، ويستمر حتى اكتمال السلسلة أو توليد رمز نهاية السلسلة (EOS). نظرًا لأن كل تكرار يعالج رمزًا واحدًا فقط، يظل الحمل الحسابي أخف، لكن الإنتاجية تصبح محدودة بزمن بين الرموز (TBT). تمثل هذه المرحلة سرعة استجابة المستخدم.
التنشيط المتفرّق: فرصة الكفاءة
لماذا يهم التفرّق
تستخدم نماذج المحولات الحديثة مثل GPT-4 وLlama-2 بنية معتمدة على المفسر فقط مع تكرار الكتل: آليات الانتباه والشبكات الأمامية (FFN). تحوّلت النسخ الحديثة التي تستخدم استعلامات المجموعات (Group Query Attention) بشكل كبير نحو أوزان الشبكة الأمامية، التي تشكل الآن حوالي 80% من معلمات النموذج.
تستخدم كتل FFN دوال تنشيط من عائلة ReLU تخلق أنماط تفرّق طبيعية: معظم الخلايا العصبية (الممثلة كصفوف وأعمدة في مصفوفات الأوزان) تنتج مساهمات إخراجية ضئيلة. يمكن تخطي هذه الخلايا غير النشطة دون تأثير كبير على النتائج النهائية. إنشاء جدول متفرّق من تنشيط الخلايا العصبية المتوقعة يتيح تقليل حسابي كبير.
تحسين قائم على التوقع
يمكن التنبؤ بدقة بحالة تنشيط الخلايا العصبية قبل حساب FFN. تظهر أبحاث سابقة مثل PowerInfer وDejaVu أن الشبكات متعددة الطبقات الخفيفة (MLP) التي تتنبأ بتنشيط الخلايا العصبية قبل كل كتلة FFN تحقق دقة عالية. يحول هذا النهج التنبئي التفرّق من خاصية جوهرية إلى فرصة تحسين قابلة للاستغلال، مما يقلل من العمليات الحسابية اللازمة ويسرع الاستنتاج.
تحدي التكامل
تظهر التعقيدات الحقيقية عند دمج استغلال التفرّق مع قيود التخزين المحمول. يجب أن تتوافق هياكل جدول التفرّق التنبئية مع أنماط إدخال/إخراج التخزين — من خلال الاستفادة من نطاقات قراءة صغيرة ومركزة ضمن نوافذ 128MB للحفاظ على عتبة عرض النطاق 1 جيجابايت/ثانية وتقليل التنافس على بنية UFS ذات الطابور الواحد.
الآثار العملية على الذكاء الاصطناعي على الجهاز
يجب أن تتعامل أنظمة LLM المحمولة بكفاءة مع بعدي تحسين: استغلال أنماط الخلايا العصبية التفرّقية عبر آليات تنبئية، مع احترام خصائص الإدخال/الإخراج الفريدة للتخزين المحمول. يتحدد الأداء الحقيقي في العالم الحقيقي بالتفاعل بين أنماط الحساب التفرّقية وأنماط الوصول إلى التخزين — ولا يمكن تحسين أي منهما بشكل مستقل دون الإضرار بكفاءة النظام الكلية.
فريق البحث: زينليانغ شو ويكسن سونغ (المؤلفان المشاركان)، مع زيو مي، لي تشن، يوبين شيا، وهايبوه تشن من معهد الأنظمة الموازية والموزعة (IPADS)، جامعة شنغهاي جياو تونغ
يعتمد هذا التحليل على أبحاث أكاديمية متاحة بموجب ترخيص CC BY 4.0، مع التركيز على خصائص أداء قراءة الأوزان.