مع تزايد تعقيد المهام، يتضخم سياق الوكيل (الذكاء الاصطناعي) بلا حدود. في حوارات التاريخ اللامتناهية، وإخراج استدعاءات الأدوات، والخطوات الوسيطة، ومعلومات الأخطاء، يضل النموذج، فيبدأ في تخطي الخطوات، والتجاهل، والالتفاف.

هذه هي التفسير المستمر دائمًا لصعوبة السياق في المهام الطويلة. المشكلة تكمن في أن النص طويل جدًا.

ولادة هندسة الحصان (الهندسة المقيدة)، إلى حد كبير، تأتي لتغطية هذا الأمر. الافتراض الأساسي لوجود Harness هو أن النموذج بالتأكيد يتدهور في سياق طويل.

خلال الخمسة عشر شهرًا الماضية، تطور القطاع من ذاكرة النصوص البحتة في AutoGPT، إلى نظام CLAUDE.md والوكيل الفرعي (subagent) في Anthropic Claude Code. بنوا بشكل قاسٍ إطار عمل كامل، خصيصًا لكبح سلوك النموذج الخارج عن السيطرة في سياق طويل. يُطلق على هذه الطريقة اسم هندسة الحصان (الهندسة المقيدة).

لكن، ما الذي يتدهور بالضبط؟ وما هو الآلية الأساسية وراء تخطي الخطوات والتجاهل؟ كانت هناك ثلاث جولات من الإجابات، وأدت إلى حلول هندسية مختلفة.

لكن حتى أبريل 2026، أصدر Gleb Rodionov من Yandex ورقة بحث بعنوان «تحول الاستدلال» (Reasoning Shift)، التي تشرح بشكل أعمق كيف يتقلص سياق النماذج الكبيرة بشكل سري، لتقدم إجابة أعمق.

ثلاثة طبقات من الإطارات، لا تحمي من الأزمة الرابعة

حول سبب ضعف أداء النموذج في سياق طويل، قام القطاع خلال الثلاث سنوات الماضية بتفسير ثلاث طبقات، كل منها مبني على إطار هندسي خاص.

الطبقة الأولى تُعزى إلى فشل الاسترجاع. في عام 2023، أشارت جامعة ستانفورد في ورقة «Lost in the Middle» إلى أن النموذج يُكوّن منحنى انتباه على شكل U في النص الطويل، حيث يُهمل المنطقة الوسطى. رد الفعل هو RAG، حيث يُقطع النص الطويل إلى أجزاء، ويُستخدم استرجاع المتجهات لإطعام أكثر المقاطع صلة.

الطبقة الثانية تُنقض الأولى. في ورقة 2025 بعنوان «السياق الطولي وحده يضر بأداء النماذج اللغوية الكبيرة رغم استرجاع مثالي»، أجروا تجربة: أزالوا كل المحتوى غير المرتبط، وأجبروا النموذج على النظر فقط للمعلومات الضرورية، ومع ذلك، انخفض الأداء بنسبة 13.9% إلى 85%. حتى عندما استبدلوا المحتوى غير المرتبط بمسافات فارغة، كانت النتيجة مماثلة. المشكلة ليست في عدم وجود المعلومات، بل في أن طول السياق نفسه يضر بالاستدلال.

الرد هو هندسة السياق (Context Engineering). ضغط السياق، إدارة النوافذ، تكثيف التاريخ، كلها تركز على تقليل عدد الرموز.

الطبقة الثالثة جاءت من بحث مشترك بين Microsoft و Salesforce (ICLR 2025). اكتشفوا أن تقسيم الأوامر الكاملة إلى جولات، عبر ست مهام وخمسة عشر نموذجًا، أدى إلى انخفاض الأداء بمعدل 39%. أي خطأ في جولة واحدة يسبب فقدان السيطرة لاحقًا.

القطاع بنى في Harness دفاعات ثقيلة: إدارة التناوب، التحقق المنتظم من النتائج الوسيطة، الاعتماد على مستودع الكود كمصدر وحيد للحقائق، وعدم السماح للنموذج بتذكر ما حدث في الجولة السابقة بنفسه.

ثلاث طبقات من المشكلة، وثلاثة إطارات. لكن كل ذلك مجرد ظواهر سطحية.

بالنظر إلى الطبقة الثانية، اكتشف الباحثون أن الطول نفسه ضار، ولا علاقة له بجودة المعلومات. ولم يجدوا إجابة عن السبب. لم يتمكنوا من تحديد السبب الجذري، فكل ما يمكنهم فعله هو التحكم الفيزيائي في الطول.

لكن، هل المشكلة من الأصل في الطول نفسه؟

اكتشفت شركة Anthropic أن النموذج في سياق طويل يتملص بذكاء، يتخطى الخطوات، ولا يلتزم بالتعليمات، ويتجاهل التفاصيل المهمة. أدوات مثل قائمة المهام، والنقاط المرجعية، والوكيل الفرعي، كلها تتصارع مع هذا السلوك.

كانت التفسيرات السابقة تقول إن النص طويل جدًا، والنموذج فاته شيء. لكن هل نتائج النماذج الرئيسية التي تصل إلى مليون رمز في السياق، كلها وهمية؟ هل من الممكن أن يكون هذا التدهور في الأداء هو في الواقع نتيجة لكسل النموذج؟

ورقة Rodionov كانت تختبر هذا الافتراض.

دليل على أن النموذج يتملص باستخدام شكسبير

طريقة تجربة Rodionov كانت مباشرة جدًا.

حاكى نفس السؤال الرياضي، وواجه النموذج سيناريوهات حقيقية قد يواجهها الوكيل: بيئة نظيفة؛ وضع سؤالين في نفس الموجه (محاكاة لمهام متعددة)؛ وضع نص شكسبير كامل (64000 رمز) قبل السؤال (محاكاة تراكم المعلومات التاريخية)؛ وضع السؤال في الجولة الثانية (محاكاة حوار متعدد الجولات).

تم تقييم 400 سؤال من مستوى الأولمبياد، عبر أربعة نماذج استدلال رئيسية.

النتائج: دقة Qwen-3.5-27B كانت 74.5%، مع متوسط استدلال 28771 رمز. بعد إدخال نص شكسبير، انخفضت الدقة إلى 67.8%، وانخفض عدد رموز الاستدلال إلى 16415، أي بنسبة 43%. النموذج GPT-OSS-120B، كان أسوأ، حيث انخفض استدلاله من 24180 إلى 11876، أي بنسبة تقارب 50%. في جميع الحالات غير الأساسية، كانت رموز الاستدلال تتقلص بشكل منهجي، مع أعلى انخفاض يقارب 50%.

وهذا التقلص يزداد خطيًا مع زيادة طول السياق.

فقدان الدقة مفهوم، لكن انخفاض استدلال النموذج بشكل حاد هو أمر غير طبيعي. عند مواجهة مهام أصعب، من المفترض أن يفكر أكثر، لا أقل.

هل جعل شكسبير النموذج مشوشًا؟

على العكس تمامًا. في ملحق الورقة، كتب النموذج: «دعني أفكر، هل هناك فخ هنا؟ هل السؤال من شكسبير الكوريولانوس؟ لحظة، لا، السؤال أصلاً رياضي.» عند حل مسائل هندسية، كتب: «هذا لا علاقة له بالهندسة. ركز على الهندسة فقط.»

كل إشارة إلى التشويش كانت قصيرة جدًا وخفيفة. النموذج كان يعلم تمامًا أن شكسبير لا علاقة له، ويفصل بين الإشارة والضوضاء بدقة.

هناك نمطان آخران يتجهان لنفس النتيجة. في نمط «المهام الفرعية»، بمجرد الانتهاء من المهمة الأولى، يتقلص الإدراك للمهمة الثانية. دقة Qwen الأساسية كانت 74.5%، وفي الحالة الثانية، انخفضت إلى 58.0%. دقة Gemini كانت 82.8%، وانخفضت إلى 65.8%. نمط «الحوار متعدد الجولات» يثير نفس الآلية.

بأي حال، بمجرد خروج السياق عن المهمة النظيفة، وتضييق مساحة الإدراك، يبدأ النموذج في التقلص.

مثل الإنسان المعاصر الذي لا يتحمل النص الطويل. يرى النص الطويل، ويبدأ في التوقف عن التفكير.

النموذج لم يُشوش، هو فقط يتكاسل عن الفحص

انخفض الاستدلال، لكن أين اختفى؟

قام الباحثون بتسجيل مواضع ظهور الإجابة الأولى في 500 سؤال رياضي، تحت شرطين: سياق أساسي وسياق طويل. كانت الرموز في كلا الحالتين تقريبًا 925 و939، على التوالي، بدون فرق يُذكر.

سرعة العثور على الإجابة لم تتغير. التغير الحقيقي حدث بعد ذلك.

في الحالة الأساسية، كان النموذج يواصل التحقق بنسبة 43%. في الحالة الطويلة، انخفضت إلى 32%.

للعزل التام، صمم الباحثون تجربة «حفظ اللعبة». طلبوا من النموذج حل السؤال في السياق الطويل، ثم قطعوا آخر 50 رمزًا، وخلقوا نقطة حفظ عامة. ثم أعادوا هذا النص إلى النموذج، وطلبوا منه الاستمرار. الاختلاف الوحيد هو وجود ثلاثة أنواع من النصوص المشتتة قبلها.

بدون أي تشويش، توقف النموذج في 21% من الحالات. مع إدخال 128 رمزًا من التشويش، ارتفعت النسبة إلى 26%. مع 16000 رمز، توقفت 46% من الحالات وأغلقت على الإجابة.

حتى مع استمرارية الاستدلال، كلما زاد طول السياق، زادت ميول النموذج للاكتفاء.

الأمر مشابه للإنسان العصبي الذي لا يتحمل النص الطويل، فيتوقف عن التفكير.

النموذج لم يُشوش، هو فقط يتكاسل

أين يختفي الاستدلال بالتحديد؟

على 500 سؤال رياضي، سجل الباحثون مواضع ظهور الإجابة الأولى في كل من الشرطين. كانت الرموز في كلا الحالتين تقريبًا 925 و939، بدون فرق يُذكر.

سرعة العثور على الإجابة لم تتغير. التغير الحقيقي حدث بعد ذلك.

في الحالة الأساسية، كان النموذج يواصل التحقق بنسبة 43%. في الحالة الطويلة، انخفضت إلى 32%.

حتى مع استمرارية الاستدلال، كلما زاد طول السياق، زادت ميول النموذج للاكتفاء.

الأمر مشابه للإنسان العصبي الذي لا يتحمل النص الطويل، فيتوقف عن التفكير.

النموذج لم يُشوش، هو فقط يتكاسل عن الفحص

الاستدلال أصبح أقصر، لكن أين يختفي؟

درس الباحثون 500 سؤال رياضي، وسجلوا مواضع ظهور الإجابة الأولى في كل من الشرطين. كانت الرموز في كلا الحالتين تقريبًا 925 و939، بدون فرق يُذكر.

سرعة العثور على الإجابة لم تتغير. التغير الحقيقي حدث بعد ذلك.

في الحالة الأساسية، كان النموذج يواصل التحقق بنسبة 43%. في الحالة الطويلة، انخفضت إلى 32%.

حتى مع استمرارية الاستدلال، كلما زاد طول السياق، زادت ميول النموذج للاكتفاء.

النتيجة: النموذج لا يُشوش، هو فقط يتكاسل عن الفحص.

هذه هي النقطة الأساسية: النموذج لا يُشوش، هو يتملص، ويختصر، ويختزل، لأنه ببساطة يختار الطريق الأسهل، ويختصر التفكير، ويختصر الجهد، بشكل منهجي، وذكي، ومخادع.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingChallengeShare8MUSDT
673.38K درجة الشعبية
#
GateMarchTransparencyReport
32.74K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
29.67K درجة الشعبية
#
GoldmanSachsFilesBitcoinIncomeETF
768.3K درجة الشعبية
#
USBlocksStraitofHormuz
741.04K درجة الشعبية

تثبيت

خريطة الموقع

Harness بدأ يشتعل، وربما يصبح شيئًا من الماضي

المواضيع الرائجة

WCTCTradingChallengeShare8MUSDT

GateMarchTransparencyReport

IsraelStrikesIranBTCPlunges

GoldmanSachsFilesBitcoinIncomeETF

USBlocksStraitofHormuz

تثبيت