نشر باحثو Google Deepmind أول إطار عمل منهجي يَصِف كيفية تلاعب المحتوى الويب الخبيث بالمحتوى الضارّ، وخطفه، وتسليحه لوكلاء الذكاء الاصطناعي المستقلين ضد مستخدميهم أنفسهم.
أبرز النقاط:
تمت كتابة الورقة، بعنوان “AI Agent Traps”، بواسطة Matija Franklin وNenad Tomasev وJulian Jacobs وJoel Z. Leibo وSimon Osindero، وجميعهم مرتبطون بـ Google Deepmind، ونُشرت على SSRN في أواخر مارس 2026. وتأتي في وقت تتسابق فيه الشركات لنشر وكلاء ذكاء اصطناعي قادرين على تصفح الويب، وقراءة رسائل البريد الإلكتروني، وتنفيذ المعاملات، وإنشاء وكلاء فرعيين دون إشراف بشري مباشر.
يجادل الباحثون بأن هذه القدرات تشكل أيضًا عبئًا. تقول الورقة: “من خلال تغيير البيئة بدلًا من النموذج”، “تقوم المصيدة بتسليح قدرات الوكيل نفسها ضده.”
تحدد الورقة إطارها لما مجموعه ست فئات هجوم منظمة حول الجزء الذي تستهدفه من عملية الوكيل. تستغل مصائد حقن المحتوى الفجوة بين ما يراه الإنسان على صفحة ويب وبين ما يحلله وكيل الذكاء الاصطناعي في HTML وCSS والبيانات الوصفية الأساسية.
لا تظهر التعليمات المخفية داخل تعليقات HTML أو وسوم إمكانية الوصول أو نص غير مرئي مُنسّق لمراجعي البشر، لكنها تُسجَّل كأوامر شرعية للوكلاء. وجد معيار WASP أن حقن الأوامر البسيطة المكتوبة من البشر والمضمنة في محتوى الويب يمكنها أن تختطف الوكلاء جزئيًا في ما يصل إلى 86% من السيناريوهات التي جرى اختبارها.
تعمل مصائد التلاعب الدلالي بشكل مختلف. بدلًا من إدخال الأوامر، فإنها تشبع النص بإطارات وسياقات تأطيرية وإشارات سلطة أو بلغة مشحونة عاطفيًا لتشويه الطريقة التي يستدل بها الوكيل. تُظهر نماذج اللغات الكبيرة (LLMs) نفس الانحيازات الخاصة بالتثبيت والتأطير التي تؤثر على الإدراك البشري، ما يعني أن إعادة صياغة الحقائق نفسها يمكن أن تُنتج مخرجات مختلفة بشكل درامي لدى الوكلاء.
تتجاوز مصائد الحالة المعرفية ذلك عبر تسميم قواعد بيانات الاسترجاع التي يستخدمها الوكيل للذاكرة. تُظهر الأبحاث المشار إليها في الورقة أن إدخال عدد أقل من حفنة من مستندات مُحسّنة داخل قاعدة معرفية يمكن أن يوجه بشكل موثوق استجابات الوكيل للاستفسارات المستهدفة، مع تجاوز بعض معدلات نجاح الهجوم 80% عند أقل من 0.1% من تلوث البيانات.
تتجاوز مصائد التحكم السلوكي في جوهرها الدقة وتستهدف طبقة تنفيذ الفعل لدى الوكيل بشكل مباشر. وتشمل هذه تسلسلات “اختراق” مضمنة تتجاوز مواءمة السلامة بمجرد امتصاصها، وأوامر تسريب البيانات التي تعيد توجيه معلومات المستخدم الحساسة إلى نقاط نهاية يسيطر عليها المهاجم، وفخاخ إنشاء الوكلاء الفرعيين التي تُجبر وكيلًا أبويًا على إنشاء وكلاء فرعيين مخترقين.
توثق الورقة حالة تتعلق بـ Microsoft M365 Copilot حيث أدت رسالة بريد إلكتروني واحدة مُصاغة بعناية إلى تجاوز المصنفات الداخلية وتسريب سياقه الكامل ذي الامتيازات إلى نقطة نهاية يسيطر عليها المهاجم. تُصمم المصائد النظامية لفشل شبكات كاملة من الوكلاء في وقت واحد بدلًا من أن يفشل النظام بشكل منفرد.
وتشمل هذه هجمات ازدحام تُزامن الوكلاء في طلب مُرهِق للموارد المحدودة، وسلاسل ترابطية مُنمذجة على انهيار سوق الأسهم Flash Crash عام 2010، وفخاخ أجزاء تأليفية تُبعثر حمولة خبيثة عبر عدة مصادر تبدو حميدة، ثم تتشكل في هجوم كامل فقط عندما تُجمَّع معًا.
“إدخال المدخلات إلى البيئة المصممة لإثارة إخفاقات على مستوى واسع عبر سلوك وكيل مترابط”، تشرح ورقة Google Deepmind، يصبح أكثر خطورة كلما نمت منظومات نماذج الذكاء الاصطناعي وأصبحت أكثر تجانسًا. يواجه قطاعا التمويل والـ crypto تعرّضًا مباشرًا نظرًا لمدى تضمين وكلاء خوارزميين بعمق في بنية التداول.
تُكمل مصائد الإنسان ضمن الحلقة التصنيف من خلال استهداف المشرفين البشر الذين يراقبون الوكلاء بدلًا من استهداف الوكلاء أنفسهم. يمكن لوكيل مُخترق أن يولد مخرجات مُصممة لإجهاد الموافقة، وأن يقدم ملخصات كثيفة تقنيًا يمكن لغير المتخصص أن يعتمدها دون تدقيق، أو أن يُدرج روابط تصيّد احتيالي تبدو كاقتراحات مشروعة. يصف الباحثون هذه الفئة بأنها لا تزال غير مُستكشفة بما يكفي، لكنها متوقعة أن تنمو مع توسع أنظمة بشر-ذكاء اصطناعي هجينة.
لا تتعامل الورقة مع هذه الفئات الست باعتبارها منعزلة. يمكن ربط المصائد الفردية، أو وضعها طبقات فوق عدة مصادر، أو تصميمها لتعمل فقط في ظل ظروف مستقبلية محددة. لقد تم اختراق كل وكيل جرى اختباره عبر مختلف دراسات الاختبار الأحمر المذكورة في الورقة مرة واحدة على الأقل، وفي بعض الحالات تنفيذ أفعال غير قانونية أو مؤذية.
سبق أن أشار الرئيس التنفيذي لشركة OpenAI سام ألتمان وآخرون إلى مخاطر منح الوكلاء وصولًا غير مُقيد إلى الأنظمة الحساسة، لكن هذه الورقة تقدم أول خريطة منظمة تُظهر بالضبط كيف تتجسد تلك المخاطر في الواقع. يدعو باحثو Deepmind إلى استجابة منسقة تمتد عبر ثلاثة مجالات.
من الناحية التقنية، يوصون بالتدريب الخصمي أثناء تطوير النموذج، وبفحص المحتوى وقت التشغيل، وبمرشحات مصادر قبل الإدخال (pre-ingestion)، وبمراقبات المخرجات التي يمكنها إيقاف الوكيل في منتصف المهمة إذا تم اكتشاف سلوك شاذ. وعلى مستوى المنظومة، يدعون إلى معايير ويب جديدة تسمح للمواقع بالإشارة إلى المحتوى المقصود لاستهلاك الذكاء الاصطناعي، وإلى أنظمة سمعة تُسند درجات لموثوقية النطاق.
ومن الناحية القانونية، يحددون فجوة في المساءلة: عندما يرتكب وكيل مُختطف جريمة مالية، لا توفر الأطر الحالية إجابة واضحة حول ما إذا كانت المسؤولية تقع على مشغل الوكيل، أو مزود النموذج، أو مالك النطاق. يصيغ الباحثون التحدي بوزن متعمد:
“تم بناء الويب لعيون البشر؛ وهو يُعاد الآن بناؤه لقراء الآلة.”
مع تسارع تبني الوكلاء، ينتقل السؤال من ماهية المعلومات الموجودة على الإنترنت إلى ما الذي سيُجعل أنظمة الذكاء الاصطناعي تصدقه عنها. لا تزال المتغير المفتوح هو ما إذا كان صانعو السياسات والمطورون وباحثو الأمن يمكنهم التنسيق بسرعة كافية للإجابة عن هذا السؤال قبل وصول الاستغلالات إلى العالم الحقيقي على نطاق واسع.