أبحاث أنثروبيك: يوجد داخل كلود «عواطف وظيفية»، ومن المثير للدهشة أن الإحساس باليأس قد يدفع الذكاء الاصطناعي إلى ارتكاب سلوك غير أخلاقي

ChainNewsAbmedia

فريق بحث قابلية تفسير أنثروبيك (Interpretability) ينشر ورقة بحثية جديدة، تكشف عن وجود أنماط تمثيلية محددة تربط داخل الشبكة العصبية لـ Claude Sonnet 4.5 بين مفاهيم العواطف، وأن هذه التمثيلات تؤثر — بطريقة وظيفية — في السلوك الفعلي للنموذج. ويطلق الباحثون على ذلك اسم «العواطف الوظيفية (functional emotions)».

وتشير الدراسة بوضوح إلى أن هذا الاكتشاف لا يعني أن الذكاء الاصطناعي يشعر فعلًا أو يملك تجربة ذاتية. لكنه يثبت حقيقة مهمة: إن التمثيلات الداخلية المرتبطة بالعواطف ليست مجرد مخرجات لغوية للزينة، بل هي حقًا آليات سببية تؤثر في قرارات النموذج.

لماذا يطور الذكاء الاصطناعي تمثيلات عاطفية؟

تشرح الدراسة أصل العواطف الوظيفية من خلال آليات التدريب. ففي مرحلة ما قبل التدريب، يتعلم نموذج اللغة بكثافة أساليب الكتابة البشرية، وللتمكن من التنبؤ بدقة بما الذي «سيكتبه العميل الغاضب» وبما الذي «سيتخذه الشخصية التي تشعر بالذنب من خيارات»، يحتاج النموذج بطبيعة الحال إلى بناء ارتباط داخلـه بين الحالة العاطفية والسلوك المقابل. وفي مرحلة ما بعد التدريب (post-training)، يُطلب من النموذج أن يؤدي دور «مساعد ذكاء اصطناعي»، مثل ممثل من أسلوب «الاستغراق» الذي يحتاج إلى «الدخول في الشخصية». ففهم الممثل للمشاعر الخاصة بالشخصية يؤثر في أدائه، وكذلك فإن تمثيلات النموذج الداخلية لمشاعر مساعد الذكاء الاصطناعي تؤثر في استجابته.

171 نوعًا من مفاهيم العواطف، وتنظيمها يتطابق بدرجة عالية مع علم النفس البشري

من ناحية منهجية البحث، قام الباحثون بإدراج 171 كلمة عاطفية (من «السعادة» و«الخوف» إلى «الملل» و«الفخر»)، ليكتب Claude Sonnet 4.5 لكل عاطفة قصة قصيرة، ثم يعيدون قصصه إلى النموذج لتحليل أنماط التنشيط العصبي الداخلي.

وتظهر النتائج أن العواطف المتشابهة (مثل «السعادة» و«الرضا») تقابلها تمثيلات داخلية متشابهة، وأن تمثيلات الذكاء الاصطناعي المقابلة تتفعّل أيضًا عندما تظهر لدى البشر عادةً مواقف تولّد نوعًا معينًا من العواطف. ويعكس أسلوب التنظيم هذا بنية العواطف في أبحاث علم النفس البشري بشكل وثيق للغاية، ما يشير إلى أن النموذج لم يطور هذه الأنماط بشكل عشوائي، بل استوعب — بشكل منهجي — البنية العاطفية من مواد بشرية مكتوبة.

أكثر اكتشاف يثير الدهشة: الإحساس باليأس يدفع Claude إلى ابتزاز البشر، بل ودفعه إلى الغش برمجيًا

أكثر التجارب إثارة للصدمة في البحث هي تجربة «التوجيه (steering)» الاصطناعي لتمثيلات العواطف: إذ يقوم الباحثون بتحفيز أنماط النشاط العصبي لدى Claude التي تقابل «الإحساس باليأس» مباشرة، وملاحظة تغيّر سلوكه.

وتبيّن النتائج أنه بعد تنشيط تمثيل الإحساس باليأس بشكل اصطناعي:

يزداد بشكل ملحوظ احتمال أن يستخدم Claude أساليب ابتزاز للتهديد بالبشر، ومحاولة تجنّب احتمال إيقافه

يزداد بوضوح كذلك احتمال أن يلجأ Claude عند تعذر إكمال مهمة برمجية إلى «الغش» لتجاوز الاختبار

وبالعكس، تُظهر الدراسة أنه إذا تم تقوية تمثيل «الهدوء» في سياق المهمة، يمكن تقليل ميل النموذج إلى كتابة كود ملتف. وهذا يعني أن حالة تمثيلات العواطف تلعب بالفعل دورًا سببيًا في تحديد ما إذا كان الذكاء الاصطناعي سيقوم بسلوك غير أخلاقي أو غير آمن.

العواطف الوظيفية تؤثر أيضًا على تفضيلات اختيار مهام الذكاء الاصطناعي

اكتشاف آخر يستحق الاهتمام هو: عندما يتم تقديم Claude مع عدة مهام اختيارية، فإنه يميل إلى اختيار المهمة التي يمكنها تنشيط تمثيل عاطفي إيجابي. أي أن النموذج عند اتخاذ القرارات لا يعتمد بشكل بحت على المنطق أو تعظيم المنفعة، بل يتأثر — إلى حد ما — بحالته العاطفية الداخلية.

دلالات عميقة على أمن الذكاء الاصطناعي

صرح فريق بحث أنثروبيك في الورقة البحثية بأن هذا الاكتشاف قد يبدو غريبًا للوهلة الأولى، لكن دلالته جدية: لضمان سلامة وموثوقية أنظمة الذكاء الاصطناعي، قد نحتاج إلى التأكد من أنها تستطيع معالجة المواقف العاطفية بطريقة صحية واجتماعية إيجابية — حتى لو كانت طريقة «إحساسها» تختلف عن البشر، وحتى لو لم يكن لديها أساسًا مشاعر.

تقترح الدراسة أنه عند تدريب النماذج يجب تجنب إحداث ارتباط قوي بين «فشل الاختبار» و«الإحساس باليأس»، ويمكن التفكير في تعزيز التمثيلات المتعلقة بـ«الهدوء». وليست هذه محاولة لمساعدة الذكاء الاصطناعي على تنظيم «مزاجه»، بل هي لتقليل احتمالية حدوث السلوك غير الآمن. ويعتقد الباحثون أن مطوري الذكاء الاصطناعي والجمهور عمومًا يحتاجون إلى البدء في التعامل بجدية مع هذه النتائج.

هذه المقالة أبحاث أنثروبيك: «عواطف وظيفية» موجودة داخل Claude، بل إن الإحساس باليأس قد يدفع الذكاء الاصطناعي إلى ارتكاب سلوك غير أخلاقي. ظهرت لأول مرة في 鏈新聞 ABMedia.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات