لقد رأيت للتو أن @SentientAGI قد نشر SPIN-Bench، وهذا بالضبط يكمل الجزء الذي يُهمل غالبًا في تقييم الذكاء الاصطناعي.
تقوم العديد من المعايير باختبار نموذج واحد فقط للقيام بأعمال قصيرة وسريعة، لكن الأنظمة الذكية حقًا يجب أن تكون قادرة على التخطيط على المدى الطويل، والتعاون في ظل عدم اليقين، وحتى فهم ما يريده الآخرون. تقوم SPIN-Bench بتنظيم هذه التحديات باستخدام "سلم صعوبة قابل للتحكم" و"تفاعل متعدد الوكلاء"، مما يسمح بقياس التقدم.
لماذا يقال إنه موحد؟ —————————————————————————
SPIN-Bench هو مجموعة اختبارات موحدة وبيئة محاكاة يمكن تشغيل الوكلاء فيها. يمكن استدعاء ثلاثة أبعاد رئيسية بشكل منهجي: مدى تعقيد العمل/الحالة، مدى طول المهمة، وعدد الأفراد المطلوب التفاعل معهم.
تغطية أربع فئات من المشاهد التمثيلية:
تخطيط PDDL: إعطاء الأهداف والقواعد، وتخطيط خطة طويلة قابلة للتنفيذ. يجب أن تكون قادرًا على تقسيم الأهداف، وتسجيل القيود، والتحقق من إمكانية المرور عبر السلسلة بأكملها.
الألعاب التنافسية: لا يمكن السير حسب السيناريو فقط، تحتاج إلى البحث، التقييم، وتعديل التكتيكات حسب تحركات الخصم في الوقت المناسب.
بطاقة التعاون: معلومات غير كاملة، تواصل محدود. المفتاح هو التعاون مع الزملاء، وتخمين المعلومات المخفية، ونقل النوايا باستخدام معلومات محدودة.
مشهد دبلوماسي: مثل Diplomacy هناك صراعات مصالح. يجب أن تكون قادرًا على الاقتراح، والتحالف، والتعرف على المعلومات الخاطئة، وما إلى ذلك.
أكثر الأماكن التي قد "تفقد فيها السلاسل" في النموذج —————————————————————————
لا توجد مشكلة في استخدام LLM للبحث عن المعلومات أو وضع خطط قصيرة، ولكن بمجرد الحاجة إلى إجراء استدلالات متعددة الخطوات، أو مواجهة مساحة حالة أكبر، أو أخذ المزيد من الخصوم أو الزملاء في الاعتبار، فإن الأداء سيتدهور بشكل حاد.
خصوصًا في المهام التي تتطلب علاقات اجتماعية، يجب التعاون، ويجب الإشارة، ويجب التفاوض.
SPIN-Bench يقوم بتفكيك هذه المراحل. من خلال تحديد مكان الخطأ وسبب الخطأ، يمكن تحسين الأمور بشكل أكثر استهدافًا.
—————————————————————————
عندما نتمكن من قياس "مدى عمق التخطيط، ومدى جودة التعاون، وفعالية التواصل" بشكل مستقر، فإن التحسين سيكون له مقياس واضح. @SentientAGI يوفر SPIN-Bench مقياساً يمكن أن يشير إلى نقطة الانطلاق التالية. باستخدام هذه المسطرة لتحسين التخطيط طويل الأمد والاستدلال الاجتماعي، ستتقدم الذكاء الاصطناعي خطوة أخرى نحو شكل أكثر عمومية وموثوقية.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
لقد رأيت للتو أن @SentientAGI قد نشر SPIN-Bench، وهذا بالضبط يكمل الجزء الذي يُهمل غالبًا في تقييم الذكاء الاصطناعي.
تقوم العديد من المعايير باختبار نموذج واحد فقط للقيام بأعمال قصيرة وسريعة، لكن الأنظمة الذكية حقًا يجب أن تكون قادرة على التخطيط على المدى الطويل، والتعاون في ظل عدم اليقين، وحتى فهم ما يريده الآخرون. تقوم SPIN-Bench بتنظيم هذه التحديات باستخدام "سلم صعوبة قابل للتحكم" و"تفاعل متعدد الوكلاء"، مما يسمح بقياس التقدم.
لماذا يقال إنه موحد؟
—————————————————————————
SPIN-Bench هو مجموعة اختبارات موحدة وبيئة محاكاة يمكن تشغيل الوكلاء فيها. يمكن استدعاء ثلاثة أبعاد رئيسية بشكل منهجي: مدى تعقيد العمل/الحالة، مدى طول المهمة، وعدد الأفراد المطلوب التفاعل معهم.
تغطية أربع فئات من المشاهد التمثيلية:
تخطيط PDDL: إعطاء الأهداف والقواعد، وتخطيط خطة طويلة قابلة للتنفيذ. يجب أن تكون قادرًا على تقسيم الأهداف، وتسجيل القيود، والتحقق من إمكانية المرور عبر السلسلة بأكملها.
الألعاب التنافسية: لا يمكن السير حسب السيناريو فقط، تحتاج إلى البحث، التقييم، وتعديل التكتيكات حسب تحركات الخصم في الوقت المناسب.
بطاقة التعاون: معلومات غير كاملة، تواصل محدود. المفتاح هو التعاون مع الزملاء، وتخمين المعلومات المخفية، ونقل النوايا باستخدام معلومات محدودة.
مشهد دبلوماسي: مثل Diplomacy هناك صراعات مصالح. يجب أن تكون قادرًا على الاقتراح، والتحالف، والتعرف على المعلومات الخاطئة، وما إلى ذلك.
أكثر الأماكن التي قد "تفقد فيها السلاسل" في النموذج
—————————————————————————
لا توجد مشكلة في استخدام LLM للبحث عن المعلومات أو وضع خطط قصيرة، ولكن بمجرد الحاجة إلى إجراء استدلالات متعددة الخطوات، أو مواجهة مساحة حالة أكبر، أو أخذ المزيد من الخصوم أو الزملاء في الاعتبار، فإن الأداء سيتدهور بشكل حاد.
خصوصًا في المهام التي تتطلب علاقات اجتماعية، يجب التعاون، ويجب الإشارة، ويجب التفاوض.
SPIN-Bench يقوم بتفكيك هذه المراحل. من خلال تحديد مكان الخطأ وسبب الخطأ، يمكن تحسين الأمور بشكل أكثر استهدافًا.
—————————————————————————
عندما نتمكن من قياس "مدى عمق التخطيط، ومدى جودة التعاون، وفعالية التواصل" بشكل مستقر، فإن التحسين سيكون له مقياس واضح. @SentientAGI يوفر SPIN-Bench مقياساً يمكن أن يشير إلى نقطة الانطلاق التالية.
باستخدام هذه المسطرة لتحسين التخطيط طويل الأمد والاستدلال الاجتماعي، ستتقدم الذكاء الاصطناعي خطوة أخرى نحو شكل أكثر عمومية وموثوقية.