إطار العمل التلقائي لتحسين الأداء بالذكاء الاصطناعي يجعل نتائج Haiku 4.5 تتصدر الترتيب: لين جون يانغ يقول إن هذا هو التحول الذي توقعه في «تصميم البيئة»

CoinNetwork

تقرير من موقع CoinJie.com. وبحسب ما رصدته خدمة 1M AI News، نشر باحثون من ستانفورد وMIT وشركة ألعاب كورية KRAFTON إطار Meta-Harness، وهو مجموعة تمكّن الذكاء الاصطناعي من تحسين التنفيذ تلقائيًا ضمن بنية عمل (harness، أي “حاضنة” تغلف النموذج وتوفر السقالات التنفيذية التي تدفع الـ Agent لاتخاذ الإجراءات، وتشمل تصميم تعليمات الـ prompts واستدعاء الأدوات وإدارة السياق). وبخلاف أطر التنفيذ المكتوبة يدويًا، يتيح Meta-Harness لـ Agent برمجي قراءة كود أطر المرشحين السابقة وسجلات التنفيذ والتقييمات، ثم يكرر تلقائيًا لتحسين الأداء. ضمن معيار العمليات الطرفية TerminalBench-2، رفع Meta-Harness معدل نجاح Claude Haiku 4.5 إلى 37.6%، متجاوزًا Goose (35.5%) وClaude Code (27.5%)، ليحتل المركز الأول بين جميع أطر تنفيذ Haiku 4.5 التي تم الإبلاغ عنها. وعلى Claude Opus 4.6 بلغ معدل النجاح 76.4%، ليأتي في المرتبة الثانية. قام المسؤول التقني السابق لدى Tongyi Qianwen، Lin Junyang، بإعادة نشر منشور مؤلف الورقة مع تعليق: «إن “النموذج مع إطار التنفيذ” تجاوز “الاكتفاء بالنظر إلى النموذج”، وستتأثر أداءات الـ Agent بشكل ملحوظ بتصميم وجودة الإطار؛ وأنا أعتقد حقًا أن هذا اتجاه صحيح». وفي مقال طويل نُشر في 27 مارس (تم حذفه حاليًا)، تنبّأ Lin Junyang بأن تصميم البيئة سيتحوّل من مشروع جانبي إلى فئة منتجات ريادية حقيقية. وقد أثبتت بيانات تجريبية هذا الحكم: نفس النموذج، عند استبداله بأطر تنفيذ مُحسّنة بواسطة ذكاء اصطناعي، يمكن أن يصل فرق النتائج إلى 10 نقاط مئوية.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات