OpenAI مفتوح المصدر PaperBench ، إعادة تشكيل تقييمات أفضل وكيل ذكاء اصطناعي

robot
إنشاء الملخص قيد التقدم

جين10 بيانات 3 أبريل ، اليوم في الساعة 1 صباحًا ، أصدرت OpenAI معيار تقييم جديد لوكلاء الذكاء الاصطناعي - PaperBench. هذا المعيار يقيم بشكل أساسي قدرات الوكلاء في البحث والتكامل والتنفيذ ، ويتطلب إعادة إنتاج أفضل الأوراق البحثية في مؤتمر التعلم الآلي الدولي لعام 2024 ، بما في ذلك فهم محتوى الورقة وكتابة الشيفرة وتنفيذ التجارب. وفقًا لبيانات اختبار OpenAI المنشورة ، لا تزال الوكلاء التي تم إنشاؤها بواسطة نماذج كبيرة معروفة غير قادرة على التغلب على أفضل حاملي الدكتوراه في التعلم الآلي. لكنهم مفيدون جدًا في دعم التعلم وفهم محتوى البحث.

AGENT1.34%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخنعرض المزيد
  • القيمة السوقية:$1.7Mعدد الحائزين:10579
  • القيمة السوقية:$1.1Mعدد الحائزين:4792
  • القيمة السوقية:$623.7Kعدد الحائزين:124
  • القيمة السوقية:$168.1Kعدد الحائزين:182
  • القيمة السوقية:$95.1Kعدد الحائزين:2793
  • تثبيت