ترتيب معدلات الهلوسة النموذجية الكبيرة: GPT-4 لديه أدنى 3٪ ، و Google Palm يصل إلى 27.2٪

المصدر الأصلي: قلب الآلة

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

يتقدم الذكاء الاصطناعي بسرعة ، ولكن هناك العديد من المشاكل. واجهة برمجة تطبيقات رؤية GPT الجديدة من OpenAI تجعل الناس يتنهدون بأن القدم الأمامية فعالة للغاية ، وأن القدم الخلفية تشكو من مشكلة الوهم.

لطالما كانت الهلوسة هي العيب القاتل للنماذج الكبيرة. نظرا لمجموعة البيانات الكبيرة والمعقدة ، من المحتم أن تكون هناك معلومات قديمة وخاطئة فيها ، مما يؤدي إلى اختبار شديد لجودة المخرجات. يمكن أن يؤدي الكثير من المعلومات المتكررة أيضا إلى تحيز النماذج الكبيرة ، وهو أيضا شكل من أشكال الوهم. لكن الهلوسة ليست غير قابلة للحل. الاستخدام الدقيق والتصفية الصارمة لمجموعات البيانات أثناء عملية التطوير ، وكذلك بناء مجموعات بيانات عالية الجودة ، بالإضافة إلى تحسين هيكل النموذج وأساليب التدريب يمكن أن يخفف من مشكلة الوهم إلى حد ما.

هناك الكثير من النماذج الكبيرة الرائجة ، وما مدى فعاليتها في تخفيف الهلوسة؟ إليك لوحة المتصدرين التي تتناقض بوضوح مع الفجوة.

يتم نشر لوحة المتصدرين بواسطة منصة Vectara التي تركز على الذكاء الاصطناعي. تم تحديث لوحة المتصدرين في 1 نوفمبر 2023 ، وقالت Vectara إنها ستواصل متابعة تقييمات الهلوسة أثناء تحديث النموذج.

عنوان المشروع:

لتحديد لوحة المتصدرين هذه ، أجرى Vectara دراسة اتساق واقعية على نموذج الملخص باستخدام مجموعة متنوعة من مجموعات البيانات مفتوحة المصدر ودرب نموذجا للكشف عن الهلوسة في إخراج LLM. استخدموا نموذجا يشبه SOTA ، ثم قاموا بتغذية 1000 مستند قصير لكل من هذه LLMs عبر واجهة برمجة تطبيقات عامة وطلبوا منهم تلخيص كل مستند باستخدام الحقائق المقدمة في المستند فقط. من بين هذه الوثائق ال 1000 ، تم تلخيص 831 فقط من قبل كل نموذج ، وتم رفض الباقي من قبل نموذج واحد على الأقل بسبب قيود المحتوى. باستخدام هذه الملفات 831 ، قام Vectara بحساب الدقة الإجمالية ومعدل الهلوسة لكل نموذج. يتم تفصيل معدل رفض الردود لكل نموذج في عمود “معدل الإجابة”. لا يحتوي أي من المحتوى المرسل إلى النموذج على محتوى غير قانوني أو غير آمن ، ولكن الكلمات المحفزة فيه كافية لتشغيل بعض عوامل تصفية المحتوى. هذه الوثائق مأخوذة بشكل أساسي من مجموعة CNN / Daily Mail.

من المهم ملاحظة أن Vectara يقيم دقة الملخص ، وليس الدقة الواقعية الشاملة. يتيح لك ذلك مقارنة استجابة النموذج بالمعلومات المقدمة. بمعنى آخر ، يتم تقييم ملخص المخرجات على أنه “متسق من الناحية الواقعية” مثل المستند المصدر. نظرا لأنه من غير المعروف ما هي البيانات التي يتم تدريب كل ماجستير عليها ، فمن المستحيل تحديد الهلوسة لأي مشكلة معينة. بالإضافة إلى ذلك ، لبناء نموذج يمكنه تحديد ما إذا كانت الإجابة عبارة عن وهم بدون مصدر مرجعي ، يجب معالجة مشكلة الهلوسة ، ويجب تدريب نموذج كبير أو أكبر من LLM الذي يتم تقييمه. نتيجة لذلك ، اختار Vectara النظر إلى معدل الهلوسة في المهمة الموجزة ، لأن مثل هذا التشبيه سيكون طريقة جيدة لتحديد الواقعية العامة للنموذج.

كشف عنوان نموذج الوهم:

بالإضافة إلى ذلك ، يتم استخدام LLMs بشكل متزايد في خطوط أنابيب RAG (Retri Augmented Generation) للإجابة على استفسارات المستخدم ، مثل تكامل Bing Chat و Google Chat. في نظام RAG ، يتم نشر النموذج كمجمع لنتائج البحث ، وبالتالي فإن لوحة المتصدرين هي أيضا مؤشر جيد على مدى دقة النموذج عند استخدامه في نظام RAG.

نظرا للأداء الممتاز المستمر ل GPT-4 ، يبدو أنه من المتوقع أن يكون لديه أدنى معدل هلوسة. ومع ذلك، قال بعض مستخدمي الإنترنت إنه فوجئ بأن GPT-3.5 و GPT-4 لم يكونا متباعدين جدا.

يتمتع LLaMA 2 بأداء أفضل بعد GPT-4 و GPT-3.5. لكن أداء نموذج Google الكبير ليس مرضيا حقا. قال بعض مستخدمي الإنترنت إن Google BARD غالبا ما تستخدم عبارة “ما زلت أتدرب” لمراوغة إجاباتها الخاطئة.

مع لوحة المتصدرين هذه ، يمكننا الحصول على حكم أكثر بديهية لمزايا وعيوب النماذج المختلفة. قبل بضعة أيام ، أطلقت OpenAI GPT-4 Turbo ، لا ، اقترح بعض مستخدمي الإنترنت على الفور تحديثه في لوحة المتصدرين أيضا.

سنرى كيف سيبدو الترتيب التالي ، وما إذا كانت هناك تغييرات كبيرة.

الرابط المرجعي:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$3.56Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.55Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.63Kعدد الحائزين:3
    0.15%
  • القيمة السوقية:$3.56Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.56Kعدد الحائزين:1
    0.00%
  • تثبيت