أطلقت ByteDance وجامعة تشجيانغ بشكل مشترك Vista-LLaMA ، وهو نموذج لغة كبيرة متعدد الوسائط يمكنه تفسير محتوى الفيديو

دخلت Bit ByteDance في شراكة مع جامعة تشجيانغ لإطلاق Vista-LLaMA ، وهو نموذج لغوي كبير متعدد الوسائط مصمم لفهم محتوى الفيديو وقادر على إخراج أوصاف فيديو عالية الجودة. من خلال معالجة الرموز المرئية واللفظية المبتكرة ، يحل Vista-LLaMA مشكلة “الهلوسة” في محتوى الفيديو.

يتفوق Vista-LLaMA في العديد من معايير الأسئلة والأجوبة للفيديو المفتوح ، خاصة في اختبارات NExT-QA و MSRVTT-QA. حققت معدل دقة بنسبة 60.7٪ في اختبار NExT-QA بدون طلقة و 60.5٪ في اختبار MSRVTT-QA ، متجاوزة جميع طرق SOTA الحالية. توضح هذه النتائج كفاءة ودقة Vista-LLaMA في فهم محتوى الفيديو وإنشاء الوصف.

TOKEN0.85%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 1
  • إعادة النشر
  • مشاركة
تعليق
0/400
TalkingAboutCurrencyvip
· 2024-03-14 21:37
عشيق الكل في 🙌
شاهد النسخة الأصليةرد0
  • Gate Fun الساخنعرض المزيد
  • القيمة السوقية:$1.2Mعدد الحائزين:4818
  • القيمة السوقية:$1.2Mعدد الحائزين:10569
  • القيمة السوقية:$652.8Kعدد الحائزين:123
  • القيمة السوقية:$133.8Kعدد الحائزين:179
  • القيمة السوقية:$73.2Kعدد الحائزين:2788
  • تثبيت