أطلقت ByteDance وجامعة تشجيانغ بشكل مشترك Vista-LLaMA ، وهو نموذج لغة كبيرة متعدد الوسائط يمكنه تفسير محتوى الفيديو

2024-01-09 05:19:41

دخلت Bit ByteDance في شراكة مع جامعة تشجيانغ لإطلاق Vista-LLaMA ، وهو نموذج لغوي كبير متعدد الوسائط مصمم لفهم محتوى الفيديو وقادر على إخراج أوصاف فيديو عالية الجودة. من خلال معالجة الرموز المرئية واللفظية المبتكرة ، يحل Vista-LLaMA مشكلة “الهلوسة” في محتوى الفيديو.

يتفوق Vista-LLaMA في العديد من معايير الأسئلة والأجوبة للفيديو المفتوح ، خاصة في اختبارات NExT-QA و MSRVTT-QA. حققت معدل دقة بنسبة 60.7٪ في اختبار NExT-QA بدون طلقة و 60.5٪ في اختبار MSRVTT-QA ، متجاوزة جميع طرق SOTA الحالية. توضح هذه النتائج كفاءة ودقة Vista-LLaMA في فهم محتوى الفيديو وإنشاء الوصف.

TOKEN-0.72%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1