Yeni gördüm ki @SentientAGI SPIN-Bench'i yayınladı, bu da AI değerlendirmesinde en kolay gözden kaçan bir alanı tam olarak tamamladı.



Birçok benchmark yalnızca tek bir modelin kısa ve hızlı işler yapmasını değerlendirir, ancak gerçekten akıllı sistemlerin uzun vadeli planlama yapabilmesi, belirsizlik içinde iş birliği yapabilmesi ve hatta başkalarının ne yapmak istediğini anlayabilmesi gerekir. SPIN-Bench, bu zorlukları "kontrollü zorluk merdiveni" ve "çoklu akıllı etkileşim" ile bir araya getirerek ilerlemenin ölçülmesini sağlar.

Neden birleşik olduğunu söylüyoruz?
—————————————————————————

SPIN-Bench hem standartlaştırılmış bir test seti hem de çalıştırılabilir bir akıllı ajan simülasyon ortamıdır. Hareketlerin/ durumların ne kadar karmaşık olduğu, görevlerin ne kadar uzun süreceği ve kaç birey ile etkileşim gerektiği gibi üç ana boyutu sistematik bir şekilde çağırabilir.

Dört ana temsilci senaryoyu kapsar:

PDDL planlaması: Hedef ve kurallar verildiğinde, uygulanabilir bir uzun plan oluşturun. Hedefleri parçalamayı, kısıtlamaları hatırlamayı ve tüm bağlantının geçerli olup olmadığını doğrulamayı bilmelisiniz.

Rekabetçi satranç: Sadece senaryoya göre oynamak yeterli değil, araştırma yapmak, değerlendirme yapmak ve rakibin hamlelerine zamanında yanıt vermek gerekiyor.

İşbirliği Kartı: Bilgi eksik, iletişim sınırlı. Anahtar, takım arkadaşlarıyla işbirliği yapmak, gizli bilgileri tahmin etmek ve sınırlı bilgileri kullanarak niyeti iletmektir.

Diplomasi gibi çıkar çatışmalarının olduğu bir diplomasi sahnesi. Teklif vermeyi, ittifak kurmayı, yanlış bilgileri tanımayı bilmelisiniz.

Modelin en kolay "zayıf halkası" olduğu yer
—————————————————————————

LLM, bilgi araştırma ve kısa planlar yapmada sorun yaşamaz; ancak çok adımlı akıl yürütme gerektiğinde, daha büyük bir durum alanıyla karşılaştığında ve aynı anda daha fazla rakip veya takım arkadaşını dikkate alması gerektiğinde, performansı ani bir şekilde düşer.

Özellikle sosyal ilişkiler içeren görevlerde iş birliği yapmalı, ima etmeli ve müzakere etmelisiniz.

SPIN-Bench bu aşamaları parçalar. Nerede hata yapıldığını ve neden hata yapıldığını belirleyerek, daha hedefe yönelik iyileştirmeler yapabilirsiniz.

—————————————————————————

"Plan ne kadar derin, işbirliği ne kadar iyi, iletişim ne kadar etkili ölçülebiliyorsa, iyileştirmelerin de net bir ölçüsü olur. @SentientAGI SPIN-Bench, bir sonraki sıçrama noktasını gösterebilen bir standart cetvel sunuyor."
Bu cetveli uzun vadeli planlama ve sosyal akıl yürütmeyi optimize etmek için kullanmak, AI'nın daha genel ve daha güvenilir bir zeka biçimine bir adım daha yaklaşmasını sağlayacaktır.
View Original
post-image
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)