2025-10-18 09:04:11

Algoritma yarışmalarının dünyasında, kurallar net, kısıtlamalar katı ve değerlendirme acımasızdır.

@SentientAGI tarafından yayınlanan LiveCodeBench Pro, bu gerçek programlama ortamını model değerlendirme sistemine tam olarak taşıdı ve resmi olarak @NeurIPSConf tarafından kabul edildi.

Bu sistem, "model kod yazabilir" meselesini yeniden tanımlıyor.
Değerlendirme süreci, tam bir algoritma akışını kapsar: Sorunun okunması, çözüm tasarımı, kodun üretilmesi, derlenmesi ve çalıştırılması, gizli testlerin geçilmesi.
Her aşama, tek bir Docker ortamında çalışır ve zaman ile bellek sınırlamaları, orijinal yarışma standartlarına sıkı bir şekilde uyar.

Geleneksel değerlendirmeler genellikle gevşek koşullar ve tekrar eden soru havuzları kullanır; modelin puanları göz alıcı görünse de, tekrar edilebilirliği zordur.
LiveCodeBench Pro, gerçek yarışmalardan en son soruları alır, o anki kısıtlamaları kilitler, Codeforces tarzı hack aşaması ve dahili fuzz testleri ekler.
Değerlendirme sonuçları yeterli bir şekilde karşılaştırılmış ve test edilmiştir; bu, modelin gerçek algoritma yeteneğini ve kodun yürütme performansını yansıtabilmektedir.

Tüm süreç, yarışmanın bitişiyle başlar: Sistem otomatik olarak soru metnini, giriş oluşturucusunu ve değerlendirme mantığını alır, ardından orijinal kısıtları dondurur.
Model, sınırlı kaynaklar içinde tam bir çözüm tamamlamalı, derlenebilir bir C++ programı oluşturmalı ve birleştirilmiş bir ortamda gizli testlere tabi tutulmalıdır.
Her çalıştırmada tam günlük, zaman tüketimi, bellek kullanımı, derleme bilgisi ve değerlendirme sonuçları çıktısı verilir, bu da sonraki analizler için eksiksiz bir dayanak sağlar.

Görev kaynağı birden fazla yetkili yarışma platformunu kapsar:

- Codeforces sürekli olarak çeşitli en son soruları sunuyor;
- ICPC, ekip çalışması altında hızlı algoritma tasarımı ve uygulamasını yansıtır;
- IOI, yapı ve karmaşıklık kontrolüne yönelik olimpiyat düzeyinde zorluklar sunar.

Soru zorluğu, Elo benzeri dinamik bir derecelendirme sistemi kullanır:
≤2000 Kolay, 2000–3000 Orta, >3000 Zor.
Zorluk seviyeleri, insanların ve modellerin problem çözme kayıtlarıyla gerçek zamanlı olarak güncellenecek ve değerlendirme sonuçlarının farklı zaman noktalarında karşılaştırılabilirlik ve güvenilirlik taşımasını sağlayacaktır.

LiveCodeBench Pro, yerel yeniden üretim ve kamu karşılaştırmalarını destekler.
Sadece depo'yu klonlayın, Python 3.12 ve Docker'ı yükleyin ve model adaptörünü yapılandırın, ardından yerel olarak tam değerlendirme çalıştırabilirsiniz.
Yerel sonuçlar ve genel sıralama aynı değerlendirme ortamı ve veri setini kullanır, puanlar arasında doğrudan karşılaştırma yapılmasını sağlar.

Her çalıştırmada, her sorunun değerlendirmesi, çalışma süresi, bellek kullanımı ve hata etiketlerini kaydeden yapılandırılmış bir JSON dosyası oluşturulmaktadır. Bu, araştırma ekibinin sorun kaynaklarını derinlemesine belirlemesine yardımcı olur.
Bu veriler, modelin uzun mesafe mantığı, arama stratejileri, karmaşıklık kontrolü veya veri yapısı tasarımı konusundaki belirli zayıflıklarını ortaya koymakta ve iyileştirme için net bir yön sağlamaktadır.

Üretken modelin yüksek puan ve ipucu tekniklerini sıkça aradığı aşamada, LiveCodeBench Pro temiz bir referans sunar.
Bu, algoritma yeteneklerini gerçek bağlama geri getiriyor ve modeli insan programcılarıyla aynı kurallar ve baskılarla yüzleştiriyor.
Bu, mantık ve uygulama ile ilgili bir sınavdır ve ayrıca programlama anlayışındaki gerçek sınırları yansıtan net bir aynadır.

LiveCodeBench Pro, kodu kuralların dünyasına geri döndürür ve değerlendirmeyi doğrulanabilir bir gerçeğe getirir.

#KAITO #cookiedotfun #SentientAGI #Sentient

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Repost
Share

Comment

0/400

No comments

Trending TopicsView More
#GateSeptemberTransparencyReportComing
14K Popularity
#CryptoMarketPullback
126K Popularity
#OctoberRateCutForecast
11.9K Popularity
#RipplePlans$1BXRPReserve
3.6K Popularity
#ShowMyAlphaPoints
198.4K Popularity

Hot Gate FunView More
1GDOGGdog
MC:$1.4MHolders:2877
2芝麻开门芝麻开门
MC:$586.8KHolders:116
3GCATGCAT
MC:$425.4KHolders:5137
4GMGMEME
MC:$64.6KHolders:904
5GCATGcat
MC:$40.6KHolders:520

Sitemap