Dans le monde des compétitions d'algorithmes, les règles sont claires, les restrictions sont strictes et les évaluations ne laissent aucune place à la pitié.



@SentientAGI a publié LiveCodeBench Pro, qui a complètement intégré cet environnement de programmation réel dans le système d'évaluation des modèles, et a été officiellement accepté par @NeurIPSConf.

Ce système redéfinit la notion que « le modèle peut écrire du code ».
Le processus d'évaluation couvre l'ensemble du chemin de raisonnement algorithmique : lire la question, concevoir un plan, générer du code, compiler et exécuter, passer les tests cachés.
Chaque étape s'exécute dans un environnement Docker unifié, avec des limites de temps et de mémoire qui respectent strictement les normes de la compétition d'origine.

Les évaluations traditionnelles utilisent souvent des conditions laxistes et des banques de questions répétitives, les scores des modèles semblent impressionnants, mais il est difficile de les reproduire.
LiveCodeBench Pro extrait directement les dernières questions des compétitions réelles, verrouille les contraintes du moment, ajoute une phase de hack de style Codeforces et des tests internes de fuzz.
Les résultats des tests, après des confrontations et des vérifications approfondies, peuvent refléter la véritable capacité algorithmique du modèle et les performances d'exécution du code.

Le processus commence à la fin de la compétition : le système extrait automatiquement le sujet, le générateur d'entrées et la logique d'évaluation, puis fige les contraintes originales.
Le modèle doit résoudre complètement le problème dans les ressources limitées, générer un programme C++ compilable et passer des tests cachés dans un environnement uniforme.
Chaque exécution produira des journaux complets, le temps de consommation, l'utilisation de la mémoire, les informations de compilation et les résultats d'évaluation, fournissant ainsi une base complète pour l'analyse ultérieure.

La source de la tâche couvre plusieurs plates-formes de concours autorisées :

- Codeforces continue à proposer une variété de nouveaux problèmes ;
- ICPC reflète la conception et la réalisation rapide d'algorithmes en équipe ;
- IOI apporte des défis de niveau olympique axés sur la structure et le contrôle de la complexité.

La difficulté des questions utilise un système de classement dynamique similaire à Elo :
≤2000 est Easy, 2000–3000 est Medium, >3000 est Hard.
Le niveau de difficulté sera mis à jour en temps réel en fonction des enregistrements de résolution de problèmes par les humains et les modèles, garantissant que les résultats des évaluations soient comparables et fiables à différents moments.

LiveCodeBench Pro prend en charge la reproduction locale et la comparaison publique.
Il suffit de cloner le dépôt, d'installer Python 3.12 et Docker, et de configurer l'adaptateur de modèle pour exécuter complètement l'évaluation en local.
Les résultats locaux et le classement public utilisent le même environnement de jugement et le même ensemble de données, garantissant que les scores peuvent être directement comparés.

À chaque exécution, un fichier JSON structuré est généré, enregistrant le jugement de chaque question, le temps d'exécution, l'utilisation de la mémoire et les étiquettes d'échec, facilitant ainsi l'analyse par l'équipe de recherche pour identifier l'origine des problèmes.
Ces données révèlent les faiblesses spécifiques du modèle en matière de logique à long terme, de stratégie de recherche, de contrôle de complexité ou de conception de structures de données, fournissant une direction claire pour les améliorations.

Dans une phase où les modèles génératifs recherchent fréquemment des scores élevés et des techniques d'indication, LiveCodeBench Pro offre un référentiel propre.
Il ramène la capacité algorithmique dans un contexte réel, permettant au modèle de faire face aux mêmes règles et pressions que les programmeurs humains.
C'est un test sur la logique et l'exécution, mais aussi un miroir clair qui montre les véritables limites de la compréhension des modèles en programmation.

LiveCodeBench Pro ramène le code dans le monde des règles, et les évaluations dans une réalité vérifiable.

#KAITO #cookiedotfun #SentientAGI #Sentient
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)