Selon la surveillance de Beating, Zhipu a publié un rapport récapitulant les problèmes de caractères illisibles, de répétition et de caractères rares rencontrés dans la série de modèles GLM-5 dans le scénario Coding Agent. Depuis mars, certains utilisateurs ont signalé ces anomalies, qui ne se produisent que lors de tâches Coding Agent à haute concurrence et avec un contexte long (en moyenne plus de 70 000 tokens), et ne peuvent pas être reproduites dans un environnement d’inférence standard. Zhipu indique que leur système d’inférence supporte quotidiennement des centaines de millions d’appels à Coding Agent.

Après plusieurs semaines d’enquête, l’équipe a identifié deux bugs de concurrence indépendants au niveau de la couche inférieure. Le premier concerne l’architecture de séparation PD (déployant la pré-remplissage et le décodage sur des nœuds différents) : après un timeout, le côté décodage a interrompu la requête et récupéré le cache KV (qui stocke les états d’attention calculés pour éviter de recalculer), mais l’écriture RDMA du côté pré-remplissage n’était pas encore terminée. Une nouvelle requête, allouée à la même mémoire vidéo, a écrasé les anciennes données. La solution consiste à ajouter une synchronisation explicite avant la récupération, pour s’assurer que l’écriture est terminée avant de libérer la mémoire. Après mise en production, le taux d’anomalies est passé de plus de 10 parties pour 10 000 à moins de 3 parties pour 10 000.

Le second bug concerne HiCache (cache KV multiniveau) : lors du transfert asynchrone du cache depuis la mémoire CPU, il manquait un point de synchronisation entre la ligne de chargement et la ligne de calcul, ce qui pouvait entraîner la lecture de données non encore chargées. Après correction, ce type d’anomalie a disparu complètement. Le patch a été soumis à la communauté SGLang (PR #22811).

Au cours de l’enquête, une découverte inattendue a été faite : l’indicateur de taux d’acceptation de l’échantillonnage spéculatif (technique d’accélération consistant à deviner le token avec un petit modèle puis à le vérifier avec un grand modèle) peut servir de signal de détection d’anomalies. Lors d’un caractère illisible, la majorité des tokens de brouillon sont rejetés, tandis qu’en cas de répétition, le taux d’acceptation est anormalement élevé. L’équipe a mis en place une surveillance en ligne : si le seuil est atteint, la génération est automatiquement interrompue et relancée.

Après la correction des bugs, l’équipe a également optimisé le goulot d’étranglement : le cache KV stratifié LayerSplit stocke chaque couche de manière séparée sur chaque GPU, plutôt que tout le cache, en utilisant une coordination par diffusion pour le calcul. Avec un taux de hit de 90 %, pour des longueurs de requête allant de 40K à 120K, le débit a augmenté de 10 % à 132 %, avec des gains plus importants pour des contextes plus longs.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
422.25K Popularité
#
USSeeksStrategicBitcoinReserve
58.67M Popularité
#
IsraelStrikesIranBTCPlunges
37.05K Popularité
#
BitcoinETFOptionLimitQuadruples
968.94K Popularité
#
#FedHoldsRateButDividesDeepen
18.69K Popularité

Épingler

Revue de Zhipu sur GLM-5 « le problème de caractères illisibles » : des centaines de millions d'appels quotidiens de Coding Agent, deux bugs de concurrence cachés dans le cache KV

Sujets populaires

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Épingler