Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
GateRouter
Choisissez intelligemment parmi plus de 40 modèles d’IA, avec 0 % de frais supplémentaires
Revue de Zhipu sur GLM-5 « le problème de caractères illisibles » : des centaines de millions d'appels quotidiens de Coding Agent, deux bugs de concurrence cachés dans le cache KV
Selon la surveillance de Beating, Zhipu a publié un rapport récapitulant les problèmes de caractères illisibles, de répétition et de caractères rares rencontrés dans la série de modèles GLM-5 dans le scénario Coding Agent. Depuis mars, certains utilisateurs ont signalé ces anomalies, qui ne se produisent que lors de tâches Coding Agent à haute concurrence et avec un contexte long (en moyenne plus de 70 000 tokens), et ne peuvent pas être reproduites dans un environnement d’inférence standard. Zhipu indique que leur système d’inférence supporte quotidiennement des centaines de millions d’appels à Coding Agent.
Après plusieurs semaines d’enquête, l’équipe a identifié deux bugs de concurrence indépendants au niveau de la couche inférieure. Le premier concerne l’architecture de séparation PD (déployant la pré-remplissage et le décodage sur des nœuds différents) : après un timeout, le côté décodage a interrompu la requête et récupéré le cache KV (qui stocke les états d’attention calculés pour éviter de recalculer), mais l’écriture RDMA du côté pré-remplissage n’était pas encore terminée. Une nouvelle requête, allouée à la même mémoire vidéo, a écrasé les anciennes données. La solution consiste à ajouter une synchronisation explicite avant la récupération, pour s’assurer que l’écriture est terminée avant de libérer la mémoire. Après mise en production, le taux d’anomalies est passé de plus de 10 parties pour 10 000 à moins de 3 parties pour 10 000.
Le second bug concerne HiCache (cache KV multiniveau) : lors du transfert asynchrone du cache depuis la mémoire CPU, il manquait un point de synchronisation entre la ligne de chargement et la ligne de calcul, ce qui pouvait entraîner la lecture de données non encore chargées. Après correction, ce type d’anomalie a disparu complètement. Le patch a été soumis à la communauté SGLang (PR #22811).
Au cours de l’enquête, une découverte inattendue a été faite : l’indicateur de taux d’acceptation de l’échantillonnage spéculatif (technique d’accélération consistant à deviner le token avec un petit modèle puis à le vérifier avec un grand modèle) peut servir de signal de détection d’anomalies. Lors d’un caractère illisible, la majorité des tokens de brouillon sont rejetés, tandis qu’en cas de répétition, le taux d’acceptation est anormalement élevé. L’équipe a mis en place une surveillance en ligne : si le seuil est atteint, la génération est automatiquement interrompue et relancée.
Après la correction des bugs, l’équipe a également optimisé le goulot d’étranglement : le cache KV stratifié LayerSplit stocke chaque couche de manière séparée sur chaque GPU, plutôt que tout le cache, en utilisant une coordination par diffusion pour le calcul. Avec un taux de hit de 90 %, pour des longueurs de requête allant de 40K à 120K, le débit a augmenté de 10 % à 132 %, avec des gains plus importants pour des contextes plus longs.