ME News ニュース、4月15日(UTC+8)、動察Beatingの監視によると、AIプログラミングツールWindsurfの親会社Cognition AIとAIトレーニング企業Applied Computeが協力し、強化学習を用いてコードのバグ検出専用モデルSWE-Checkを訓練しました。このモデルはユーザーの現在のコード変更(diff)を分析し、潜在的なバグを自動的にマークし修正提案を行います。 訓練データと同じ分布での評価では、SWE-CheckのF1スコアはClaude Opus 4.6に追いつき(差は0.09から0に縮小)、異なる分布での評価では差が0.49から0.29に縮小し、最先端モデルには及ばないものの明らかな進歩を示しています。 主な優位点は速度とコストです:SWE-Checkの動作速度は最先端モデルより桁違いに速く、推論コストも大幅に削減されているため、IDE内で即時かつ無料のバグ検出を実現できます。これはOpus 4.6などの大規模モデルを直接呼び出すことができない点です。 訓練方法には注目すべき2つの設計があります: 1. 報酬の線形化(reward linearization):チームは全体のF-beta指標の最適化を望んでいますが、この指標は個々のサンプルに直接分解できません。一階近似を用いて全体指標を逐サンプル計算可能な報酬関数に変換し、訓練過程で全体指標の向上を効果的に促進します。初期バージョンでは誤報率が高すぎたため、betaを1から0.5に調整し、精度を重視しました。 2. 二段階後訓練:第一段階ではバグ検出能力の最大化に集中し、遅延を罰しません。第二段階では遅延罰則を導入し、実際のユーザーが検出後にどれだけ早く離脱するかの統計分布に基づきます。この段階的方式は、二つの目標を同時に最適化するよりも優れており、例えば非常に高速だが浅い分析に偏る局所最適に陥りにくいです。 SWE-Checkのプレビュー版はWindsurf Nextで既に公開(ショートカットキーcmd+U)されており、その後正式版のWindsurfに導入される予定です。 (出典:BlockBeats)
WindsurfはRLを用いてバグを捕まえる専用の小さなモデルを訓練し、内部評価ではClaude Opus 4.6に追いついた。
ME News ニュース、4月15日(UTC+8)、動察Beatingの監視によると、AIプログラミングツールWindsurfの親会社Cognition AIとAIトレーニング企業Applied Computeが協力し、強化学習を用いてコードのバグ検出専用モデルSWE-Checkを訓練しました。このモデルはユーザーの現在のコード変更(diff)を分析し、潜在的なバグを自動的にマークし修正提案を行います。
訓練データと同じ分布での評価では、SWE-CheckのF1スコアはClaude Opus 4.6に追いつき(差は0.09から0に縮小)、異なる分布での評価では差が0.49から0.29に縮小し、最先端モデルには及ばないものの明らかな進歩を示しています。
主な優位点は速度とコストです:SWE-Checkの動作速度は最先端モデルより桁違いに速く、推論コストも大幅に削減されているため、IDE内で即時かつ無料のバグ検出を実現できます。これはOpus 4.6などの大規模モデルを直接呼び出すことができない点です。
訓練方法には注目すべき2つの設計があります:
SWE-Checkのプレビュー版はWindsurf Nextで既に公開(ショートカットキーcmd+U)されており、その後正式版のWindsurfに導入される予定です。
(出典:BlockBeats)