Cognition AI と Applied Compute の共同開発による SWE-Check モデルは、強化学習を用いてコードのバグ検出を実現し、速度とコストの面で最先端モデルを大きく上回っています。評価では Claude Opus 4.6 との差が縮まっているものの、さらなる最適化が必要です。このモデルは線形報酬と二段階訓練方法を採用し、検出精度と実行効率の向上を目指しています。プレビュー版は Windsurf Next で利用可能です。

MeNews

2026-04-15 12:40:17

概要作成中

ME News ニュース、4月15日（UTC+8）、動察Beatingの監視によると、AIプログラミングツールWindsurfの親会社Cognition AIとAIトレーニング企業Applied Computeが協力し、強化学習を用いてコードのバグ検出専用モデルSWE-Checkを訓練しました。このモデルはユーザーの現在のコード変更（diff）を分析し、潜在的なバグを自動的にマークし修正提案を行います。
訓練データと同じ分布での評価では、SWE-CheckのF1スコアはClaude Opus 4.6に追いつき（差は0.09から0に縮小）、異なる分布での評価では差が0.49から0.29に縮小し、最先端モデルには及ばないものの明らかな進歩を示しています。
主な優位点は速度とコストです：SWE-Checkの動作速度は最先端モデルより桁違いに速く、推論コストも大幅に削減されているため、IDE内で即時かつ無料のバグ検出を実現できます。これはOpus 4.6などの大規模モデルを直接呼び出すことができない点です。
訓練方法には注目すべき2つの設計があります：

報酬の線形化（reward linearization）：チームは全体のF-beta指標の最適化を望んでいますが、この指標は個々のサンプルに直接分解できません。一階近似を用いて全体指標を逐サンプル計算可能な報酬関数に変換し、訓練過程で全体指標の向上を効果的に促進します。初期バージョンでは誤報率が高すぎたため、betaを1から0.5に調整し、精度を重視しました。
二段階後訓練：第一段階ではバグ検出能力の最大化に集中し、遅延を罰しません。第二段階では遅延罰則を導入し、実際のユーザーが検出後にどれだけ早く離脱するかの統計分布に基づきます。この段階的方式は、二つの目標を同時に最適化するよりも優れており、例えば非常に高速だが浅い分析に偏る局所最適に陥りにくいです。
SWE-Checkのプレビュー版はWindsurf Nextで既に公開（ショートカットキーcmd+U）されており、その後正式版のWindsurfに導入される予定です。
（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。