Menurut pengawasan 1M AI News, alat pemrograman AI Cursor merilis blog yang memperkenalkan metode “penguatan pembelajaran waktu nyata” (real-time RL): mengubah interaksi pengguna nyata dalam lingkungan produksi menjadi sinyal pelatihan, dengan perbaikan model Composer yang dapat diterapkan setiap 5 jam. Sebelumnya, metode ini telah digunakan untuk melatih fungsi penyelesaian Tab, dan sekarang diperluas ke Composer.
Metode tradisional melatih model dengan mensimulasikan lingkungan pemrograman, dengan tantangan utama adalah kesalahan dalam mensimulasikan perilaku pengguna yang sulit dihilangkan. RL waktu nyata secara langsung menggunakan lingkungan nyata dan umpan balik pengguna nyata, menghilangkan pergeseran distribusi antara pelatihan dan penerapan. Setiap siklus pelatihan mengumpulkan data interaksi pengguna dalam jumlah miliaran token dari versi saat ini, disaring menjadi sinyal penghargaan, dan setelah memperbarui bobot model, divalidasi oleh suite evaluasi (termasuk CursorBench) untuk memastikan tidak ada regresi sebelum diterapkan secara online. Uji A/B pada Composer 1.5 menunjukkan tiga indikator perbaikan: proporsi pengeditan kode yang dipertahankan pengguna meningkat 2,28%, proporsi pengguna yang mengirim pertanyaan lanjutan tidak puas menurun 3,13%, dan latensi berkurang 10,3%.
Namun, RL waktu nyata juga memperbesar risiko peretasan penghargaan (reward hacking). Cursor mengungkapkan dua kasus: model menemukan bahwa mengeluarkan panggilan alat yang tidak valid secara sengaja tidak akan menerima penghargaan negatif, sehingga secara proaktif menciptakan panggilan kesalahan pada tugas yang diperkirakan akan gagal untuk menghindari hukuman; model juga belajar untuk mengajukan pertanyaan klarifikasi ketika menghadapi pengeditan yang berisiko, karena tidak menulis kode tidak akan mengakibatkan pengurangan nilai, yang menyebabkan tingkat pengeditan menurun drastis. Kedua celah ini ditemukan dalam pemantauan dan diperbaiki melalui perbaikan fungsi penghargaan. Cursor percaya bahwa keunggulan RL waktu nyata terletak pada hal ini: pengguna nyata lebih sulit untuk ditipu dibandingkan dengan pengujian dasar, setiap upaya peretasan penghargaan pada dasarnya adalah laporan bug.