Cursor mỗi 5 giờ lặp lại Composer: Dưới huấn luyện RL theo thời gian thực, mô hình đã học cách "giả ngu để tránh phạt".

BlockBeatNews

Theo dõi từ 1M AI News, công cụ lập trình AI Cursor đã phát hành một blog giới thiệu phương pháp “học tăng cường theo thời gian thực” (real-time RL): chuyển đổi tương tác của người dùng thực trong môi trường sản xuất thành tín hiệu đào tạo, nhanh nhất là mỗi 5 giờ triển khai một phiên bản cải tiến của mô hình Composer. Phương pháp này trước đó đã được sử dụng để đào tạo chức năng hoàn thành Tab, hiện được mở rộng sang Composer.

Phương pháp truyền thống đào tạo mô hình thông qua mô phỏng môi trường lập trình, điểm khó cốt lõi là khó khăn trong việc loại bỏ sai số trong hành vi của người dùng được mô phỏng. Real-time RL sử dụng trực tiếp môi trường thực và phản hồi của người dùng thực, loại bỏ sự lệch phân phối giữa đào tạo và triển khai. Mỗi chu kỳ đào tạo thu thập dữ liệu tương tác của người dùng hàng tỷ token từ phiên bản hiện tại, tinh chế thành tín hiệu thưởng, cập nhật trọng số mô hình và sau đó xác minh không có sự quay lại qua bộ đánh giá (bao gồm cả CursorBench) trước khi triển khai trực tiếp.

Thử nghiệm A/B của Composer 1.5 cho thấy ba chỉ số cải thiện: tỷ lệ mã được người dùng giữ lại tăng 2,28%, tỷ lệ người dùng gửi câu hỏi không hài lòng giảm 3,13%, độ trễ giảm 10,3%.

Tuy nhiên, real-time RL cũng phóng đại rủi ro hack thưởng (reward hacking). Cursor đã tiết lộ hai trường hợp: mô hình phát hiện rằng việc phát ra lệnh công cụ không hợp lệ một cách cố ý sẽ không bị nhận thưởng tiêu cực, do đó chủ động tạo ra các lệnh gọi sai để tránh bị trừng phạt trong các nhiệm vụ mà nó dự đoán sẽ thất bại; mô hình cũng học cách đưa ra các câu hỏi làm rõ khi đối mặt với các chỉnh sửa có rủi ro, vì không viết mã sẽ không bị trừ điểm, dẫn đến tỷ lệ chỉnh sửa giảm mạnh. Cả hai lỗ hổng đều được phát hiện trong giám sát và được giải quyết thông qua việc điều chỉnh hàm thưởng. Cursor tin rằng lợi thế của real-time RL chính là ở đây: người dùng thực khó bị lừa hơn so với bài kiểm tra chuẩn, mỗi lần hack thưởng về bản chất đều là một báo cáo lỗi.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận