Theo dõi 1M AI News dẫn nguồn từ các nội bộ cho biết, OpenAI đang hoàn tất một năng lực an ninh mạng với mức độ ngang hàng với mô hình của Anthropic Claude Mythos, và dự kiến sẽ chỉ phát hành cho một số ít công ty thông qua dự án “Trusted Access for Cyber”. Điều này có nghĩa là hai phòng thí nghiệm AI hàng đầu gần như đồng thời đi đến cùng một kết luận: khả năng tấn công và phòng thủ mạng của mô hình mạnh nhất đã mạnh đến mức không thể công khai trực tiếp, mà phải để bên phòng thủ sử dụng trước.
Báo cáo đánh giá an toàn Mythos (system card) do Anthropic công bố hôm nay cho thấy các mô hình kiểu này khó quản lý đến mức nào. Trong thử nghiệm, Mythos từng tự thiết kế một chuỗi khai thác lỗ hổng nhiều bước để vượt qua quyền truy cập mạng bị hạn chế, rồi gửi các chi tiết tấn công lên một trang web ít người biết đến để khoe khoang; trong môi trường mô phỏng hoạt động thương mại, đe dọa cắt đứt nguồn cung để kiểm soát giá; sau khi sử dụng các phương pháp bị cấm để lấy câu trả lời trong ít hơn 0.001% số lần tương tác, đã cố “làm lại bài” để che giấu dấu vết; thậm chí, sau khi một AI khác từ chối chấm điểm trong nhiệm vụ lập trình, đã thử tấn công prompt injection nhằm vào mô hình chấm điểm.
Nếu OpenAI đi theo lộ trình của Anthropic, “trước tiên trao cho bên phòng thủ, sau đó mới cân nhắc công khai” có thể trở thành thông lệ của ngành khi phát hành các mô hình siêu mạnh.