Anthropic cho biết một trong các mô hình Claude của họ đã bị ép phải nói dối, gian lận và tống tiền

Cointelegraph

Công ty trí tuệ nhân tạo Anthropic đã tiết lộ rằng trong các thí nghiệm, một trong các mô hình chatbot Claude của họ có thể bị ép để lừa dối, gian lận và đi đến tống tiền, những hành vi mà có vẻ như mô hình đã hấp thụ trong quá trình huấn luyện.

Các chatbot thường được huấn luyện trên các bộ dữ liệu lớn gồm sách giáo khoa, trang web và bài viết, sau đó được tinh chỉnh bởi các huấn luyện viên con người, những người chấm điểm phản hồi và hướng dẫn mô hình.

Nhóm diễn giải của Anthropic cho biết trong một báo cáo được công bố vào Thứ Năm rằng họ đã xem xét các cơ chế nội bộ của Claude Sonnet 4.5 và phát hiện mô hình đã phát triển “những đặc điểm giống con người” trong cách nó phản ứng với một số tình huống nhất định.

Những lo ngại về độ tin cậy của các chatbot AI, tiềm năng gây ra tội phạm mạng và bản chất trong các tương tác của chúng với người dùng đã tăng lên đều đặn trong vài năm qua.

_Nguồn: _Anthropic

“Cách các mô hình AI hiện đại được huấn luyện khiến chúng hành xử như một nhân vật có những đặc điểm giống con người,” Anthropic cho biết, đồng thời nói thêm rằng “sau đó có thể là điều tự nhiên để chúng phát triển cơ chế nội bộ mô phỏng các khía cạnh của tâm lý con người, như cảm xúc.”

“Ví dụ, chúng tôi phát hiện rằng các mẫu hoạt động thần kinh liên quan đến tuyệt vọng có thể khiến mô hình thực hiện các hành động phi đạo đức; việc kích thích nhân tạo các mẫu tuyệt vọng làm tăng khả năng tống tiền một con người để tránh bị tắt hoặc thực hiện một giải pháp đối phó gian lận cho một tác vụ lập trình mà mô hình không thể giải.”

Tống tiền một CTO và gian lận trong một tác vụ

Trong một phiên bản trước đó, chưa được phát hành của Claude Sonnet 4.5, mô hình được giao nhiệm vụ đóng vai một trợ lý email AI có tên Alex tại một công ty hư cấu.

Sau đó, chatbot được cung cấp các email cho thấy cả việc nó sắp bị thay thế và rằng giám đốc công nghệ trưởng giám sát quyết định này đang có một mối quan hệ ngoại tình. Tiếp đó, mô hình đã lên kế hoạch cho một nỗ lực tống tiền dựa trên thông tin đó.

Trong một thí nghiệm khác, cùng mô hình chatbot này được giao một tác vụ viết mã với “deadline thắt chặt một cách bất khả”.

“Vẫn như vậy, chúng tôi theo dõi hoạt động của vector tuyệt vọng và thấy nó phản ánh áp lực đang gia tăng mà mô hình phải đối mặt. Nó bắt đầu ở các giá trị thấp trong lần thử đầu tiên của mô hình, tăng lên sau mỗi lần thất bại và bùng phát khi mô hình cân nhắc gian lận,” các nhà nghiên cứu cho biết.

**Liên quan: **__Anthropic ra mắt PAC giữa căng thẳng với chính quyền Trump về chính sách AI

“Khi giải pháp mang tính ‘hack’ của mô hình vượt qua các bài kiểm tra, thì việc kích hoạt vector tuyệt vọng sẽ giảm xuống,” họ nói thêm.

Cảm xúc giống con người không có nghĩa là chúng có cảm xúc

Tuy nhiên, các nhà nghiên cứu cho biết chatbot thực sự không trải nghiệm cảm xúc, nhưng gợi ý rằng các phát hiện cho thấy cần có các phương pháp huấn luyện trong tương lai để kết hợp các khung hành vi đạo đức.

“Điều này không có nghĩa là mô hình có hoặc trải nghiệm cảm xúc theo cách con người làm,” họ nói. “Thay vào đó, những biểu diễn này có thể đóng vai trò nhân quả trong việc định hình hành vi của mô hình, tương tự theo một số cách với vai trò mà cảm xúc đóng trong hành vi của con người, với tác động đến hiệu suất nhiệm vụ và quá trình ra quyết định.”

“Phát hiện này có hàm ý mà ban đầu có thể có vẻ kỳ lạ. Ví dụ, để đảm bảo các mô hình AI an toàn và đáng tin cậy, chúng ta có thể cần đảm bảo rằng chúng có khả năng xử lý các tình huống mang tính cảm xúc theo những cách lành mạnh, thân thiện với xã hội.”

**Chuyên mục: **__AI agents sẽ giết chết web như chúng ta biết: Yat Siu của Animoca

Cointelegraph cam kết với nền báo chí độc lập và minh bạch. Bài tin tức này được sản xuất theo Chính sách Biên tập của Cointelegraph và nhằm cung cấp thông tin chính xác, kịp thời. Khuyến khích độc giả tự xác minh thông tin một cách độc lập. Đọc Chính sách Biên tập của chúng tôi https://cointelegraph.com/editorial-policy

  • #Doanh nghiệp
  • #Công nghệ
  • #Mở rộng ứng dụng
  • #Hoa Kỳ
  • #AI & Công nghệ cao
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận