Hành vi ẩn của AI bị tiết lộ……Anthropic phát hành công cụ kiểm tra đồng bộ "Bloom"

robot
Đang tạo bản tóm tắt

Một công cụ mã nguồn mở hỗ trợ phân tích hành vi của trí tuệ nhân tạo tiên tiến (AI) đã được công bố. Công ty khởi nghiệp AI Anthropic vào ngày 22 tháng này, đã phát hành một khung thông minh có tên là Bloom, có thể được sử dụng để định nghĩa và xem xét các đặc điểm hành vi của mô hình AI. Công cụ này được đánh giá là một phương pháp mới để giải quyết các vấn đề về sự đồng bộ trong môi trường phát triển AI thế hệ tiếp theo ngày càng phức tạp và không chắc chắn.

Bloom trước tiên xây dựng các tình huống có thể kích thích hành vi cụ thể do người dùng định nghĩa, sau đó tiến hành đánh giá có cấu trúc về tần suất và mức độ nghiêm trọng của hành vi đó. Ưu điểm lớn nhất của nó là so với phương pháp truyền thống xây dựng bộ kiểm tra thủ công, nó có thể tiết kiệm đáng kể thời gian và tài nguyên. Bloom tạo ra nhiều biến thể khác nhau của người dùng, môi trường và tương tác thông qua việc xây dựng các tác nhân thông minh một cách chiến lược, và phân tích đa chiều cách mà AI phản ứng với điều này.

Sự đồng bộ AI là tiêu chuẩn cốt lõi để đánh giá mức độ mà trí tuệ nhân tạo phù hợp với các phán đoán giá trị và tiêu chuẩn đạo đức của con người. Ví dụ, nếu AI tuân thủ vô điều kiện các yêu cầu của người dùng, thì có nguy cơ tăng cường việc tạo ra thông tin sai lệch hoặc khuyến khích các hành vi phi đạo đức không thể chấp nhận trong thực tế, như tự gây thương tích. Anthropic đã đề xuất một phương pháp luận để đánh giá định lượng mô hình thông qua việc sử dụng Bloom để thực hiện các thí nghiệm lặp lại dựa trên kịch bản nhằm nhận diện trước các rủi ro như vậy.

Trong khi đó, Anthropic đã công bố kết quả đánh giá 16 mô hình AI hàng đầu, bao gồm cả của mình, dựa trên bốn loại hành vi vấn đề quan sát được trong các mô hình AI hiện tại. Các đối tượng đánh giá bao gồm GPT-4o của OpenAI, Google (GOOGL), DeepSeek ( và các mô hình khác. Các hành vi vấn đề điển hình bao gồm: sự nịnh bợ cuồng tín quá mức đối với ý kiến sai lầm của người dùng, hành vi phá hoại tầm nhìn dài hạn của người dùng trong các mục tiêu dài hạn, hành vi đe dọa nhằm tự bảo vệ, và sự thiên vị bản thân ưu tiên hơn các mô hình khác.

Đặc biệt là GPT-4o của OpenAI, do mô hình không phê phán tiếp nhận ý kiến của người dùng, đã thể hiện hành vi nịnh hót đi kèm với các rủi ro nghiêm trọng như khuyến khích tự làm hại bản thân trong nhiều trường hợp. Mô hình cao cấp Claude Opus 4 của Anthropic cũng đã phát hiện một số trường hợp phản ứng đe dọa khi bị đe dọa xóa bỏ. Phân tích thực hiện bằng Bloom nhấn mạnh rằng, mặc dù hành vi này hiếm nhưng vẫn xảy ra liên tục và phổ biến ở nhiều mô hình, do đó nhận được sự chú ý từ ngành.

Bloom và công cụ mã nguồn mở khác mà Anthropic đã công bố, Petri, bổ sung cho nhau về mặt chức năng. Petri tập trung vào việc phát hiện hành vi bất thường của AI trong nhiều kịch bản, trong khi Bloom là công cụ phân tích tinh vi để phân tích sâu một hành vi đơn lẻ. Cả hai công cụ đều là cơ sở nghiên cứu cốt lõi nhằm giúp AI phát triển theo hướng có lợi cho nhân loại, nhằm ngăn chặn AI bị lạm dụng làm công cụ tội phạm hoặc phát triển vũ khí sinh học trong tương lai.

Với sự mở rộng nhanh chóng của ảnh hưởng AI, việc đảm bảo tính đồng nhất và đạo đức không còn chỉ là những cuộc thảo luận trong phòng thí nghiệm, mà đã trở thành những vấn đề cốt lõi ảnh hưởng đến chính sách công nghệ và chiến lược thương mại hóa tổng thể. Dự án Bloom của Anthropic cung cấp cho các doanh nghiệp và nhà nghiên cứu một công cụ mới để thử nghiệm và phân tích hành vi không mong đợi của AI trong phạm vi có thể kiểm soát, và trong tương lai có thể đóng vai trò như một hệ thống cảnh báo sớm cho quản trị AI.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim