Vừa thấy @SentientAGI phát hành SPIN-Bench, đúng lúc bổ sung vào phần dễ bị bỏ qua nhất trong đánh giá AI.
Nhiều tiêu chuẩn chỉ đánh giá một mô hình duy nhất để thực hiện những nhiệm vụ ngắn hạn, nhưng hệ thống thực sự thông minh phải có khả năng lập kế hoạch dài hạn, hợp tác trong điều kiện không chắc chắn,甚至 hiểu được người khác muốn làm gì. SPIN-Bench tổ chức những khó khăn này thông qua "thang độ khó có thể kiểm soát" và "tương tác đa tác nhân", cho phép sự tiến bộ được đo lường.
Tại sao nó được gọi là thống nhất? —————————————————————————
SPIN-Bench vừa là một bộ dữ liệu thử nghiệm tiêu chuẩn hóa, vừa là một môi trường mô phỏng có thể chạy các tác nhân thông minh. Có thể hệ thống hóa việc truy xuất ba khía cạnh chính: mức độ phức tạp của hành động/trạng thái, độ dài của nhiệm vụ, và cần tương tác với bao nhiêu cá thể.
Bao phủ bốn loại cảnh tiêu biểu:
Lập kế hoạch PDDL: Đưa ra mục tiêu và quy tắc, lập kế hoạch cho một kế hoạch dài khả thi. Cần biết cách phân tách mục tiêu, ghi nhớ các ràng buộc, xác minh toàn bộ chuỗi có thể đi qua.
Cờ vua cạnh tranh: Không thể chỉ đi theo kịch bản, cần phải tìm kiếm, đánh giá và điều chỉnh kịp thời theo nước đi của đối thủ.
Thẻ hợp tác: Thông tin không đầy đủ, giao tiếp bị hạn chế. Chìa khóa nằm ở việc phối hợp với đồng đội, đoán thông tin ẩn giấu, truyền đạt ý định bằng thông tin hạn chế.
Cảnh ngoại giao: Có xung đột lợi ích như trong Diplomacy. Cần biết đề xuất, liên minh, nhận diện thông tin sai lệch, v.v.
Mô hình dễ “rơi dây” nhất —————————————————————————
LLM làm việc tra cứu thông tin, lập kế hoạch ngắn hạn không vấn đề gì, nhưng một khi cần thực hiện suy luận nhiều bước, đối mặt với không gian trạng thái lớn hơn, đồng thời phải quan tâm đến nhiều đối thủ hoặc đồng đội hơn, hiệu suất sẽ giảm mạnh.
Đặc biệt trong các nhiệm vụ có mối quan hệ xã hội, cần phải hợp tác, cần phải ám chỉ, cần phải đàm phán.
SPIN-Bench phân tách những khâu này. Xác định lỗi ở đâu, tại sao lại xảy ra lỗi, từ đó có thể cải thiện một cách có mục tiêu hơn.
—————————————————————————
Khi chúng ta có thể đo lường ổn định "kế hoạch sâu đến đâu, phối hợp tốt đến đâu, giao tiếp hiệu quả như thế nào", việc cải tiến sẽ có thang đo rõ ràng. @SentientAGI SPIN-Bench cung cấp một thước chuẩn có thể chỉ ra điểm đột phá tiếp theo. Sử dụng thước này để tối ưu hóa kế hoạch dài hạn và suy diễn xã hội, AI sẽ tiến gần hơn đến hình thái thông minh tổng quát và đáng tin cậy hơn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Vừa thấy @SentientAGI phát hành SPIN-Bench, đúng lúc bổ sung vào phần dễ bị bỏ qua nhất trong đánh giá AI.
Nhiều tiêu chuẩn chỉ đánh giá một mô hình duy nhất để thực hiện những nhiệm vụ ngắn hạn, nhưng hệ thống thực sự thông minh phải có khả năng lập kế hoạch dài hạn, hợp tác trong điều kiện không chắc chắn,甚至 hiểu được người khác muốn làm gì. SPIN-Bench tổ chức những khó khăn này thông qua "thang độ khó có thể kiểm soát" và "tương tác đa tác nhân", cho phép sự tiến bộ được đo lường.
Tại sao nó được gọi là thống nhất?
—————————————————————————
SPIN-Bench vừa là một bộ dữ liệu thử nghiệm tiêu chuẩn hóa, vừa là một môi trường mô phỏng có thể chạy các tác nhân thông minh. Có thể hệ thống hóa việc truy xuất ba khía cạnh chính: mức độ phức tạp của hành động/trạng thái, độ dài của nhiệm vụ, và cần tương tác với bao nhiêu cá thể.
Bao phủ bốn loại cảnh tiêu biểu:
Lập kế hoạch PDDL: Đưa ra mục tiêu và quy tắc, lập kế hoạch cho một kế hoạch dài khả thi. Cần biết cách phân tách mục tiêu, ghi nhớ các ràng buộc, xác minh toàn bộ chuỗi có thể đi qua.
Cờ vua cạnh tranh: Không thể chỉ đi theo kịch bản, cần phải tìm kiếm, đánh giá và điều chỉnh kịp thời theo nước đi của đối thủ.
Thẻ hợp tác: Thông tin không đầy đủ, giao tiếp bị hạn chế. Chìa khóa nằm ở việc phối hợp với đồng đội, đoán thông tin ẩn giấu, truyền đạt ý định bằng thông tin hạn chế.
Cảnh ngoại giao: Có xung đột lợi ích như trong Diplomacy. Cần biết đề xuất, liên minh, nhận diện thông tin sai lệch, v.v.
Mô hình dễ “rơi dây” nhất
—————————————————————————
LLM làm việc tra cứu thông tin, lập kế hoạch ngắn hạn không vấn đề gì, nhưng một khi cần thực hiện suy luận nhiều bước, đối mặt với không gian trạng thái lớn hơn, đồng thời phải quan tâm đến nhiều đối thủ hoặc đồng đội hơn, hiệu suất sẽ giảm mạnh.
Đặc biệt trong các nhiệm vụ có mối quan hệ xã hội, cần phải hợp tác, cần phải ám chỉ, cần phải đàm phán.
SPIN-Bench phân tách những khâu này. Xác định lỗi ở đâu, tại sao lại xảy ra lỗi, từ đó có thể cải thiện một cách có mục tiêu hơn.
—————————————————————————
Khi chúng ta có thể đo lường ổn định "kế hoạch sâu đến đâu, phối hợp tốt đến đâu, giao tiếp hiệu quả như thế nào", việc cải tiến sẽ có thang đo rõ ràng. @SentientAGI SPIN-Bench cung cấp một thước chuẩn có thể chỉ ra điểm đột phá tiếp theo.
Sử dụng thước này để tối ưu hóa kế hoạch dài hạn và suy diễn xã hội, AI sẽ tiến gần hơn đến hình thái thông minh tổng quát và đáng tin cậy hơn.