Trí tuệ nhân tạo tổng quát, hay AGI, thường được mô tả như một hệ thống có thể thực hiện nhiều lĩnh vực giống như con người. Kết quả được công bố tuần này từ bài kiểm tra tiêu chuẩn MATHVISTA cho thấy các mô hình hiện tại vẫn chưa đạt được mục tiêu đó. Các nhà nghiên cứu từ Microsoft Research, Sahara AI và Đại học Emory đã kiểm tra khả năng cốt lõi của trí thông minh tổng quát, đó là lý luận toán học dựa trên thông tin hình ảnh, bao gồm biểu đồ, đồ thị và sơ đồ. Trong số 12 mô hình nền tảng được thử nghiệm, bao gồm ChatGPT, Gemini và Claude, GPT-4 Vision đạt điểm cao nhất là 49,9%. Người tham gia là con người trung bình đạt 60,3%, cho thấy khoảng cách giữa các hệ thống AI hiện tại và khả năng lý luận rộng hơn thường liên quan đến AGI.
“Chúng tôi muốn máy móc làm những việc mà một người bình thường có thể làm trong các nhiệm vụ hàng ngày,” Nhà nghiên cứu chính tại Microsoft Research Hao Cheng nói với Decrypt. “Đó chính là mục tiêu mà mọi người đều theo đuổi để đạt được AGI.” Bằng cách đưa các vấn đề vào hình ảnh, sơ đồ và biểu đồ, dự án kiểm tra xem các mô hình có thể diễn giải chính xác thông tin hình ảnh và giải quyết các bài toán toán học và logic nhiều bước hay không—những kỹ năng vượt ra ngoài việc nhận dạng mẫu trên văn bản đơn thuần. Các mô hình vẫn gặp khó khăn với những nhiệm vụ này, và việc đo lường giới hạn đó rất khó khăn.
Khi nhóm của Cheng xem xét các bộ dữ liệu đánh giá hiện có, nhiều bộ không yêu cầu lý luận hình ảnh. Các mô hình thường đạt câu trả lời đúng chỉ dựa vào văn bản. “Điều này không lý tưởng,” Cheng nói. MathVista, có sẵn trên GitHub và Hugging Face, ra mắt vào tháng 10 năm 2023. Kể từ đó, nó đã được tải xuống hơn 275.000 lần, trong đó hơn 13.000 lần trong tháng qua, theo Microsoft Research. Việc tạo ra bộ dữ liệu này đòi hỏi nhiều hơn việc gắn nhãn dữ liệu tiêu chuẩn. Microsoft Research cần những người chú thích có thể xử lý các vấn đề trong số học, đại số, hình học và thống kê, đồng thời phân biệt lý luận toán học sâu hơn, như diễn giải biểu đồ hoặc giải phương trình, với các nhiệm vụ đơn giản hơn như đếm vật thể hoặc đọc số. Sau giai đoạn thử nghiệm, Microsoft đã chọn Sahara AI để hỗ trợ nỗ lực này. Công ty cung cấp các người chú thích đã được đào tạo, quy trình làm việc tùy chỉnh và các kiểm tra chất lượng nhiều giai đoạn để tạo ra hơn 6.000 ví dụ đa phương thức được sử dụng trong bài kiểm tra tiêu chuẩn. Không có các tiêu chuẩn đánh giá đáng tin cậy, việc đo lường tiến bộ hướng tới trí tuệ máy móc rộng hơn trở nên khó khăn, theo Sean Ren, CEO của Sahara AI và phó giáo sư khoa học máy tính tại USC. “Có một sự tinh tế trong việc ô nhiễm dữ liệu, khi một khi chúng ta bắt đầu sử dụng bộ dữ liệu này để kiểm tra, các kết quả đó sẽ bị hấp thụ vào phiên bản tiếp theo,” Ren nói với Decrypt. “Vì vậy, bạn thực sự không biết liệu họ chỉ đang giải quyết một bộ dữ liệu hay họ đã có khả năng thật sự.” Nếu câu trả lời trong bài kiểm tra xuất hiện trong dữ liệu huấn luyện của mô hình, điểm số cao có thể phản ánh việc ghi nhớ hơn là lý luận. Điều này làm cho việc xác định xem hệ thống AI có thực sự tiến bộ hay không trở nên khó khăn hơn.
Các nhà nghiên cứu cũng chỉ ra giới hạn trong dữ liệu huấn luyện. Phần lớn internet công khai đã được tích hợp vào bộ dữ liệu của các mô hình. “Bạn chắc chắn cần có một cách để đưa kiến thức mới vào quá trình này,” Cheng nói. “Tôi nghĩ rằng điều này phải dựa trên dữ liệu chất lượng cao để chúng ta có thể thực sự phá vỡ giới hạn kiến thức này.” Một con đường đề xuất là môi trường mô phỏng nơi các mô hình có thể tương tác, học hỏi từ kinh nghiệm và cải thiện qua phản hồi. “Bạn tạo ra một thế giới song song hoặc một bản sao của thế giới thực trong một sandbox để mô hình có thể chơi và làm nhiều việc mà con người làm trong đời thực, để nó có thể phá vỡ giới hạn của internet,” Cheng nói. Ren cho biết con người vẫn có thể đóng vai trò quan trọng trong việc cải thiện hệ thống AI. Trong khi các mô hình có thể tạo nội dung nhanh chóng, con người vẫn tốt hơn trong việc đánh giá nó. “Khoảng cách giữa con người và AI, về những gì chúng làm tốt và không tốt, có thể được tận dụng để thực sự nâng cao AI trong tương lai,” ông nói.