Quên AGI đi—Các mô hình AI hàng đầu vẫn gặp khó khăn với Toán học

Decrypt

2026-03-18 12:10:12

Tóm tắt ngắn gọn

MATHVISTA, được xây dựng dựa trên hơn 6.000 điểm dữ liệu chú thích từ Sahara AI, kiểm tra các mô hình AI về lý luận toán học đa phương thức.
GPT-4V đạt điểm 49,9%, cao nhất trong số 12 mô hình được thử nghiệm, nhưng vẫn thấp hơn hiệu suất của con người 10,4 điểm phần trăm.
Các nhà nghiên cứu cho rằng tiến bộ hướng tới trí tuệ nhân tạo tổng quát (AGI) có thể phụ thuộc ít hơn vào kích thước mô hình mà vào dữ liệu huấn luyện và đánh giá tốt hơn.

Trí tuệ nhân tạo tổng quát, hay AGI, thường được mô tả như một hệ thống có thể thực hiện nhiều lĩnh vực giống như con người. Kết quả được công bố tuần này từ bài kiểm tra tiêu chuẩn MATHVISTA cho thấy các mô hình hiện tại vẫn chưa đạt được mục tiêu đó. Các nhà nghiên cứu từ Microsoft Research, Sahara AI và Đại học Emory đã kiểm tra khả năng cốt lõi của trí thông minh tổng quát, đó là lý luận toán học dựa trên thông tin hình ảnh, bao gồm biểu đồ, đồ thị và sơ đồ. Trong số 12 mô hình nền tảng được thử nghiệm, bao gồm ChatGPT, Gemini và Claude, GPT-4 Vision đạt điểm cao nhất là 49,9%. Người tham gia là con người trung bình đạt 60,3%, cho thấy khoảng cách giữa các hệ thống AI hiện tại và khả năng lý luận rộng hơn thường liên quan đến AGI.

“Chúng tôi muốn máy móc làm những việc mà một người bình thường có thể làm trong các nhiệm vụ hàng ngày,” Nhà nghiên cứu chính tại Microsoft Research Hao Cheng nói với Decrypt. “Đó chính là mục tiêu mà mọi người đều theo đuổi để đạt được AGI.” Bằng cách đưa các vấn đề vào hình ảnh, sơ đồ và biểu đồ, dự án kiểm tra xem các mô hình có thể diễn giải chính xác thông tin hình ảnh và giải quyết các bài toán toán học và logic nhiều bước hay không—những kỹ năng vượt ra ngoài việc nhận dạng mẫu trên văn bản đơn thuần. Các mô hình vẫn gặp khó khăn với những nhiệm vụ này, và việc đo lường giới hạn đó rất khó khăn.

Khi nhóm của Cheng xem xét các bộ dữ liệu đánh giá hiện có, nhiều bộ không yêu cầu lý luận hình ảnh. Các mô hình thường đạt câu trả lời đúng chỉ dựa vào văn bản. “Điều này không lý tưởng,” Cheng nói. MathVista, có sẵn trên GitHub và Hugging Face, ra mắt vào tháng 10 năm 2023. Kể từ đó, nó đã được tải xuống hơn 275.000 lần, trong đó hơn 13.000 lần trong tháng qua, theo Microsoft Research. Việc tạo ra bộ dữ liệu này đòi hỏi nhiều hơn việc gắn nhãn dữ liệu tiêu chuẩn. Microsoft Research cần những người chú thích có thể xử lý các vấn đề trong số học, đại số, hình học và thống kê, đồng thời phân biệt lý luận toán học sâu hơn, như diễn giải biểu đồ hoặc giải phương trình, với các nhiệm vụ đơn giản hơn như đếm vật thể hoặc đọc số. Sau giai đoạn thử nghiệm, Microsoft đã chọn Sahara AI để hỗ trợ nỗ lực này. Công ty cung cấp các người chú thích đã được đào tạo, quy trình làm việc tùy chỉnh và các kiểm tra chất lượng nhiều giai đoạn để tạo ra hơn 6.000 ví dụ đa phương thức được sử dụng trong bài kiểm tra tiêu chuẩn. Không có các tiêu chuẩn đánh giá đáng tin cậy, việc đo lường tiến bộ hướng tới trí tuệ máy móc rộng hơn trở nên khó khăn, theo Sean Ren, CEO của Sahara AI và phó giáo sư khoa học máy tính tại USC. “Có một sự tinh tế trong việc ô nhiễm dữ liệu, khi một khi chúng ta bắt đầu sử dụng bộ dữ liệu này để kiểm tra, các kết quả đó sẽ bị hấp thụ vào phiên bản tiếp theo,” Ren nói với Decrypt. “Vì vậy, bạn thực sự không biết liệu họ chỉ đang giải quyết một bộ dữ liệu hay họ đã có khả năng thật sự.” Nếu câu trả lời trong bài kiểm tra xuất hiện trong dữ liệu huấn luyện của mô hình, điểm số cao có thể phản ánh việc ghi nhớ hơn là lý luận. Điều này làm cho việc xác định xem hệ thống AI có thực sự tiến bộ hay không trở nên khó khăn hơn.

Các nhà nghiên cứu cũng chỉ ra giới hạn trong dữ liệu huấn luyện. Phần lớn internet công khai đã được tích hợp vào bộ dữ liệu của các mô hình. “Bạn chắc chắn cần có một cách để đưa kiến thức mới vào quá trình này,” Cheng nói. “Tôi nghĩ rằng điều này phải dựa trên dữ liệu chất lượng cao để chúng ta có thể thực sự phá vỡ giới hạn kiến thức này.” Một con đường đề xuất là môi trường mô phỏng nơi các mô hình có thể tương tác, học hỏi từ kinh nghiệm và cải thiện qua phản hồi. “Bạn tạo ra một thế giới song song hoặc một bản sao của thế giới thực trong một sandbox để mô hình có thể chơi và làm nhiều việc mà con người làm trong đời thực, để nó có thể phá vỡ giới hạn của internet,” Cheng nói. Ren cho biết con người vẫn có thể đóng vai trò quan trọng trong việc cải thiện hệ thống AI. Trong khi các mô hình có thể tạo nội dung nhanh chóng, con người vẫn tốt hơn trong việc đánh giá nó. “Khoảng cách giữa con người và AI, về những gì chúng làm tốt và không tốt, có thể được tận dụng để thực sự nâng cao AI trong tương lai,” ông nói.

Xem bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

Không có bình luận