00:19
OpenAI phát hành GDPval đánh giá hiệu suất nhiệm vụ giá trị kinh tế AI
PANews ngày 26 tháng 9 đưa tin, OpenAI đã ra mắt công cụ đánh giá mới GDPval, tập trung vào việc đo lường hiệu suất của AI trong các nhiệm vụ có giá trị kinh tế thực tế. GDPval bao trùm 44 nghề nghiệp trong 9 ngành công nghiệp đóng góp lớn nhất vào GDP của Mỹ, với các nhiệm vụ được thiết kế bởi các chuyên gia trong ngành có trung bình 14 năm kinh nghiệm. Kết quả đánh giá cho thấy, mô hình Claude Opus 4.1 có gần một nửa đầu ra tương đương hoặc tốt hơn mức độ chuyên gia. OpenAI cho biết, trong tương lai sẽ tiếp tục mở rộng phạm vi và chi tiết đánh giá GDPval.

