OpenAI và Anthropic ra mắt các mô hình AI đối thủ khi cuộc cạnh tranh dành cho doanh nghiệp ngày càng nóng lên

Decrypt

OpenAI và Anthropic đã giới thiệu các mô hình AI mới trong dòng sản phẩm của họ chỉ trong vòng chưa đầy một giờ vào thứ Năm, làm nổi bật cuộc cạnh tranh ngày càng gay gắt giữa các nhà phát triển hàng đầu để chiếm lĩnh phần mềm doanh nghiệp và các công cụ mã hóa tiên tiến. Anthropic công bố Claude Opus 4.6, tự hào về những tiến bộ trong khả năng lý luận trong bối cảnh dài và quy trình làm việc dựa trên tác nhân, trong khi OpenAI ngay sau đó phát hành GPT-5.3 Codex, một mô hình tối ưu hóa cho mã hóa tác nhân và phát triển phần mềm. Các cuộc ra mắt gần như đồng thời này nhấn mạnh tốc độ các đối thủ đang cải tiến khi các công ty cạnh tranh để ký hợp đồng dài hạn với khách hàng doanh nghiệp lớn. 

Kết quả benchmark cho thấy hai mô hình được tối ưu hóa cho các điểm mạnh khác nhau. Claude Opus 4.6 cho thấy hiệu suất mạnh hơn trong các nhiệm vụ liên quan đến lý luận pháp lý và tài chính, trong khi GPT-5.3 Codex vượt trội trong các bài kiểm tra mã hóa tác nhân và các chỉ số hiệu quả, theo số liệu được công bố bởi cả hai công ty. Các sản phẩm ra mắt này diễn ra trong bối cảnh các nhà đầu tư đang xem xét lại triển vọng của các nhà cung cấp phần mềm truyền thống, khi cổ phiếu của một số công ty dịch vụ thông tin và chuyên nghiệp giảm trong tuần này do lo ngại rằng các nền tảng gốc AI có thể làm giảm nhu cầu đối với các công cụ doanh nghiệp đã được thiết lập. Anthropic cho biết Claude Opus 4.6 đã mang lại tiến bộ trong lý luận trong bối cảnh dài và các nhiệm vụ chuyên nghiệp, trích dẫn một cửa sổ bối cảnh 1 triệu token và điểm số 76% trên MRCR v2, một chuẩn mực cho việc truy xuất thông tin phức tạp.

Công ty cho biết mô hình này cũng vượt qua các phiên bản trước trong các nhiệm vụ tài chính và pháp lý và giới thiệu “đội tác nhân” cho phép nhiều AI cùng làm việc song song trong việc mã hóa và tài liệu. OpenAI ngay sau đó đã phát hành GPT-5.3 Codex, định vị nó như một mô hình tối ưu cho mã hóa tác nhân và nghiên cứu. OpenAI cho biết Codex đạt 77,3% trên Terminal-Bench 2.0, một chuẩn mã hóa tác nhân, trong khi Claude Opus 4.6 đạt 65,4%, và hoàn thành các nhiệm vụ nhanh hơn đồng thời sử dụng ít token hơn. OpenAI cũng cho biết các phiên bản đầu của Codex đã được sử dụng nội bộ để giúp gỡ lỗi đào tạo và quản lý triển khai, đánh dấu một trong những lần đầu tiên một mô hình đóng vai trò trực tiếp trong việc thúc đẩy phát triển của chính nó. Tổng thể, các kết quả này cho thấy không mô hình nào chiếm ưu thế rõ ràng, với lợi thế về hiệu suất phụ thuộc vào việc các doanh nghiệp ưu tiên lý luận chuyên nghiệp hay phát triển phần mềm tự động. Google cũng dự kiến sẽ ra mắt các cập nhật cho các mô hình Gemini trong những tháng tới, trong khi các nhà phát triển AI khác, bao gồm DeepSeek, đang chuẩn bị các bản phát hành mới, góp phần thúc đẩy tốc độ cạnh tranh trong ngành. Tuy nhiên, kết quả benchmark một mình khó có thể xác định vị trí dẫn đầu thị trường, khi việc áp dụng rộng rãi và triển khai doanh nghiệp ngày càng định hình bức tranh cạnh tranh. Khi cuộc đua cạnh tranh tiếp tục gây áp lực lên các đối thủ, thời gian sẽ trả lời liệu quy trình làm việc dựa trên tác nhân có trở thành thành phần cốt lõi của hoạt động kinh tế hay không. OpenAI và Anthropic chắc chắn đang đặt cược vào điều đó.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận