Anthropic đã công bố vào ngày 9 tháng 4 việc chính thức đưa “Advisor strategy” vào Claude Platform. Giờ đây, nhà phát triển có thể để Opus đảm nhiệm vai trò cố vấn thông qua Messages API, kết hợp Sonnet hoặc Haiku làm người thực thi, đạt được mức hiệu suất trí tuệ gần tương đương Opus trong một lần gọi API, đồng thời giảm đáng kể chi phí. Tính năng này hiện đang được cung cấp dưới dạng bản thử nghiệm công khai.

Cơ chế hoạt động: Khi người thực thi gặp phải các vấn đề khó khăn, sẽ tự động tham vấn Opus

Khái niệm cốt lõi của Advisor strategy là tách rời suy luận và thực thi. Sau khi nhà phát triển thêm công cụ advisor vào lệnh gọi Messages API, khi agent Sonnet hoặc Haiku trong quá trình thực hiện nhiệm vụ gặp quyết định khó khăn, nó sẽ tự động hỏi Opus để lấy các gợi ý lập kế hoạch, rồi tiếp tục thực thi. Toàn bộ quá trình diễn ra trong một yêu cầu API duy nhất, không cần nhà phát triển sắp xếp thêm.

Cấu trúc này tương tự cách phân công giữa một cố vấn cấp cao và người thực thi trong một nhóm — Opus chịu trách nhiệm cho các phán đoán chiến lược cấp cao, còn Sonnet hoặc Haiku phụ trách thao tác thực tế; hai bên phối hợp trong cùng một luồng công việc.

Thực nghiệm: Hiệu năng tăng và chi phí thấp hơn

Theo dữ liệu đánh giá mà Anthropic công bố, trong bài kiểm tra chuẩn SWE-bench Multilingual, hiệu suất của Sonnet khi kết hợp với Opus advisor cao hơn 2,7 điểm phần trăm so với việc chỉ dùng riêng Sonnet, trong khi chi phí cho mỗi nhiệm vụ lại giảm 11,9%.

Nguyên nhân chi phí giảm là vì phần lớn nhiệm vụ vẫn được xử lý bởi Sonnet hoặc Haiku có chi phí thấp hơn; Opus chỉ được gọi tại các điểm quyết định then chốt, qua đó tránh việc sử dụng Opus trong suốt toàn bộ quá trình và phải trả phí cao.

Ý nghĩa đối với nhà phát triển

Advisor strategy mang đến cho các nhà phát triển xây dựng AI agent một lựa chọn cân bằng chi phí-hiệu năng mới. Trước đây, nhà phát triển phải chọn giữa “dùng Opus cho toàn bộ quá trình nhưng chi phí cao” hoặc “dùng Sonnet cho toàn bộ quá trình nhưng có thể sai khi gặp vấn đề phức tạp”. Giờ đây, có thể tận dụng ưu điểm của cả hai thông qua kiến trúc lai.

Cộng đồng phản ứng rất sôi nổi, và một số nhà phát triển ví nó như “đường dây sinh mệnh để gọi cầu cứu” trong chương trình dành cho triệu phú — người thực thi làm việc độc lập thường ngày, và chỉ khi gặp đúng bài toán khó mới tìm đến cao thủ để được trợ giúp.

Bài viết “Anthropic ra mắt Advisor strategy: Opus làm cố vấn kết hợp Sonnet thực thi, nâng hiệu năng và giảm chi phí 12%” xuất hiện sớm nhất trên Tin tức chuỗi ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

IEA: Chi tiêu cơ sở hạ tầng AI đã vượt đầu tư sản xuất dầu khí, dự kiến sẽ tăng thêm 75% vào năm 2026

Cổ phiếu Chỉ số Hàng hóa Tin tức ngành AI

Theo phân tích và dữ liệu thị trường do Cơ quan Năng lượng Quốc tế (IEA) công bố vào ngày 26 tháng 4, tổng chi tiêu vốn của năm công ty công nghệ hàng đầu trong năm 2025 vượt 400 tỷ USD, chủ yếu được đầu tư cho việc xây dựng hạ tầng AI, với quy mô đã vượt qua mức đầu tư hàng năm của sản xuất dầu và khí đốt toàn cầu. IEA ước tính rằng, chi tiêu vốn liên quan vào năm 2026 có thể tiếp tục tăng thêm 75%.

MarketWhisper14phút trước

Thượng nghị sĩ Bernie Sanders đưa ra cảnh báo về mối đe dọa sinh tồn từ AI

Tin tức ngành AI

Sanders nhấn mạnh rằng ngay cả khi hầu hết các nhà khoa học AI đều thừa nhận khả năng AI thoát khỏi sự kiểm soát và trở thành mối nguy đối với sự tồn tại của chúng ta, vẫn chưa có biện pháp lớn nào được thực hiện để ngăn chặn điều đó. “Chúng ta phải đảm bảo rằng AI mang lại lợi ích cho nhân loại, chứ không gây hại cho chúng ta,” ông nói. Các ý chính rút ra: Bernie Sanders

Coinpedia23phút trước

Trưởng bộ phận mô hình AI của Xiaomi: Cuộc cạnh tranh AI đang chuyển sang thời đại Agent; tự tiến hóa là sự kiện then chốt dẫn tới AGI

Tác nhân AI Tin tức ngành AI

Người phụ trách đội ngũ mô hình lớn của Xiaomi, La Fuli, đã có một cuộc phỏng vấn chuyên sâu trên nền tảng Bilibili vào ngày 24 tháng 4 (mã video: BV1iVoVBgERD). Thời lượng cuộc phỏng vấn là 3,5 giờ, và đây là lần đầu tiên cô công khai trình bày một cách có hệ thống các quan điểm kỹ thuật của mình với tư cách là người phụ trách kỹ thuật. La Fuli cho biết, cuộc đua cạnh tranh của các mô hình lớn đã chuyển từ thời đại Chat sang thời đại Agent, đồng thời chỉ ra rằng “tự tiến hoá” sẽ là sự kiện then chốt của AGI trong năm tới.

MarketWhisper24phút trước

xAI Grok Voice tiếp quản đường dây nóng chăm sóc khách hàng của Starlink, 70% cuộc gọi được tự động kết án

Tác nhân AI Tin tức ngành AI

Theo thông báo chính thức của xAI được phát hành vào ngày 23 tháng 4, xAI đã giới thiệu tác nhân AI giọng nói Grok Voice Think Fast 1.0 và đã được triển khai trên đường dây nóng dịch vụ khách hàng Starlink +1 (888) GO STARLINK. Theo dữ liệu thử nghiệm được công bố trong thông báo, 70% các cuộc gọi được AI tự động xử lý chấm dứt, không cần sự can thiệp của con người.

MarketWhisper35phút trước

GPT-5.5 Trở Lại Tuyến Đầu Trong Lập Trình, Nhưng OpenAI Đổi Benchmark Sau Khi Thua Opus 4.7

Tin tức ngành AI

Tin tức cổng, ngày 27 tháng 4 — SemiAnalysis, một công ty phân tích chất bán dẫn và AI, đã phát hành một bảng benchmark so sánh các trợ lý lập trình bao gồm GPT-5.5, Claude Opus 4.7 và DeepSeek V4. Phát hiện then chốt: GPT-5.5 đánh dấu lần đầu tiên OpenAI quay trở lại tuyến đầu trong các mô hình lập trình trong vòng sáu tháng, với các kỹ sư của SemiAnalysis hiện đang luân phiên giữa Codex và Claude Code sau trước đó gần như chỉ dựa vào Claude. GPT-5.5 dựa trên một cách tiếp cận huấn luyện trước mới được mã danh "Spud" và thể hiện lần mở rộng quy mô huấn luyện trước đầu tiên của OpenAI kể từ GPT-4.5. Trong thử nghiệm thực tế, một sự phân công rõ ràng đã xuất hiện. Claude đảm nhiệm lập kế hoạch dự án mới và thiết lập ban đầu, trong khi Codex tỏ ra xuất sắc trong việc sửa các lỗi đòi hỏi nhiều suy luận. Codex thể hiện khả năng hiểu cấu trúc dữ liệu tốt hơn và lý luận logic mạnh hơn nhưng gặp khó khăn trong việc suy ra ý định người dùng mơ hồ. Trong một tác vụ trên cùng một bảng điều khiển, Claude tự động tái tạo bố cục trang tham chiếu nhưng bịa ra một lượng lớn dữ liệu, trong khi Codex bỏ qua bố cục nhưng lại cung cấp lượng dữ liệu chính xác hơn đáng kể. Bài phân tích tiết lộ chi tiết thao túng benchmark: Bài đăng blog của OpenAI hồi tháng 2 đã kêu gọi ngành áp dụng SWE-bench Pro làm tiêu chuẩn mới cho các benchmark lập trình. Tuy nhiên, thông báo của GPT-5.5 đã chuyển sang một benchmark mới có tên "Expert-SWE." Lý do, được chôn trong các chi tiết nhỏ, là GPT-5.5 đã bị Opus 4.7 vượt qua trên SWE-bench Pro và thua kém đáng kể so với Mythos 77.8% chưa được phát hành của Anthropic. Về Opus 4.7, Anthropic đã công bố một bài phân tích hậu kiểm một tuần sau khi phát hành, thừa nhận ba lỗi trong Claude Code đã tồn tại trong nhiều tuần từ tháng 3 đến tháng 4, ảnh hưởng đến gần như tất cả người dùng. Trước đó, nhiều kỹ sư đã báo cáo sự suy giảm hiệu năng ở phiên bản 4.6 nhưng bị bác bỏ như những quan sát chủ quan. Ngoài ra, bộ mã thông báo (tokenizer) mới của Opus 4.7 làm tăng số lượng token lên đến 35%, điều mà Anthropic đã công khai thừa nhận—thực chất tương đương với một đợt tăng giá ẩn. DeepSeek V4 được đánh giá là "theo kịp với tuyến đầu nhưng không dẫn đầu," định vị mình là lựa chọn thay thế có chi phí thấp nhất trong số các mô hình nguồn đóng. Bài phân tích cũng ghi nhận rằng "Claude tiếp tục vượt trội DeepSeek V4 Pro trên các tác vụ viết tiếng Trung có độ khó cao," và bình luận rằng "Claude đã thắng mô hình Trung Quốc ngay trên chính ngôn ngữ của nó." Bài viết đưa ra một khái niệm quan trọng: nên đánh giá giá mô hình theo "chi phí cho mỗi tác vụ" thay vì "chi phí cho mỗi token." Giá của GPT-5.5 gấp đôi so với GPT-5.4 input $5, output per million tokens, nhưng nó hoàn thành các tác vụ tương tự bằng ít token hơn, vì vậy chi phí thực tế không nhất thiết cao hơn. Dữ liệu ban đầu của SemiAnalysis cho thấy tỉ lệ đầu vào/đầu ra của Codex là 80:1, thấp hơn tỉ lệ 100:1 của Claude Code.

GateNews40phút trước

Giám đốc điều hành Google DeepMind: Mọi công ty sản phẩm AI đều nên xây dựng các bộ chuẩn tùy chỉnh

Tin tức ngành AI

Tin tức Gate ngày 27 tháng 4 — Logan Kilpatrick, quản lý sản phẩm cấp cao tại Google DeepMind và là người phụ trách sản phẩm của Google AI Studio, cho biết trên X rằng mọi công ty đang xây dựng các sản phẩm dựa trên AI đều nên thiết lập các bộ chuẩn tùy chỉnh của riêng mình để đo hiệu suất của mô hình AI. Ông mô tả đây là một cách để

GateNews1giờ trước

Bình luận

0/400

Không có bình luận