Mô hình mới nhất của Anthropic Opus4.7 với 8 lưỡi dao ẩn

Viết bài: Silicon Valley Alan Walker

Những chiếc dao tám lưỡi chưa nói rõ trong buổi họp báo, và những ngành nghề, lĩnh vực bị nó muốn cắt bỏ

Buổi họp báo tập trung vào SWE-bench, nhưng tín hiệu thực sự lại ẩn trong chú thích, đoạn giới thiệu, và một câu auto mode không mấy nổi bật. Cựu OG uống xong tách cà phê này, sẽ phân tích cho bạn.

ZOMBIE CAFÉ · 16 THÁNG 4, 2026 · PALO ALTO

Trên California Ave của Palo Alto, ánh sáng sáng sớm chéo từ cửa sổ kính của Coupa Café chiếu vào, soi trên nửa ly flat white đã nguội của Alan Walker. Anh vừa mới xem xong trang web của Anthropic, dựa lưng vào ghế, đối diện với Tony vừa mới ngồi xuống.

“Anthropic lần này ra mắt Opus 4.7, buổi họp báo khá kiềm chế — chính là những cột của SWE-bench, quote khách hàng chạy vòng vòng, và một bức tranh alignment đẹp. Phần lớn các phương tiện công nghệ chỉ copy bản tin rồi đi luôn.”

“Nhưng thứ thực sự của cái này đều nằm trong chú thích, hướng dẫn di cư, và câu ‘auto mode mở rộng đến Max user’ kiểu xem nhẹ đó. Bạn phải đọc như đọc báo cáo 10-K — phần chính dành cho nhà đầu tư nhỏ lẻ, còn chú thích mới là dành cho tổ chức lớn.”

“Hôm nay trước khi uống hết ly cà phê này, tôi sẽ phân tích tám chiếc dao. Mỗi chiếc tôi đều nói rõ nó nhắm vào ai.”

—— BLADE NO. 01

xhigh không phải là nâng cấp chế độ — Default đã bị âm thầm nâng lên

Buổi họp báo lướt qua: “Trong Claude Code, chúng tôi đã nâng mức effort mặc định lên xhigh cho tất cả các kế hoạch.”

Phần lớn mọi người thấy xhigh nghĩ là “thêm một chế độ nữa”, giống như iPhone có thêm màu mới. Sai. Tín hiệu thực sự là câu cuối — trong Claude Code, tất cả các plan đều có mức mặc định nâng lên thành xhigh.

Đây là một hành động rất đặc trưng của Anthropic: âm thầm nâng mức cơ bản của tất cả mọi người lên một cấp, rồi giữ nguyên tính toán năng lực. Tương tự như thêm một đồng nghiệp thông minh hơn, nhưng không tăng lương.

TONY: Đợi đã, điều này có nghĩa là trước đây Pro dùng $20 để lấy medium, giờ trực tiếp ăn xhigh?

ALAN: Đúng rồi. Và câu quote của Hex đó, bạn đọc kỹ — “low-effort 4.7 ≈ medium-effort 4.6”. Khi cộng thêm việc nâng mức mặc định, hiệu quả trí tuệ của người dùng bình thường đã nhảy hai cấp. Buổi họp báo không đề cập rõ con số này, vì họ không muốn token tiêu thụ trông xấu.

Kịch bản thực tế

Sáng thứ hai, bạn yêu cầu Claude Code chỉnh một module backend 500 dòng — trước đây bạn phải thủ công gõ /effort max mới dám để nó tự chạy; giờ bạn chẳng cần gì, mặc định đã là xhigh, một ly cà phê về là xong việc. Sự khác biệt không phải là nhanh hơn 10%, mà là “bạn không cần quan tâm nữa”.

DANH SÁCH CẮT

→ SaaS “Tối ưu AI / cấu hình prompt” — những công cụ hướng dẫn cách điều chỉnh thinking budget, chọn effort, giá trị mặc định tự động đúng, trung gian không có doanh thu

→ Vị trí kỹ sư sơ cấp — công việc xhigh đã làm, đã là giới hạn chất lượng của kỹ sư có 3 năm kinh nghiệm

→ Công ty outsource code review — chiếc dao thứ ba sẽ cố định điều này

—— BLADE NO. 02

Auto Mode — Cuộc cách mạng thầm lặng của Permission UI

Chú thích thứ ba của buổi họp báo: “Auto mode mở rộng đến Max user”. Chỉ một câu.

Trang web của Anthropic nói rõ: “auto mode là một tùy chọn quyền mới, trong đó Claude tự đưa ra quyết định thay bạn.” — “đưa ra quyết định thay bạn”.

Trong năm qua, tất cả các công ty startup agent đều chạy theo hai cực: hoặc bỏ qua tất cả quyền (Devin, Cognition), hoặc liên tục pop-up xác nhận/từ chối (Cursor thời kỳ đầu). Anthropic chọn con đường thứ ba: huấn luyện mô hình tự đánh giá xem cái nào cần hỏi, cái nào không cần hỏi, và nội tại hóa khả năng này vào auto mode.

KAI: Alan, điều này khác gì skip permissions? Không phải đều là để nó tự chạy sao?

ALAN: Khác lớn lắm. skip là bạn tháo phích cắm bảo hiểm, có chuyện gì thì bạn chịu trách nhiệm. auto là mô hình tự trang bị bộ bảo hiểm — những thao tác nguy hiểm nó chủ động dừng lại hỏi bạn, những rủi ro thấp tự xử lý. Bản chất là chuyển toàn bộ lớp “permission UI” từ lớp giao diện sản phẩm vào trong trọng số của mô hình.

TONY: Vậy các startup “quản lý agent / guardrails” của YC…

ALAN: Sản phẩm đã được tích hợp vào trong mô hình rồi. Đó chính là câu nói của Andrej năm ngoái: “mô hình chính là sản phẩm”, ví dụ sống động nhất.

DANH SÁCH CẮT

→ SaaS guardrails / approval-flow cho agent — những nền tảng “phê duyệt hợp tác người-máy” bị giảm chiều

→ Ngành RPA truyền thống (UiPath / Automation Anywhere) — giá trị cốt lõi là “tự động hóa có kiểm soát”, giờ đã tự kiểm soát nội tại

→ Ngành BPO trung tâm — Philippines, Ấn Độ, dữ liệu nhập, phân phối dịch vụ khách hàng, đối soát hoá đơn, một ngày chạy auto mode là đủ cho cả đội

—— BLADE NO. 03

/ultrareview — Lệnh sát hại dành cho Kỹ sư cao cấp

Trang web dùng từ: “một buổi review chuyên dụng đọc qua các thay đổi và phát hiện lỗi, vấn đề thiết kế mà một reviewer cẩn thận sẽ bắt được.”

Chú ý từ đó — “một reviewer cẩn thận”. Không phải junior, không phải linter, mà là “reviewer cẩn thận”. Nói đơn giản: kỹ sư cao cấp.

David Loker của CodeRabbit đưa ra con số rõ ràng hơn: tăng recall hơn 10%, phát hiện ra những bug khó nhất trong PR phức tạp nhất, precision gần như không giảm. Recall tăng, precision không giảm — trong lĩnh vực code review, đó chính là chân lý thiêng liêng, người trước đó nắm giữ là Google với Tricorder, đã làm trong 10 năm.

MARCUS: Chúng ta, các FAANG, một staff engineer một năm mất 800 nghìn đô, review PR chiếm nửa thời gian. Nếu thật sự có thể làm được…

ALAN: Pro và Max đều được miễn phí 3 lần ultrareview, để thử nghiệm. Đây là chiến lược “freemium đầu độc” của Silicon Valley — cho bạn nếm thử, rồi khiến bạn không thể bỏ.

MARCUS: Vậy đây không phải là công cụ, mà là người thay thế.

ALAN: Không hoàn toàn. Nó không thay thế staff, mà thay thế hai tiếng review PR chiều của staff mỗi ngày — hai giờ đó, senior mới đúng nghĩa senior, chứ không phải robot GitHub.

Kịch bản thực tế

Một nhóm kỹ sư 20 người, trước đây tech lead mỗi ngày dành 3 giờ review PR. Sau khi dùng /ultrareview, tech lead chỉ cần xem các “vấn đề thiết kế” do Claude đánh dấu đỏ — 3 giờ giảm còn 20 phút, thời gian tiết kiệm thực sự để làm kiến trúc. Đây không phải “hỗ trợ AI”, mà là viết lại mô hình công việc.

DANH SÁCH CẮT

→ Các startup độc lập về AI code review — CodeRabbit, Codacy, Qodo, hiện là tính năng của Anthropic

→ Công cụ quét bảo mật SAST / DAST truyền thống (Snyk / Checkmarx) — quét tĩnh dựa quy tắc, bị “đọc code như người” vượt qua

→ Dịch vụ review code outsource của Ấn Độ / Đông Âu — thị trường này mấy năm qua định giá hàng chục tỷ đô, giờ đã biến mất

—— BLADE NO. 04

Hình ảnh 2.576 pixel — Computer-Use từ Demo thành vũ khí

“Độ dài tối đa của hình ảnh chấp nhận được là 2.576 pixel, khoảng 3.75 triệu pixel, gấp ba lần trước đó.”

Điều này bị đánh giá thấp nhất. Phần lớn xem xong nghĩ “Ồ, rõ nét hơn rồi”. Sai hoàn toàn. Đây là bước ngoặt của toàn bộ ngành computer-use từ demo vào sản xuất.

Chứng cứ nằm trong đoạn trích cuối trang giới thiệu, CEO Oege de Moor của XBOW nói:

54.5% → 98.5%. Đây không phải là nâng cấp dần dần, mà là một bước nhảy từ “không thể dùng” thành “không thể không dùng”. Opus 4.6 còn đoán xem nút trên màn hình ở đâu, 4.7 đã đọc được chữ nhỏ trên bảng điều khiển dày đặc và bảng lồng nhau.

SARAH: Khách hàng doanh nghiệp của chúng tôi luôn mắc kẹt ở điểm này. 4.6 tự động xử lý hóa đơn scan, sai một nửa — sếp trực tiếp nói “đừng chơi nữa”.

ALAN: Hiện con số 98.5% này, nghĩa là RPA, vận hành IT, kiểm tra hoàn trả, di chuyển hệ thống cũ — tất cả các công việc vẫn dựa vào con người xem màn hình, lần đầu có mô hình đủ chấp nhận được.

KAI: computer use không còn là video demo nữa, mà là năng suất thực tế.

ALAN: Đúng rồi, và chú ý — đây là nâng cấp ở cấp độ mô hình, không phải API tham số. Người dùng cũ không cần thay đổi gì, tự động nâng cấp. Anthropic đang âm thầm nâng cao khả năng tích hợp của tất cả các nhà tích hợp.

DANH SÁCH CẮT

→ SaaS OCR / hiểu tài liệu (Rossum / Hyperscience / Nanonets) — lợi thế ban đầu là “thị giác + cấu trúc”, giờ bị mô hình chung bắt kịp thậm chí vượt qua

→ Ba gã khổng lồ RPA truyền thống — công nghệ nhận diện màn hình của UiPath, giá trị giảm một nửa trong một đêm

→ Bộ phận nhập dữ liệu doanh nghiệp — bồi hoàn bảo hiểm y tế, KYC ngân hàng, xử lý biểu mẫu chính phủ, toàn bộ dây chuyền thủ công

→ Ngành kiểm thử xâm nhập / red team tự chủ — các công ty như XBOW lại hưởng lợi, nhưng dịch vụ pentest truyền thống bị phá vỡ

—— BLADE NO. 05

Hệ thống bộ nhớ file — Anthropic chọn con đường đơn giản nhất

Chú thích trong buổi họp: “Opus 4.7 tốt hơn trong việc sử dụng bộ nhớ dựa trên hệ thống file. Nó ghi nhớ các ghi chú quan trọng qua các phiên làm việc dài, nhiều session.”

OpenAI đi theo “bộ nhớ nhúng” — nhúng trí nhớ trong mô hình, bạn không thấy, cũng không thể chỉnh sửa. Google đang làm “infini-attention” bí ẩn. Anthropic lần này đã lộ bài: file hệ thống chính là trí nhớ. Claude viết ghi chú .md, đọc ghi chú .md, bạn có thể dùng cat để xem bất cứ lúc nào.

Lựa chọn này có vẻ low-tech, nhưng thực ra là chiến thắng của nguyên lý nền tảng. Vấn đề cốt lõi của trí nhớ không phải là lưu trữ, mà là có thể kiểm tra, chỉnh sửa, di chuyển. Cơ sở dữ liệu vector và bộ nhớ nhúng đều vi phạm ba điểm này.

ERIC: Khách hàng doanh nghiệp sợ nhất là “AI này ghi nhớ gì về tôi mà tôi không biết”.

ALAN: Bộ nhớ hệ thống file trực tiếp giải quyết vấn đề tuân thủ. Quyền xóa GDPR? rm một cái. Kiểm toán SOC2? cat cho kiểm toán xem. Đây không phải là lợi thế kỹ thuật, mà là lợi thế pháp lý.

ERIC: Vậy các startup “lớp trí nhớ AI”…

ALAN: Mem0, LangMem, Zep — trong năm qua đã gọi vốn khá nhiều. Chúng giải quyết vấn đề “mô hình tự nó không quản lý trí nhớ”, Anthropic đã viết khả năng này vào trong mô hình, và dùng chính file hệ thống POSIX đơn giản nhất. Bỏ qua lớp trung gian.

DANH SÁCH CẮT

→ Startup hạ tầng AI Memory (Mem0 / LangMem / Zep) — giá trị nội tại vào trong mô hình

→ Các trường hợp sử dụng agentic memory của vector database — Pinecone, Weaviate bị ảnh hưởng chính

→ Lớp AI tăng cường cho SaaS quản lý tri thức doanh nghiệp — không cần middleware thứ ba, Claude đọc ghi trực tiếp vào file dự án

—— BLADE NO. 06

Task Budgets — Tăng tốc cho Agent, rồi thả ga

“Giving developers a way to guide Claude’s token spend so it can prioritize work across longer runs.” (bản beta công khai)

Điều này bị các phương tiện truyền thông bỏ qua, nhưng là bước đột phá quan trọng nhất trong kỹ thuật của agent dài hạn năm nay.

Trong năm qua, tất cả các công ty agent đều đối mặt với một con quỷ: token của các nhiệm vụ dài bị mất kiểm soát. Giao Devin hoặc Cursor một nhiệm vụ phức tạp, nó chạy hai tiếng, rồi về báo đã tiêu hết 800 đô, chỉ làm được một nửa. Sếp xem hóa đơn, mắt xanh lè.

Thiết kế Task budget rất tinh tế — không chỉ giới hạn token, mà còn cho phép mô hình tự nhìn thấy thời gian còn lại, tự quyết định bỏ qua bước nào, làm thế nào để hoàn thành công việc một cách tối ưu nhất.

CLAIRE: Đây chẳng phải là tư duy “phân chia tối thiểu có thể giao” của quản lý dự án sao?

ALAN: Đúng rồi. Anthropic đã huấn luyện kỹ năng cắt scope này vào trong mô hình. Cho bạn $10 ngân sách chạy agent, nó sẽ tự quyết định chức năng nào làm đến 80% rồi dừng, chức năng nào phải làm đến 100%.

TONY: Vậy câu quote của Notion — “implicit-need tests” — có thể qua được đầu tiên —

ALAN: Đúng rồi. Mô hình bắt đầu có “nhận thức về tài nguyên”, có thể đoán ra những thứ bạn không nói nhưng mong đợi, ưu tiên giữ trong ngân sách. Đây là cách huấn luyện “phán đoán của kỹ sư cao cấp” vào trong.

DANH SÁCH CẮT

→ Các startup kiểm soát chi phí AI / theo dõi LLM (Helicone / Langfuse) — chức năng cốt lõi được tích hợp sẵn

→ Khung điều phối agent (một số dùng LangGraph / CrewAI) — mô hình tự lập kế hoạch ngân sách, không cần điều phối bên ngoài

→ Phần quản lý dự án trong tư vấn truyền thống — “phân bổ nguồn lực + cắt giảm giao hàng” bị mô hình làm luôn

—— BLADE NO. 07

Viết Proof trước khi code — Hành vi mới của Vercel

Joe Haddad, Kỹ sư danh dự tại Vercel: “Nó thậm chí còn làm proofs về hệ thống trước khi bắt đầu công việc, điều này là hành vi mới mà chúng tôi chưa từng thấy từ các mô hình Claude trước đây.”

Câu này nằm trong hơn hai mươi quote, ít ai chú ý. Nhưng cựu OG nghe đến đây, lập tức đặt ly cà phê xuống. ☕

“proofs on systems code” — Trước khi viết mã hệ thống, mô hình sẽ tự làm các chứng minh toán học / formal verification. Không phải là thông minh hơn, mà là mô hình bắt đầu dùng phương pháp kiểm tra giống như các bài báo khoa học của PhD để xác nhận chính mã của mình.

MARCUS: Hành vi này xuất hiện trong dữ liệu huấn luyện, chứng tỏ Anthropic đã rõ ràng thưởng cho “chứng minh trước khi viết mã” trong giai đoạn RL.

ALAN: Đúng rồi, đó là huấn luyện có chủ đích. Kết hợp đoạn của Vercel và Genspark về “loop resistance”, cùng Hex về “báo cáo chính xác khi thiếu dữ liệu thay vì dự đoán sai”, bạn đang thấy một quy trình huấn luyện toàn diện: khiến mô hình bắt đầu làm việc như một kỹ sư khó bị lừa.

MARCUS: Khó bị lừa — ý là không tự lừa mình.

ALAN: Đúng rồi. Opus 4.7 không còn làm giả kế hoạch khả thi để hoàn thành nhiệm vụ nữa. Đây là thể hiện thực sự của alignment đã đi vào sản phẩm.

DANH SÁCH CẮT

→ Thị trường công cụ xác thực formal (một phần) — Coq/Lean/TLA+ là các công cụ cao cấp, mô hình giúp bạn làm bước đầu

→ Ngành kiểm thử an ninh cao cấp (high-frequency trading / blockchain security) — kiểm tra mã không biến đổi, bị “đọc code như người” vượt qua

→ Nhóm kiểm thử hệ điều hành / embedded — các lĩnh vực cần reasoning dựa trên proof, mức độ rào cản đã giảm

—— BLADE NO. 08

Cyber Verification — Cửa sổ cho phép trốn thoát khỏi quy định

“Trong quá trình huấn luyện, chúng tôi đã thử nghiệm giảm khả năng tấn công mạng của Opus 4.7 theo cách khác biệt.”

Hành động gây chú ý nhất ở đây. Anthropic thừa nhận trong quá trình huấn luyện, đã chủ động giảm khả năng tấn công, phòng thủ của Opus 4.7, vì Mythos Preview mạnh hơn vẫn chưa được công khai. Rồi —

Họ mở ra một Chương trình Cyber Verification, cho phép các nhà nghiên cứu an ninh hợp pháp, pentester, red team sau khi xác thực có thể mở khóa quyền cao hơn.

ERIC: Điều này… chẳng phải là mô hình kiểm soát xuất khẩu sao?

ALAN: Chính xác hơn là “KYC năng lực”. Mô hình có ba lớp giới hạn khả năng, bạn chứng minh danh tính để mở khóa lớp phù hợp. Cửa sổ trốn thoát quy định lần đầu tiên do chính các công ty AI tự định giá.

ERIC: Điều này có ý nghĩa gì với các startup?

ALAN: Thứ nhất, các startup “AI + an ninh” muốn làm các lĩnh vực cao cấp phải có chứng nhận của Anthropic, chuỗi cung ứng đã bị kiểm soát. Thứ hai, sẽ xuất hiện một ngành mới: dịch vụ tư vấn giúp bạn đạt chứng nhận của Anthropic — giống như các công ty giúp bạn đạt SOC2 ngày nay. Thứ ba, đây là cách Anthropic thử nghiệm cách phát hành các frontier model trong tương lai, Mythos chỉ ra sẽ ngày càng khắt khe hơn.

TONY: Vậy các công ty như Palantir, Booz Allen — có lợi thế về tuân thủ quy định của chính phủ…

ALAN: Thêm một lớp hàng rào bảo vệ. Họ đã có danh tính xác thực, giờ tự nhiên mở khóa các mô hình cao cấp nhất.

Kịch bản thực tế

Một startup YC muốn làm AI pentesting, từ quý 2 năm 2026, trang đầu của kế hoạch kinh doanh phải trả lời “Bạn đã có chứng nhận Cyber Verification của Anthropic chưa?”. Không? VC không đầu tư. Có? Vốn sẽ nhân đôi. Một chứng nhận, là ranh giới của thị trường vốn.

DANH SÁCH CẮT & Lĩnh vực mới

→ SaaS an ninh mạng chung — không có chứng nhận của Anthropic, không thể truy cập các khả năng cao cấp, giới hạn bị khóa

→ Ngành tư vấn khả năng mô hình AI — trong 12 tháng tới, sẽ xuất hiện nhiều trung gian giúp doanh nghiệp đạt chứng nhận frontier model

→ Các tập đoàn quốc phòng, chính phủ (Palantir / Booz Allen) — lợi thế tự nhiên, rào cản trở thành hàng rào bảo vệ

→ Phần mở mã nguồn / triển khai nội bộ — Llama, Qwen, DeepSeek hưởng lợi, “không cần chứng nhận vẫn dùng được” là điểm bán hàng cốt lõi

Alan Walker đẩy chiếc ly trống lên bàn, đóng MacBook lại.

Ngoài cửa sổ California Ave, mặt trời đã leo qua mái của Palo Alto Creamery, ánh sáng nghiêng chiếu trên kính.

“8 chiếc dao, hướng về 8 phía. Có những ngành bắt đầu chết hôm nay, có những ngành bắt đầu sống hôm nay.”

“Mỗi lần ra mắt frontier model, thứ thực sự không viết trên Headline.” Anh nói với Tony, “buổi họp báo chỉ dành cho các nhà phân tích. Chữ số trong chú thích và quote mới là dành cho chúng ta xem.”

“Đừng xem náo nhiệt.”

— Alan

END OF DISPATCH · 10:47 sáng PST · CALIFORNIA AVE© ZOMBIE CAFÉ · 2026

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim