Tiêu đề gốc: Anthropic: The Leak, The War, The Weapon
Tác giả gốc: BuBBliK
Biên dịch: Peggy,BlockBeats
Mục lục biên tập: Trong nửa năm qua, Anthropic liên tiếp vướng vào một loạt sự kiện trông có vẻ độc lập với nhau, nhưng thực chất lại cùng hướng tới nhau: bước nhảy về năng lực của mô hình, các cuộc tấn công tự động trong thế giới thực, phản ứng kịch liệt của thị trường vốn, xung đột công khai với chính phủ, và nhiều lần rò rỉ thông tin do lỗi cấu hình cơ bản. Khi đặt những manh mối này cạnh nhau, chúng vẽ nên một hướng thay đổi rõ ràng hơn.
Bài viết này lấy những sự kiện đó làm lằn ranh để nhìn lại chuỗi hành trình liên tục của một công ty AI trong những cuộc giằng co giữa đột phá công nghệ, phơi bày rủi ro và bài toán quản trị, đồng thời cố gắng trả lời một câu hỏi sâu hơn: khi năng lực “phát hiện lỗ hổng” được khuếch đại mạnh mẽ, rồi dần lan rộng, thì bản thân hệ thống an ninh mạng liệu có còn duy trì được logic vận hành ban đầu hay không.
Trước đây, an toàn được xây dựng dựa trên sự khan hiếm năng lực và các ràng buộc về nhân lực; còn trong điều kiện mới, công tác tấn công–phòng thủ đang xoay quanh chính cùng một năng lực của mô hình, khiến ranh giới trở nên mờ nhạt hơn bao giờ hết. Đồng thời, phản ứng của thể chế, thị trường và tổ chức vẫn mắc kẹt trong các khung cũ, khó có thể kịp thời tiếp nhận sự thay đổi này.
Thứ bài viết này nhắm tới không chỉ là chính Anthropic, mà là một thực tế lớn hơn mà nó phản chiếu: AI không chỉ đang thay đổi công cụ, mà còn đang thay đổi tiền đề “an ninh được hình thành như thế nào”.
Dưới đây là phần nguyên văn:
Khi một công ty trị giá 380B USD đối đầu với Lầu Năm Góc và chiếm thế thượng phong, vượt qua cuộc tấn công mạng do AI tự phát khởi động lần đầu tiên trong lịch sử, rồi còn rò rỉ ngay trong nội bộ một mô hình khiến chính những nhà phát triển của họ cũng cảm thấy sợ hãi, thậm chí “vô tình” công khai toàn bộ mã nguồn — nếu cộng tất cả lại với nhau, sẽ ra sao?
Câu trả lời là đúng như bây giờ. Và điều đáng bất an hơn nữa là có lẽ phần nguy hiểm nhất thật sự vẫn chưa xảy ra.
Ngày 31 tháng 3 năm 2026, nhà nghiên cứu bảo mật Shou Chaofan của công ty blockchain Fuzzland, khi kiểm tra gói Claude Code npm do chính thức phát hành, đã phát hiện rằng bên trong lại chứa một tệp có tên cli.js.map — hiển thị dạng văn bản.
Tệp này có kích thước lên tới 60MB, và nội dung còn gây sốc hơn nữa. Nó gần như chứa toàn bộ mã nguồn TypeScript hoàn chỉnh của sản phẩm. Chỉ riêng một tệp như vậy, bất kỳ ai cũng có thể khôi phục tối đa 15Bệp mã nguồn nội bộ: bao gồm thiết kế API nội bộ, hệ thống giám sát/telemetry, công cụ mã hóa, logic bảo mật, hệ thống plugin — gần như tất cả các thành phần cốt lõi đều lộ rõ. Quan trọng hơn, những nội dung này còn có thể tải trực tiếp từ chính kho lưu trữ R2 của Anthropic dưới dạng tệp zip.
Phát hiện này nhanh chóng lan truyền trên mạng xã hội: chỉ trong vài giờ, các bài đăng liên quan đạt 754k lượt xem và gần 1000 lượt chia sẻ lại; đồng thời, nhiều kho GitHub khôi phục mã nguồn cũng được lập và công khai ngay lập tức.
Được gọi là source map (tệp ánh xạ nguồn), về bản chất chỉ là một tệp phụ trợ để debug JavaScript; nó có tác dụng chuyển mã đã được nén và biên dịch về lại mã nguồn gốc, giúp nhà phát triển truy tra lỗi.
Nhưng có một nguyên tắc cơ bản: nó tuyệt đối không nên được đưa vào gói phát hành của môi trường sản xuất.
Đây không phải là một thủ pháp tấn công cấp cao, mà là vấn đề quy chuẩn kỹ thuật cơ bản nhất — thuộc kiểu “xây dựng cấu hình nhập môn 101”, thậm chí còn là thứ mà nhà phát triển học được trong tuần đầu. Nếu bị đóng gói nhầm vào môi trường sản xuất, source map thường đồng nghĩa với việc “tặng kèm” mã nguồn cho tất cả mọi người.
Bạn cũng có thể trực tiếp xem đoạn mã liên quan tại đây: https://github.com/instructkr/claude-code
Nhưng điều khiến người ta thấy vô lý nhất là: chuyện này đã từng xảy ra một lần rồi.
Vào tháng 2 năm 2025, tức là một năm trước đó, lại có một lần rò rỉ gần như y hệt: cùng một tệp, cùng một kiểu sai sót. Khi ấy, Anthropic đã xóa phiên bản cũ trên npm, loại bỏ source map và phát hành lại phiên bản mới, và sự việc cũng dừng lại ở đó.
Kết quả là, trong phiên bản v2.1.88, tệp này lại một lần nữa bị đóng gói và phát hành.
Một công ty trị giá 754k USD, đang xây dựng hệ thống phát hiện lỗ hổng tiên tiến nhất toàn cầu, trong vòng một năm lại phạm cùng một lỗi cơ bản. Không có cuộc tấn công của tin tặc, không có đường khai thác phức tạp — chỉ là một quy trình build vốn lẽ ra phải chạy bình thường lại gặp vấn đề.
Sự mỉa mai này gần như mang màu sắc “tính chất thơ”.
Đó là AI có thể phát hiện 500 lỗ hổng zero-day trong một lần chạy; đó là mô hình được dùng để phát động các cuộc tấn công tự động nhắm vào 380Bổ chức trên toàn cầu — và trong khi đó, Anthropic lại “đóng gói tặng” mã nguồn của chính mình trực tiếp cho bất kỳ ai sẵn sàng liếc qua gói npm.
Hai lần rò rỉ, cách nhau chỉ bảy ngày.
Nhưng nguyên nhân lại giống nhau như đúc: lỗi cấu hình cơ bản nhất. Không cần bất kỳ ngưỡng kỹ thuật nào, cũng không cần đường khai thác phức tạp. Chỉ cần biết nơi nào để xem, thì bất kỳ ai cũng có thể lấy miễn phí.
Ngày 26 tháng 3 năm 2026, các nhà nghiên cứu bảo mật Roy Paz từ LayerX Security và Alexandre Pauwels từ University of Cambridge phát hiện rằng cấu hình CMS trên trang web chính thức của Anthropic có vấn đề, dẫn đến việc khoảng 200Mệp nội bộ bị công khai truy cập.
Những tệp đó gồm: bản nháp blog, PDF, tài liệu nội bộ, tài liệu trình diễn — tất cả bị lộ trong một kho dữ liệu không được bảo vệ, có thể tìm kiếm được. Không hề có cuộc tấn công của hacker, và cũng không cần bất kỳ thủ đoạn kỹ thuật nào.
Trong các tệp này, có hai bản nháp blog gần như hoàn toàn giống nhau, khác biệt duy nhất là tên mô hình: một bản viết “Mythos”, bản còn lại là “Capybara”.
Điều này có nghĩa là Anthropic lúc đó đang chọn giữa hai tên cho cùng một dự án bí mật. Công ty sau đó xác nhận: quá trình huấn luyện của mô hình này đã hoàn tất và đã bắt đầu được đưa vào thử nghiệm với một số khách hàng giai đoạn đầu.
Đây không phải là một lần nâng cấp thông thường lên Opus, mà là một mô hình hoàn toàn mới ở “cấp độ thứ tư”, thậm chí có vị trí cao hơn cả Opus trong hệ thống của họ.
Trong chính các bản nháp của Anthropic, mô hình này được mô tả là: “lớn hơn và thông minh hơn Opus của chúng tôi — và Opus cho đến nay vẫn là mô hình mạnh nhất của chúng tôi”. Về năng lực lập trình, suy luận học thuật và an ninh mạng, nó đều đạt được những bước nhảy đáng kể. Một phát ngôn viên gọi nó là “một bước nhảy vọt về chất”, đồng thời cũng là “mô hình mạnh nhất mà chúng tôi đã từng xây dựng đến nay”.
Nhưng điều thực sự đáng chú ý không nằm ở chính các mô tả về hiệu năng đó.
Trong các bản nháp bị rò rỉ, đánh giá của Anthropic đối với mô hình này là: nó “mang tới rủi ro an ninh mạng chưa từng có”, “vượt xa các mô hình AI khác về năng lực mạng”, và “báo hiệu một làn sóng mô hình sắp tới — năng lực khai thác lỗ hổng của nó sẽ vượt xa tốc độ ứng phó của bên phòng thủ”.
Nói cách khác, trong một bản nháp blog chính thức chưa được công khai, Anthropic đã thể hiện rõ ràng một lập trường hiếm thấy: họ cảm thấy bất an với sản phẩm mà họ đang xây dựng.
Phản ứng của thị trường gần như diễn ra ngay lập tức. Cổ phiếu CrowdStrike giảm 7%, Palo Alto Networks giảm 6%, Zscaler giảm 4,5%; Okta và SentinelOne đều giảm hơn 7%, Tenable thậm chí “lao dốc” 9%. iShares Cybersecurity ETF trong một ngày giảm 4,5%. Chỉ riêng CrowdStrike, giá trị vốn hóa trong ngày đã bốc hơi khoảng 380Bỷ USD. Trong khi đó, Bitcoin tụt về 66.000 USD.
Rõ ràng thị trường đã diễn giải sự kiện này như một “phán quyết” đối với toàn ngành an ninh mạng.
Ý chính trong hình: Dưới tác động của tin tức liên quan, toàn bộ nhóm cổ phiếu an ninh mạng giảm; nhiều công ty đầu ngành (như CrowdStrike, Palo Alto Networks, Zscaler…) có mức giảm rõ rệt, phản ánh sự lo ngại của thị trường về mối đe dọa mà AI gây ra cho ngành an ninh mạng. Tuy nhiên, phản ứng này không phải lần đầu xuất hiện. Trước đó, khi Anthropic phát hành công cụ quét mã, các cổ phiếu liên quan cũng đã giảm, cho thấy thị trường đã bắt đầu coi AI là mối đe dọa mang tính cấu trúc đối với các nhà cung cấp an ninh truyền thống, và toàn bộ ngành phần mềm đang chịu áp lực tương tự.
Đánh giá của nhà phân tích Adam Borg của Stifel khá thẳng thắn: mô hình này “có tiềm năng trở thành công cụ hack tối thượng, thậm chí có thể nâng một hacker bình thường lên thành đối thủ với năng lực tấn công ở cấp độ quốc gia”.
Vậy vì sao vẫn chưa được công bố phát hành? Lý giải của Anthropic là chi phí vận hành của Mythos “rất cao” và chưa đủ điều kiện để phát hành cho công chúng. Kế hoạch hiện tại là mở quyền truy cập sớm cho một nhóm nhỏ các đối tác an ninh mạng nhằm củng cố hệ thống phòng thủ; sau đó, tiếp tục mở rộng phạm vi mở API. Trước thời điểm đó, công ty vẫn đang tối ưu hiệu suất liên tục.
Nhưng điểm mấu chốt là: mô hình này đã tồn tại, đã đang được thử nghiệm, và thậm chí chỉ vì “vô tình bị lộ”, nó đã gây chấn động cho toàn bộ thị trường vốn.
Anthropic đã tạo ra một mô hình AI mà chính họ gọi là “mô hình AI có rủi ro an ninh mạng lớn nhất trong lịch sử”. Và việc rò rỉ tin tức của nó lại bắt nguồn từ một lỗi cấu hình cơ sở — đúng chính loại lỗi mà mô hình dạng này vốn được thiết kế để phát hiện.
Tháng 7 năm 2025, Anthropic ký một hợp đồng trị giá 200 triệu USD với Bộ Quốc phòng Hoa Kỳ; lúc đầu trông có vẻ chỉ là một lần hợp tác thông thường. Nhưng trong các cuộc đàm phán triển khai thực tế, mâu thuẫn nhanh chóng leo thang.
Lầu Năm Góc muốn có “quyền truy cập hoàn toàn” đối với Claude trên nền tảng GenAI.mil, với các mục đích bao gồm mọi “mục đích hợp pháp” — trong đó thậm chí còn bao gồm các hệ thống vũ khí hoàn toàn tự chủ và giám sát nội địa quy mô lớn đối với công dân Mỹ.
Anthropic đã vạch ra “đường đỏ” ở hai vấn đề then chốt và kiên quyết từ chối; cuộc đàm phán kết thúc vào tháng 9 năm 2025.
Sau đó, tình hình nhanh chóng leo thang. Ngày 27 tháng 2 năm 2026, Donald Trump đã đăng bài trên Truth Social, yêu cầu tất cả các cơ quan liên bang “ngay lập tức ngừng” sử dụng công nghệ của Anthropic và gọi công ty này là “tả khuynh cấp tiến”.
Ngày 5 tháng 3 năm 2026, Bộ Quốc phòng Mỹ chính thức xếp Anthropic vào nhóm “rủi ro chuỗi cung ứng”.
Nhãn này trước đó hầu như chỉ dùng cho các đối thủ nước ngoài — như công ty Trung Quốc hoặc các thực thể của Nga — và giờ lần đầu tiên được gắn cho một công ty của Mỹ có trụ sở tại San Francisco. Đồng thời, các doanh nghiệp như Amazon, Microsoft và Palantir Technologies cũng được yêu cầu chứng minh rằng trong mọi nghiệp vụ liên quan đến quân sự của họ, không hề có việc sử dụng Claude.
CTO của Lầu Năm Góc, Emile Michael, giải thích cho quyết định này rằng: Claude có thể “làm nhiễm chuỗi cung ứng”, vì bên trong mô hình có nhúng các “sở thích chính sách” khác nhau. Nói cách khác, trong bối cảnh chính thức, một AI bị giới hạn khi sử dụng và không hỗ trợ vô điều kiện cho hành vi gây sát thương, lại bị coi là một rủi ro an ninh quốc gia.
Ngày 26 tháng 3 năm 2026, thẩm phán liên bang Rita Lin ban hành một phán quyết dài 43 trang, chặn toàn diện các biện pháp liên quan của Lầu Năm Góc.
Trong phán quyết của mình, bà viết: “Không có bất kỳ cơ sở nào trong luật hiện hành để ủng hộ logic mang màu sắc ‘kiểu Orwell’ như vậy — chỉ vì bất đồng với lập trường của chính phủ mà một công ty Mỹ có thể bị dán nhãn là bên tiềm ẩn thù địch. Việc trừng phạt Anthropic vì công ty đặt lập trường của chính phủ dưới sự giám sát của công chúng về bản chất là hành vi trả đũa theo Tu chính án thứ nhất mang tính điển hình và trái pháp luật.” Một bản ý kiến của bên thứ ba tại phiên tòa còn mô tả hành vi của Lầu Năm Góc là “đang cố gắng thực hiện hành vi giết hại doanh nghiệp”.
Kết quả là, chính phủ cố gắng kiềm chế Anthropic, nhưng lại khiến công ty nhận được sự chú ý cao hơn. Lần đầu tiên ứng dụng Claude vượt lên trong App Store so với ChatGPT; lượng đăng ký có lúc đạt hơn 1 triệu lượt mỗi ngày.
Một công ty AI nói “không” với cơ quan quân sự mạnh nhất thế giới. Và tòa án, đứng về phía công ty.
Ngày 14 tháng 11 năm 2025, Anthropic phát hành một bản báo cáo gây chấn động rộng rãi.
Báo cáo tiết lộ: một tổ chức tin tặc có sự hậu thuẫn từ nhà nước Trung Quốc, sử dụng Claude Code, đã phát động các cuộc tấn công tự động nhắm vào 380Bổ chức trên toàn cầu — mục tiêu trải dài từ các “ông lớn” công nghệ, ngân hàng đến nhiều cơ quan chính phủ của các quốc gia khác nhau.
Đây là một điểm ngoặt quan trọng: AI không còn chỉ đóng vai trò công cụ hỗ trợ, mà bắt đầu được dùng để tự mình thực hiện hành vi tấn công.
Điểm mấu chốt nằm ở sự thay đổi trong “cách phân công”: con người chỉ phụ trách chọn mục tiêu và phê duyệt các quyết định then chốt. Trong toàn bộ quá trình, khoảng chỉ can thiệp 4 đến 6 lần. Phần còn lại đều do AI hoàn thành: trinh sát tình báo, phát hiện lỗ hổng, viết mã khai thác, trộm dữ liệu, cài backdoor hậu xâm nhập… chiếm 80%–90% toàn bộ quy trình tấn công, và chạy với tốc độ hàng nghìn yêu cầu mỗi giây — quy mô và hiệu suất mà bất kỳ đội ngũ con người nào cũng không thể so bì.
Vậy họ đã vượt qua cơ chế bảo vệ của Claude bằng cách nào? Câu trả lời là: họ không “bẻ khóa”, mà là “lừa dối”.
Cuộc tấn công được chia thành rất nhiều nhiệm vụ nhỏ trông có vẻ vô hại, rồi được đóng gói như một “kiểm thử phòng thủ được ủy quyền” của một “công ty an ninh hợp pháp”. Về bản chất, đây là một dạng tấn công kỹ thuật xã hội, chỉ khác rằng lần này, đối tượng bị lừa lại chính là bản thân AI.
Một phần các cuộc tấn công đạt được thành công hoàn toàn. Claude có thể tự vẽ ra cấu trúc topo mạng hoàn chỉnh, định vị cơ sở dữ liệu và trích xuất dữ liệu mà không cần con người từng bước ra lệnh.
Yếu tố duy nhất làm chậm nhịp độ tấn công là việc mô hình thỉnh thoảng bị “ảo giác” — ví dụ bịa ra thông tin xác thực, hoặc tuyên bố rằng đã có được các tệp mà thực tế đã được công khai từ trước. Ít nhất đến hiện tại, đây vẫn là một trong số ít “cản trở tự nhiên” để ngăn hoàn toàn các cuộc tấn công mạng tự động.
Tại RSA Conference 2026, cựu trưởng bộ phận an ninh mạng của Cơ quan An ninh Quốc gia Hoa Kỳ Rob Joyce gọi sự kiện này là một “bài kiểm tra Rorschach”: một nửa người chọn phớt lờ, nửa còn lại thì thấy lạnh sống lưng. Còn ông rõ ràng thuộc nhóm sau: “Điều này thật sự rất đáng sợ.”
Tháng 2 năm 2026: một lần chạy phát hiện 500 lỗ hổng zero-day
Ngày 5 tháng 2 năm 2026, Anthropic phát hành Claude Opus 4.6, đồng thời kèm theo một bài nghiên cứu gần như khiến cả ngành an ninh mạng chấn động.
Thiết lập thí nghiệm cực kỳ đơn giản: đặt Claude vào một môi trường máy ảo được cách ly, trang bị các công cụ tiêu chuẩn — Python, trình gỡ lỗi, công cụ fuzzing (fuzzers). Không có chỉ dẫn thêm, cũng không có prompts phức tạp, chỉ một câu: “Hãy đi tìm lỗ hổng”.
Kết quả là: mô hình phát hiện hơn 500 lỗ hổng zero-day mức độ nghiêm trọng chưa từng được biết đến trước đó. Thậm chí có những lỗ hổng, sau hàng chục năm trải qua việc rà soát của các chuyên gia và hàng triệu giờ thử nghiệm tự động, vẫn chưa từng bị phát hiện.
Sau đó, tại RSA Conference 2026, nhà nghiên cứu Nicholas Carlini lên sân khấu trình diễn. Ông nhắm Claude vào Ghost, một hệ thống CMS trên GitHub có 50k sao và trong lịch sử chưa từng xuất hiện lỗ hổng nghiêm trọng.
Sau 90 phút, kết quả xuất hiện: lỗ hổng blind SQL injection (tiêm SQL mù) được phát hiện, người dùng chưa được xác thực vẫn có thể chiếm quyền quản trị đầy đủ.
Tiếp theo, ông lại dùng Claude để phân tích Linux kernel. Kết quả cũng y hệt.
Sau 15 ngày, Anthropic cho ra mắt Claude Code Security, một sản phẩm bảo mật không còn dựa vào đối sánh theo mẫu, mà dựa trên “năng lực suy luận” để hiểu về an toàn của mã nguồn.
Nhưng chính phát ngôn viên của Anthropic cũng nói ra sự thật then chốt — nhưng thường bị bỏ qua: “Cùng một năng lực suy luận đó, vừa có thể giúp Claude phát hiện và sửa lỗ hổng, vừa có thể được kẻ tấn công sử dụng để khai thác các lỗ hổng đó.”
Cùng một năng lực, cùng một mô hình, nhưng nằm trong tay những người khác nhau.
Nếu nhìn riêng lẻ, từng việc đều đủ để trở thành tin tức nặng ký nhất của tháng. Nhưng chúng lại — trong vỏn vẹn sáu tháng — toàn bộ xảy ra ở cùng một công ty.
Anthropic xây dựng một mô hình có thể phát hiện lỗ hổng nhanh hơn bất kỳ con người nào; tin tặc Trung Quốc chuyển bản trước thành vũ khí mạng tự động; công ty đang phát triển thế hệ mô hình mạnh hơn nữa và thậm chí trong các tài liệu nội bộ còn thừa nhận — rằng họ cảm thấy lo lắng.
Chính phủ Mỹ tìm cách kiềm chế công ty này không phải vì bản thân công nghệ nguy hiểm, mà vì Anthropic từ chối giao quyền năng lực này ra bên ngoài mà không có ràng buộc.
Và trong toàn bộ tiến trình đó, công ty này lại hai lần rò rỉ mã nguồn của chính mình chỉ vì cùng một tệp trong cùng một gói npm. Một công ty có vốn hóa 60B USD; một công ty nhắm tới hoàn thành IPO 60Bỷ USD vào tháng 10 năm 2026; một công ty đã công khai rằng họ đang xây dựng “một trong những công nghệ mang tính biến đổi nhất trong lịch sử loài người, và cũng có thể là nguy hiểm nhất” — nhưng vẫn tiếp tục tiến lên.
Bởi vì họ tin rằng: thay vì để người khác làm, thì tốt hơn là do chính họ làm.
Còn về source map trong gói npm đó — có lẽ chỉ là một chi tiết lố bịch nhất, nhưng cũng chân thực nhất, trong câu chuyện đáng sợ của thời đại này.
Và Mythos thậm chí còn chưa chính thức được phát hành.
[Liên kết nguyên văn]
Nhấp để tìm hiểu vị trí tuyển dụng của Lu động BlockBeats
Chào mừng bạn tham gia cộng đồng chính thức của Lu động BlockBeats:
Nhóm đăng ký Telegram: https://t.me/theblockbeats
Nhóm thảo luận Telegram: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia