Đồng sáng lập Ethereum Vitalik Buterin đã hoàn toàn rời khỏi các dịch vụ AI trên nền tảng đám mây và chi tiết trong một bài đăng blog, công bố cấu hình AI “toàn bộ tại chỗ” (fully local) của ông được chạy trong môi trường hộp cát (sandboxed). Bài viết được đăng trong tuần này.
Các ý chính:
Buterin mô tả hệ thống là “tự chủ / tại chỗ / riêng tư / an toàn” và cho biết nó được xây dựng trực tiếp để phản hồi những gì ông xem là sự thất bại nghiêm trọng về bảo mật và quyền riêng tư đang lan rộng trong không gian các tác nhân AI. Ông chỉ ra nghiên cứu cho thấy khoảng 15% kỹ năng của các tác nhân, hoặc các công cụ dạng plugin, chứa các chỉ dẫn độc hại. Hiddenlayer, một công ty an ninh, đã chứng minh rằng việc phân tích một trang web độc hại duy nhất có thể làm tổn hại hoàn toàn một phiên bản Openclaw, cho phép nó tải và thực thi các script shell mà không cần người dùng hay biết.
“Tôi xuất phát từ một tư duy rằng tôi thực sự sợ hãi: ngay khi chúng ta cuối cùng đã tiến thêm một bước về quyền riêng tư nhờ việc phổ cập mã hóa đầu-cuối và ngày càng nhiều phần mềm “ưu tiên chạy tại địa phương” (local-first), thì chúng ta đang đứng trước nguy cơ lùi lại mười bước,” Buterin viết.
Phần cứng ông chọn là một chiếc laptop chạy GPU Nvidia 5090 với 24 GB bộ nhớ video. Khi chạy mô hình Qwen3.5:35B (open-weights) từ Alibaba thông qua llama-server, hệ thống đạt 90 token mỗi giây—mức mà Buterin gọi là mục tiêu cho việc sử dụng hằng ngày thoải mái. Ông đã thử AMD Ryzen AI Max Pro với 128 GB bộ nhớ hợp nhất, đạt 51 token mỗi giây, và DGX Spark đạt 60 token mỗi giây.
Ông cho biết DGX Spark, được tiếp thị như một “siêu máy tính AI để bàn”, là không mấy ấn tượng xét theo chi phí và mức thông lượng thấp hơn so với một GPU laptop tốt. Về hệ điều hành, Buterin chuyển từ Arch Linux sang NixOS, cho phép người dùng định nghĩa toàn bộ cấu hình hệ thống trong một tệp khai báo (declarative). Ông sử dụng llama-server như một daemon chạy nền, mở một cổng cục bộ để bất kỳ ứng dụng nào cũng có thể kết nối tới.
Claude Code, ông lưu ý, có thể được trỏ tới một phiên bản llama-server chạy cục bộ thay vì các máy chủ của Anthropic. Việc sandboxing là trọng tâm trong mô hình bảo mật của ông. Ông dùng bubblewrap để tạo các môi trường tách biệt (isolated) từ bất kỳ thư mục nào chỉ bằng một lệnh duy nhất. Các tiến trình chạy bên trong các sandbox đó chỉ có thể truy cập những tệp được cho phép rõ ràng và những cổng mạng được kiểm soát cụ thể. Buterin đã công bố mã nguồn mở một trình daemon nhắn tin tại github.com/vbuterin/messaging-daemon, gói bọc signal-cli và email.
Ông nhận xét rằng daemon có thể đọc tin nhắn một cách tự do và gửi tin nhắn cho chính mình mà không cần xác nhận. Mọi tin nhắn gửi đi tới bên thứ ba đều cần phê duyệt rõ ràng từ con người. Ông gọi đây là mô hình “con người + LLM 2-trên-2”, và cho biết cùng logic đó cũng áp dụng cho các ví Ethereum. Ông khuyên các đội ngũ đang xây dựng công cụ ví được kết nối với AI nên giới hạn các giao dịch tự động ở mức $100 mỗi ngày và yêu cầu xác nhận của con người cho bất kỳ điều gì cao hơn, hoặc cho bất kỳ giao dịch nào mang calldata có thể làm lộ (exfiltrate) dữ liệu.
Với các tác vụ nghiên cứu, Buterin so sánh công cụ chạy cục bộ Local Deep Research với chính hệ thống của ông bằng cách dùng framework pi agent kết hợp với SearXNG, một công cụ meta-search engine tự host tập trung vào quyền riêng tư. Ông nói rằng pi kết hợp SearXNG tạo ra câu trả lời chất lượng tốt hơn. Ông lưu một bản dump Wikipedia cục bộ khoảng 1 terabyte cùng với tài liệu kỹ thuật để giảm sự phụ thuộc của mình vào các truy vấn tìm kiếm bên ngoài; ông coi đây là một sự rò rỉ quyền riêng tư.
Ông cũng công bố một trình daemon chuyển văn bản giọng nói chạy cục bộ (local audio transcription daemon) tại github.com/vbuterin/stt-daemon. Công cụ này chạy mà không cần GPU cho nhu cầu cơ bản và chuyển đầu ra cho LLM để hiệu chỉnh và tóm tắt. Về tích hợp với Ethereum, Buterin nói rằng các tác nhân AI không bao giờ được giữ quyền truy cập ví không bị hạn chế. Ông khuyến nghị xem con người và LLM như hai yếu tố xác nhận (confirmation factors) riêng biệt, mỗi yếu tố bắt được các kiểu hỏng (failure modes) khác nhau.
Trong các trường hợp mô hình tại chỗ không đáp ứng, Buterin đã nêu ra một cách tiếp cận bảo toàn quyền riêng tư cho suy luận từ xa. Ông dẫn đề xuất ZK-API của chính mình cùng với nhà nghiên cứu Davide, dự án Openanonymity, và việc sử dụng mixnets để ngăn các máy chủ liên kết các yêu cầu kế tiếp bằng địa chỉ IP. Ông cũng nhắc tới các môi trường thực thi đáng tin cậy (trusted execution environments) như một cách để giảm rò rỉ dữ liệu từ suy luận từ xa trong ngắn hạn, đồng thời lưu ý rằng mã hóa hoàn toàn đồng cấu (fully homomorphic encryption) cho suy luận trên đám mây riêng tư vẫn còn quá chậm nên chưa thực tế để triển khai ngày nay.
Buterin kết lại bằng một ghi chú rằng bài viết mô tả một điểm khởi đầu, chứ không phải một sản phẩm hoàn chỉnh, và cảnh báo độc giả đừng sao chép các công cụ chính xác của ông cũng như cho rằng chúng đã an toàn.