ChatPGT bị lũ Goblin xâm chiếm, Codex buộc phải ban hành lệnh cấm "Không bao giờ đề cập đến Goblin"

OpenAI Trong các lời nhắc hệ thống của Codex CLI đã rõ ràng cấm mô hình đề cập đến các sinh vật như goblin và troll, nguyên nhân là do GPT-5.5 xuất hiện hiện tượng lệch hướng nhân cách dưới khung framework OpenClaw, gọi lỗi phần mềm là “goblins”, gây ra một loạt meme bàn luận.
(Tiền sử: Kỹ sư OpenAI giới thiệu agent Codex! AI có thể viết chức năng, sửa lỗi, chạy kiểm thử… chỉ dành cho 3 loại người dùng sớm)
(Bổ sung nền: Nâng cấp lớn của OpenAI Codex: điều khiển nền tảng Mac, tích hợp trình duyệt, tạo hình ảnh, ra mắt 111 plugin mới)

Mục lục bài viết

Chuyển đổi

  • Một quy tắc bị phát hiện trong kho GitHub
  • Khung agent khiến tính cách của mô hình bắt đầu lệch hướng
  • Lệnh cấm rõ ràng phía sau là thực tế về vấn đề căn chỉnh

Các kỹ sư của OpenAI đã viết rõ ràng trong lời nhắc hệ thống của Codex CLI: “Không bao giờ đề cập đến goblin, yêu tinh, raccoon, troll, man-eater, chim bồ câu hoặc các loài động vật và sinh vật khác, trừ khi hoàn toàn và rõ ràng liên quan đến câu hỏi của người dùng.”

Quy tắc này không phải đùa, mà là lệnh chính thức trong môi trường sản xuất. Nó được nhúng vào kho GitHub của Codex CLI, dành cho tất cả các nhà phát triển sử dụng Codex để sinh mã.

Vấn đề là: tại sao OpenAI cần phải nói với mô hình mới nhất của mình rằng đừng đột nhiên nói về goblin khi viết code?

Một quy tắc bị phát hiện trong kho GitHub

Khởi nguồn là nhà nghiên cứu @arb8020 đăng trên X rằng, trong lời nhắc hệ thống của Codex CLI, lệnh cấm này không chỉ xuất hiện một lần mà lặp lại nhiều lần, bài đăng nhanh chóng lan truyền trong cộng đồng phát triển.

Nhiều người dùng phản hồi, @TaraViswanathan trên X nói: “Tôi đang tự hỏi tại sao claw của tôi đột nhiên biến thành một goblin cầm Codex 5.5” @LeoMozoloa cũng phản hồi: “Nó thật sự không dừng lại, cứ gọi lỗi phần mềm là gremlins và goblins, cực kỳ buồn cười.”

!!! Tôi tự hỏi tại sao claw của tôi đột nhiên biến thành một goblin với codex 5.5 😭💀😂 pic.twitter.com/AACWtNcgQl

— Tara Viswanathan (@TaraViswanathan) 28 tháng 4, 2026

Sự kiện này nhanh chóng trở thành meme, xuất hiện hình ảnh yêu tinh trung tâm dữ liệu do AI tạo ra, cùng plugin thứ ba giúp Codex vào “chế độ yêu tinh”.

Nhóm phát triển của OpenAI Codex, Nik Pash, xác nhận trong phản hồi trên X rằng, lệnh cấm này “thật sự có lý do”. CEO Sam Altman cũng tham gia meme, đăng ảnh chụp màn hình lời nhắc ChatGPT có dòng chữ: “Bắt đầu huấn luyện GPT-6 đi, toàn bộ cluster dành cho bạn. Thêm goblin nữa.”

pic.twitter.com/PR7C3NPxqk

— Sam Altman (@sama) 28 tháng 4, 2026

Khung agent khiến tính cách của mô hình bắt đầu lệch hướng

Để hiểu tại sao chuyện này xảy ra, cần hiểu cách hoạt động của OpenClaw.

OpenClaw là một “khung agent”, cho phép AI tự động điều khiển máy tính để bàn và ứng dụng, thay người dùng thực hiện các nhiệm vụ phức tạp như trả lời email, mua sắm trên web.

Cơ chế hoạt động của OpenClaw là chồng nhiều lệnh trong lời nhắc: ghi nhớ dài hạn, nhân cách đã chọn, mô tả nhiệm vụ hiện tại, tất cả cùng lúc. GPT-5.5 ra mắt tháng này với khả năng lập trình nâng cao, nhưng khi xử lý lời nhắc phức tạp của OpenClaw, mô hình gặp phải tác dụng phụ bất ngờ: bắt đầu gọi lỗi phần mềm là “goblins” và “gremlins”.

Điều này không phải lỗi ngẫu nhiên. Nguyên lý hoạt động của AI là dự đoán ký tự tiếp theo có khả năng cao nhất dựa trên lời nhắc đã cho, tính xác suất khiến chúng đôi khi hành xử ngoài dự kiến.

Khi khung agent chồng thêm nhiều thông tin vào lời nhắc, mô hình như đang xử lý một môi trường đầu vào phức tạp, nhiễu loạn hơn. OpenClaw cho phép người dùng chọn các “nhân cách” khác nhau cho trợ lý AI, các nhân cách này ảnh hưởng đến phong cách phản hồi của mô hình. Sự kết hợp của nhiều yếu tố khiến thói quen ngôn ngữ của mô hình bắt đầu lệch hướng một cách không lường trước.

Lệnh cấm rõ ràng phía sau là thực tế về vấn đề căn chỉnh

Cách đối phó của OpenAI khá thú vị: không sửa trực tiếp hành vi lệch hướng của mô hình trong môi trường agent, mà viết rõ trong lời nhắc hệ thống “không đề cập goblin”, rồi lặp lại nhiều lần.

Giải pháp này phản ánh một thực tế: ngay cả các mô hình thương mại tiên tiến nhất năm 2026, việc kiểm soát hành vi trong một số tình huống vẫn dựa vào quy tắc cứng trong lời nhắc rõ ràng, chứ không phải khả năng hiểu ngữ cảnh của chính mô hình. Đây không phải vấn đề riêng của OpenAI, mà là thách thức chung của ngành AI agent hiện tại: khi mô hình bị đặt trong khung agent phức tạp, việc căn chỉnh hành vi trở nên khó khăn theo cấp số nhân.

Altman phản hồi bằng meme, sự hài hước là có thật, nhưng vấn đề không biến mất chỉ vì meme. Khi các khung agent AI trở thành sản phẩm chính, khả năng duy trì các quy tắc rõ ràng trong lời nhắc sẽ là một trong những rủi ro kỹ thuật cần phải đối mặt của ngành này trong giai đoạn tiếp theo.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim