Lần đầu tiên trong lịch sử AI tạo ra AI! GPT-5.3 tham gia phát triển chính mình, viễn tưởng trở thành hiện thực

OpenAI đã phát hành GPT-5.3-Codex, mô hình đầu tiên “tham gia vào việc tự tạo” để gỡ lỗi mã của chính nó, quản lý triển khai và chẩn đoán thử nghiệm. Karpathy gọi bản sửa đổi là “gần nhất với cảnh cất cánh AI”.

AI bắt đầu tạo ra những điểm kỳ dị và đột phá về công nghệ trong AI

Tài khoản chính thức của OpenAI được phát hành: GPT-5.3-Codex chính thức ra mắt, đây là “người đầu tiên tham gia tạo mô hình của riêng bạn”. Nó có nghĩa là gì? Nói cách khác, trong quá trình phát triển, AI này đã giúp gỡ lỗi mã đào tạo của chính nó, quản lý quá trình triển khai của riêng nó và chẩn đoán kết quả kiểm tra của chính nó. Theo thuật ngữ của con người, AI đã bắt đầu tạo ra AI.

Andrej Karpathy, cựu nhà nghiên cứu OpenAI và giám đốc AI của Tesla, đã tweet trực tiếp sau khi đọc nó: “Đây là điều gần nhất mà tôi từng thấy với cảnh cất cánh AI trong khoa học viễn tưởng”. Đánh giá này từ các nhà nghiên cứu AI hàng đầu có trọng lượng vì Karpathy đã trải qua một số giai đoạn quan trọng của quá trình phát triển AI và phán đoán của anh ấy dựa trên sự hiểu biết kỹ thuật sâu sắc.

AI lặp lại chính nó, đây không phải là hùng biện tiếp thị. Theo tiết lộ nội bộ của OpenAI, GPT-5.3-Codex đã thực hiện những điều này trong quá trình phát triển: phân tích các bài kiểm tra không gắn cờ nhật ký đào tạo, đề xuất các bản sửa lỗi cho tập lệnh và hồ sơ đào tạo, tạo công thức triển khai, tóm tắt và đánh giá các điểm bất thường để con người xem xét. Điều này có nghĩa là gì? AI không còn chỉ là một công cụ, nó bắt đầu trở thành một phần của nhóm phát triển và nó là loại có thể tự cải thiện.

Khả năng tham gia phát triển này thúc đẩy thông qua định vị AI truyền thống. Trước đây, các mô hình AI được thiết kế, đào tạo và triển khai hoàn toàn bởi con người, còn AI là một sản phẩm thụ động. Giờ đây, GPT-5.3 đã đóng một vai trò tích cực trong sự ra đời của chính nó và trong khi vẫn dưới sự giám sát của con người, sự thay đổi vai trò này có ý nghĩa sâu rộng. Nó gợi ý về một khả năng: các mô hình AI trong tương lai phần lớn có thể được thiết kế và tối ưu hóa bởi chính AI, với con người chỉ cung cấp định hướng và đánh giá cuối cùng.

GPT-5.3 tự tham gia phát triển

Phân tích nhật ký đào tạo: Tự động gắn cờ các bài kiểm tra không thành công để xác định các điểm bất thường trong quá trình đào tạo

Kế hoạch sửa chữa được đề xuất: Đề xuất cải tiến tập lệnh và hồ sơ đào tạo

Tạo công thức triển khai: Tự động hóa quy trình triển khai và giảm thao tác thủ công

Đánh giá bất thường tóm tắt: Sắp xếp các kết quả đánh giá phức tạp thành các báo cáo mà con người dễ hiểu

Một bài báo gần đây của SEAL được xuất bản bởi MIT (arXiv: 2506.10943) mô tả một kiến trúc AI liên tục học hỏi sau khi triển khai, tự phát triển mà không cần đào tạo lại. Đáng chú ý, một số nhà nghiên cứu SEAL hiện đã tham gia OpenAI. Điều này có nghĩa là AI đã thay đổi từ “công cụ tĩnh” sang “hệ thống động”, việc học không còn dừng lại ở việc triển khai và ranh giới suy luận và đào tạo đang tan chảy. GPT-5.3 có thể là ứng dụng thương mại đầu tiên của kiến trúc mới này.

77,3% nghiền nát vụ giết mổ chuẩn của Claude

Vào ngày 5 tháng 2, OpenAI và Anthropic đều phát hành một thế hệ mô hình mới chỉ cách nhau 20 phút. Đầu tiên, Anthropic phát hành Claude Opus 4.6, sau đó OpenAI ra mắt GPT-5.3-Codex. Vì OpenAI muốn sử dụng GPT-5.3-Codex để bắn tỉa các mô hình mới của người khác, nên nó phải có một số khả năng. Dữ liệu không nói dối, GPT-5.3-Codex đã lập kỷ lục mới trong nhiều tiêu chuẩn ngành ngay khi nó được ra mắt.

Terminal-Bench 2.0 kiểm tra khả năng hoạt động của AI trong môi trường thiết bị đầu cuối thực, biên dịch mã, đào tạo mô hình và định cấu hình máy chủ. GPT-5.3-Codex đạt 77.3%, trong khi GPT-5.2-Codex chỉ có 64.0% và Claude Opus 4.6 báo cáo 65.4%. Đây là mức tăng 13 điểm phần trăm giữa các thế hệ, đây đã là một bước nhảy vọt trong lĩnh vực AI. So sánh 77.3% so với 65.4% cho thấy GPT-5.3 thiết lập một lợi thế đáng kể trong các nhiệm vụ kỹ thuật trong thế giới thực.

SWE-Bench Pro là một điểm chuẩn được thiết kế đặc biệt để kiểm tra khả năng kỹ thuật phần mềm trong thế giới thực, bao gồm bốn ngôn ngữ lập trình: Python, JavaScript, Go và Ruby. GPT-5.3-Codex đạt 56.8%, vượt qua 56.4% của người tiền nhiệm GPT-5.2-Codex và tiếp tục duy trì vị trí đầu tiên trong ngành. Quan trọng hơn, OpenAI tiết lộ rằng GPT-5.3-Codex sử dụng số lượng mã thông báo đầu ra nhỏ nhất so với bất kỳ mô hình nào khi đạt được điểm số này, có nghĩa là nó không chỉ chính xác mà còn hiệu quả.

OSWorld-Verified kiểm tra khả năng hoàn thành các tác vụ năng suất của AI trong môi trường máy tính để bàn trực quan, chỉnh sửa bảng tính, tạo bản trình bày, làm việc trên tài liệu, v.v. GPT-5.3-Codex đạt 64.7%, so với mức trung bình của con người là 72%. Điều này có nghĩa là nó đã tiếp cận hiệu suất của những người bình thường trong các tác vụ vận hành máy tính, gần gấp đôi so với người tiền nhiệm. Hiệu suất gần như con người này khiến AI thực sự có khả năng làm việc văn phòng lần đầu tiên, thay vì chỉ là một công cụ phụ trợ.

Claude đếm 100K Token và Nhóm Đại lý

Điều đáng chú ý hơn là Claude Opus 4.6 lần đầu tiên hỗ trợ cửa sổ ngữ cảnh mã thông báo 100K (beta) trong mô hình cấp Opus, có thể xử lý toàn bộ cơ sở mã hoặc hàng trăm trang tài liệu cùng một lúc và ra mắt chức năng Agent Teams, nơi nhiều tác nhân AI có thể cộng tác trên lập trình, thử nghiệm và viết tài liệu cùng một lúc.

Khi OpenAI và Anthropic phát hành các mô hình hàng đầu của họ trong cùng một ngày và cùng một thời điểm, cuộc thi này không còn chỉ là một cuộc thi kỹ thuật, mà là một cuộc chiến về hình dạng tương lai của AI: lộ trình “tự tiến hóa” của OpenAI hay lộ trình “hợp tác nhiều tác nhân” của Anthropic? Chiến lược của OpenAI là làm cho một AI mạnh mẽ hơn và thậm chí cải thiện chính nó. Chiến lược của Anthropic là cho phép nhiều AI cộng tác trong các nhiệm vụ phức tạp thông qua phân công lao động và cộng tác.

Bối cảnh của 100K token là một bước đột phá về công nghệ. Con số này tương đương với khoảng 75 triệu từ tiếng Anh hoặc 300 ký tự tiếng Trung, đủ để phù hợp với toàn bộ mã của một dự án phần mềm cỡ trung bình hoặc một tài liệu kỹ thuật dày. Khả năng này cho phép Claude “nhìn thấy” toàn bộ dự án thay vì một sự hiểu biết rời rạc. Đối với phân tích kiến trúc và tái cấu trúc các dự án quy mô lớn, quan điểm toàn cầu này là rất quan trọng.

Agent Teams mang khái niệm cộng tác vào AI. Một Agent viết code, một Agent khác kiểm tra và một Agent thứ ba viết tài liệu, và họ có thể giao tiếp và phối hợp với nhau. Mô hình này bắt chước cách các nhóm phần mềm của con người hoạt động và có thể phù hợp hơn với một số tình huống nhất định so với một siêu AI duy nhất. Tuy nhiên, cộng tác nhiều tác nhân cũng đưa ra những phức tạp mới: cách phối hợp, cách tránh xung đột và cách đảm bảo tính nhất quán.

Cả hai tuyến đường đều có ưu điểm và nhược điểm riêng. Con đường tự tiến hóa của OpenAI tích cực hơn và nếu thành công, nó có thể dẫn đến những cải thiện theo cấp số nhân về khả năng, nhưng nó cũng có thể vượt khỏi tầm kiểm soát. Lộ trình đa tác nhân của Anthropic thận trọng hơn, giảm thiểu điểm rủi ro đơn lẻ bằng cách lan tỏa khả năng, nhưng chi phí điều phối có thể hạn chế hiệu quả. Khi AI bắt đầu phát triển trong tự nhiên, các câu hỏi về quản trị sẽ chuyển từ “nó thông minh như thế nào” sang “làm thế nào để chúng ta quản lý một hệ thống liên tục thay đổi?” Và khi hai công ty AI hàng đầu phát hành các mô hình đột phá liên tiếp trong vòng 20 phút, cửa sổ thời gian còn lại cho suy nghĩ và chuẩn bị của con người đang thu hẹp với tốc độ có thể nhìn thấy bằng mắt thường.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Cảnh báo Giảm giá TradFi: XAGUSD (Silver) Giảm hơn 6%

Tin tức Gate: Theo dữ liệu Gate TradFi mới nhất, XAGUSD (Silver) đã giảm xuống 6% trong thời gian ngắn. Mức độ biến động hiện tại cao hơn đáng kể so với mức trung bình gần đây, cho thấy hoạt động thị trường đang gia tăng.

GateNews1phút trước

Cảnh báo Tăng giá TradFi: USDZAR (USD/ZAR) Tăng hơn 2%

Tin tức Gate: Theo dữ liệu Gate TradFi mới nhất, USDZAR (USD/ZAR) đã tăng vọt 2% trong thời gian ngắn. Mức độ biến động hiện tại cao hơn đáng kể so với mức trung bình gần đây, cho thấy hoạt động thị trường đang gia tăng.

GateNews1giờ trước

SEC phê duyệt khung công tác chứng chỉ được mã hóa của Nasdaq, cổ phiếu và ETF có thể được phát hành và thanh toán trên blockchain

SEC đã phê duyệt khung của Nasdaq, cho phép giao dịch một số cổ phiếu được tokenize và ETF, được phát hành và thanh toán dưới dạng blockchain. Các nhà đầu tư có thể nắm giữ chứng chỉ được tokenize trong ví kỹ thuật số, với việc thanh toán được xử lý bởi DTCC, một bước đi cho thấy thị trường chứng khoán sẽ hướng tới blockchain hóa.

GateNews2giờ trước

Cảnh báo Tăng giá TradFi: VIX (VIX) Tăng hơn 3%

Tin tức Gate: Theo dữ liệu Gate TradFi mới nhất, VIX (VIX) đã tăng vọt 3% trong thời gian ngắn. Mức độ biến động hiện tại cao hơn đáng kể so với mức trung bình gần đây, cho thấy hoạt động thị trường đang gia tăng.

GateNews3giờ trước

Strategy CEO: Morgan Stanley nếu phân bổ 2% quy mô quản lý tài sản vào BTC, có thể mang lại 160 tỷ đô la khối lượng mua tiềm năng

Giám đốc điều hành Strategy Phong Le chỉ ra rằng nếu khối tài sản 8 nghìn tỷ đô la được quản lý bởi bộ phận quản lý tài sắc của Morgan Stanley phân bổ 2% vào bitcoin, sẽ mang lại áp lực mua khoảng 160 tỷ đô la cho thị trường, có khả năng tác động đáng kể đến giá bitcoin và tính thanh khoản.

GateNews3giờ trước

ETF hiện vật Bitcoin tại Mỹ hút tiền liên tục 7 ngày, vốn tổ chức quay trở lại

Gần đây, dòng vốn của các quỹ ETF hiện spot tiền điện tử của Mỹ đang hồi ấm, đặc biệt là các quỹ ETF Bitcoin và Ethereum ghi nhận dòng vào ròng trong nhiều ngày liên tiếp, cho thấy ý nguyện phân bổ của nhà đầu tư tăng lên. Quỹ ETF Bitcoin ghi nhận dòng vào ròng khoảng 199.4 triệu đô la trong ngày 17, tạo nên kỷ lục dòng vào liên tiếp dài nhất trong năm tháng, với vốn chủ yếu chảy vào các nhà phát hành lớn như BlackRock và Fidelity. Dòng chảy ngược này tương tác lẫn nhau với sự tăng giá của Bitcoin, thị trường phản ánh sở thích phân bổ vốn truyền thống cho các sản phẩm được quản lý, tạo thành hỗ trợ ổn định cho giá hiện spot.

区块客3giờ trước
Bình luận
0/400
Không có bình luận