OpenAI dan Anthropic mengungkapkan model AI flagship baru dalam lini produk mereka masing-masing dalam waktu kurang dari satu jam pada hari Kamis, menyoroti meningkatnya kompetisi di antara pengembang terkemuka untuk mendominasi perangkat lunak perusahaan dan alat pengkodean canggih. Anthropic mengumumkan Claude Opus 4.6, yang menonjolkan peningkatan dalam penalaran konteks panjang dan alur kerja berbasis agen, sementara OpenAI tidak lama kemudian merilis GPT-5.3 Codex, sebuah model yang dioptimalkan untuk pengkodean agenik dan pengembangan perangkat lunak. Peluncuran yang hampir bersamaan ini menegaskan seberapa cepat para pesaing melakukan iterasi saat perusahaan berlomba mendapatkan kontrak jangka panjang dengan pelanggan korporat besar.
Hasil benchmark menunjukkan bahwa kedua model dioptimalkan untuk kekuatan yang berbeda. Claude Opus 4.6 menunjukkan performa yang lebih kuat pada tugas yang terkait dengan penalaran hukum dan keuangan, sementara GPT-5.3 Codex mengungguli dalam pengujian pengkodean agenik dan metrik efisiensi, menurut angka yang dirilis oleh kedua perusahaan. Rilis ini datang saat para investor menilai kembali prospek penyedia perangkat lunak tradisional, dengan saham beberapa perusahaan informasi dan layanan profesional turun minggu ini di tengah kekhawatiran bahwa platform berbasis AI dapat mengikis permintaan untuk alat perusahaan yang sudah mapan. Anthropic mengatakan bahwa Claude Opus 4.6 memberikan peningkatan dalam penalaran konteks panjang dan tugas profesional, dengan menyebutkan jendela konteks 1 juta token dan skor 76% pada MRCR v2, sebuah tolok ukur untuk pengambilan informasi yang kompleks.
Perusahaan mengatakan model ini juga mengungguli versi sebelumnya dalam tugas keuangan dan hukum serta memperkenalkan “tim agen” yang memungkinkan beberapa agen AI bekerja secara paralel dalam pengkodean dan dokumentasi. OpenAI merilis GPT-5.3 Codex tidak lama kemudian, menempatkannya sebagai model yang dioptimalkan untuk pengkodean dan penelitian berbasis agen. OpenAI mengatakan Codex mendapatkan skor 77,3% pada Terminal-Bench 2.0, sebuah tolok ukur pengkodean agenik di mana Claude Opus 4.6 mencetak 65,4%, dan menyelesaikan tugas lebih cepat sambil menggunakan token yang lebih sedikit. OpenAI juga mengatakan bahwa versi awal Codex digunakan secara internal untuk membantu debugging pelatihan dan mengelola deployment, menandai salah satu kali pertama sebuah model memainkan peran langsung dalam mempercepat pengembangannya sendiri. Secara keseluruhan, hasil ini menunjukkan bahwa tidak ada model yang memegang keunggulan jelas secara keseluruhan, dengan keunggulan performa tergantung pada apakah perusahaan memprioritaskan penalaran profesional atau pengembangan perangkat lunak otonom. Google juga diperkirakan akan meluncurkan pembaruan untuk model Gemini-nya dalam beberapa bulan mendatang, sementara pengembang AI lain, termasuk DeepSeek, sedang mempersiapkan rilis baru, menambah kecepatan kompetisi di sektor ini. Namun, hasil benchmark saja kecil kemungkinannya untuk menentukan kepemimpinan pasar, karena adopsi yang lebih luas dan penerapan perusahaan semakin membentuk lanskap kompetitif. Seiring kompetisi terus menekan para pesaing, waktu akan membuktikan apakah alur kerja berbasis agen menjadi komponen inti dari aktivitas ekonomi. OpenAI dan Anthropic tentu saja mengandalkan hal itu.