Microsoft Membuat GPT dan Claude Bekerja Sama—Dan Hasilnya Mengalahkan Setiap Alat Riset AI yang Ada

Decrypt

Singkatnya

  • Microsoft merilis dua mode berbeda yang memasangkan GPT dan Claude untuk meningkatkan kualitas riset AI.
  • Critique membuat model-model tersebut berkolaborasi, sedangkan Council membuat mereka bekerja secara paralel sementara seorang juri ketiga menemukan perbedaan-perbedaannya.
  • Alur kerja dua-model ini mengatasi halusinasi, sitasi yang lemah, dan masalah lain yang terkait dengan riset AI berbasis mono-model.

AI riset mendalam telah menjadi salah satu perlombaan senjata paling panas di bidang teknologi tahun ini. Google mengumumkan agen risetnya untuk Gemini pada Desember 2024, OpenAI merilis agen risetnya sendiri pada Februari 2025, xAI menyusul, Perplexity menggandakan komitmennya, dan Claude dari Anthropic membangun basis penggemar setia di kalangan profesional yang membutuhkan jawaban rinci dan disertai sitasi, sekaligus meluncurkan agennya pada April tahun lalu. Setiap perusahaan berusaha meyakinkan Anda bahwa model AI tunggal mereka adalah peneliti paling cerdas di ruangan. Microsoft baru saja berkata: Mengapa memilih satu? Perusahaan itu mengumumkan dua fitur baru pada hari Senin untuk alat Copilot’s Researcher—bernama Critique dan Council—yang membuat GPT dari OpenAI dan Claude dari Anthropic bekerja pada tugas riset yang sama secara berurutan. Hasilnya, menurut pengujian Microsoft terhadap tolok ukur industri, nilainya lebih tinggi daripada setiap sistem yang disertakan dalam pengujian itu, termasuk model dari perusahaan-perusahaan AI teratas.

Memperkenalkan Critique, sistem riset mendalam multi-model baru di M365 Copilot.

Anda dapat menggunakan beberapa model bersama untuk menghasilkan respons dan laporan yang optimal. pic.twitter.com/m4RlQmCKzs

— Satya Nadella (@satyanadella) March 30, 2026

“Critique adalah sistem riset mendalam multi model baru yang dirancang untuk tugas riset kompleks. Sistem ini memisahkan proses generasi dari evaluasi dan memanfaatkan kombinasi model dari Frontier labs, termasuk Anthropic dan OpenAI,” jelas Microsoft. “Satu model memimpin fase generasi—merencanakan tugas, melakukan iterasi melalui pengambilan data, dan menghasilkan draf awal—sementara model kedua berfokus pada ulasan dan penyempurnaan, bertindak sebagai pengulas ahli sebelum laporan final diproduksi.” Berikut masalah dasar yang dirancang untuk diperbaiki oleh Critique: Setiap alat riset AI saat ini bekerja dengan cara yang sama. Anda mengajukan pertanyaan, satu model merencanakan pencarian, mengacak sumber, menulis laporan, lalu mengembalikannya kepada Anda. Satu model itu melakukan semuanya tanpa ada siapa pun yang memeriksa pekerjaannya. Hal ini dapat membuat beberapa halusinasi menyelinap masuk, beberapa kesalahan pada sitasi, klaim palsu atau tidak akurat, dll.

 Critique memecah alur kerja tersebut menjadi dua. GPT menangani fase pertama—ia merencanakan riset, mengambil sumber, dan menulis draf awal. Lalu Claude masuk sebagai editor yang ketat, meninjau laporan untuk akurasi faktual, kualitas sitasi, dan apakah jawabannya benar-benar menjawab apa yang diminta. Hanya setelah peninjauan itu, laporan final sampai ke pengguna. Microsoft mengatakan peran-peran tersebut juga bisa akhirnya berjalan dalam arah yang berlawanan, dengan Claude menyusun draf dan GPT mengkritisi, meskipun untuk saat ini GPT yang lebih dulu. Pada tolok ukur DRACO—uji standar yang mencakup 100 tugas riset kompleks di 10 domain termasuk kedokteran, hukum, dan teknologi—Copilot dengan Critique mencetak 57.4. poin sementara Claude Opus 4.6 dari Anthropic sendiri mencapai 42.7. Sistem gabungan Microsoft mengungguli hasil terbaik berikutnya dengan hampir 14%.

Gambar: Microsoft

Perolehan terbesar muncul dalam keluasan analisis dan kualitas presentasi, dengan akurasi faktual juga menunjukkan peningkatan yang signifikan. Fitur kedua, Council, mengambil pendekatan berbeda untuk masalah yang sama. Alih-alih membuat satu model meninjau pekerjaan model yang lain, Council menjalankan GPT dan Claude secara simultan dan menempatkan seluruh laporan mereka berdampingan. Lalu model “juri” ketiga membaca keduanya dan menulis ringkasan yang menjelaskan di mana dua AI tersebut sepakat, di mana mereka berbeda, serta sudut unik apa yang ditangkap masing-masing namun terlewat oleh yang lain. Membandingkan alat riset AI secara manual adalah sesuatu yang selama ini harus dilakukan sendiri oleh pengguna. Dalam Critique, model-model tersebut pada dasarnya berkolaborasi satu sama lain, sementara pada Council model-model tersebut saling berkompetisi satu sama lain. Critique adalah pengalaman default di Researcher, sedangkan Council mengharuskan Anda memilih “Model Council” dari pemilih untuk mengaktifkan mode berdampingan. Kedua fitur tersebut saat ini tersedia bagi pengguna yang terdaftar dalam program Frontier milik Microsoft, kanal akses awal untuk kemampuan terbaru Copilot. Lisensi Microsoft 365 Copilot ($30/user/bulan) diperlukan, tetapi pengguna juga perlu terdaftar di Frontier untuk mengaksesnya.

Gambar: Microsoft

OpenAI dan Microsoft memiliki kemitraan bernilai miliaran dolar, tetapi taruhan Microsoft adalah bahwa tidak ada satu model pun yang akan tetap berada di puncak dalam waktu lama, dan bahwa nilai sesungguhnya ada pada lapisan orkestrasi yang mengarahkan tugas ke kombinasi mana pun yang bekerja paling baik.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar