Elon Musk memuji: Sangat mengesankan! Apa rahasia di balik senjata utama model AI China, Kimi?

ChainNewsAbmedia

Model AI baru dari China, Moonshot AI, baru-baru ini merilis sebuah laporan teknis yang memperkenalkan arsitektur baru bernama “Attention Residuals”, yang berusaha mengubah desain residual yang telah lama digunakan dalam Transformer. Tidak lama setelah laporan tersebut dirilis, Elon Musk juga menyatakan di media sosial bahwa “Kerja yang mengesankan dari Kimi (Kimi’s work is impressive)”, sehingga teknologi ini segera mendapatkan perhatian luas.

Model AI dari China, Kimi, memperluas attention ke antar model

Fokus utama Kimi kali ini sebenarnya adalah pada mekanisme inti dalam Transformer yang jarang dipikirkan ulang: Residual Connection. Sejak ResNet, sebagian besar model hanya menambahkan output setiap lapisan secara langsung kembali ke inputnya, dan bobotnya sama. Pendekatan ini sederhana dan stabil, tetapi ketika model menjadi sangat dalam, masalah mulai muncul: informasi yang terkumpul di awal akan semakin banyak, dan sinyal baru malah sulit berfungsi secara efektif, bahkan bisa tertelan, sehingga pelatihan model menjadi lebih sulit.

Pendekatan Kimi adalah memperluas mekanisme attention dari yang awalnya digunakan untuk “antar token”, menjadi “antar lapisan model”. Dalam Attention Residuals, setiap lapisan tidak lagi secara rata menerima semua informasi dari lapisan sebelumnya, melainkan melalui attention untuk “memilih” lapisan mana yang lebih penting. Dengan kata lain, model tidak lagi hanya terus menambah, tetapi secara aktif memilih informasi yang berguna berdasarkan input saat ini.

Kimi berhasil meningkatkan efisiensi sebesar 1,25 kali tanpa menambah latensi inferensi

Namun, jika setiap lapisan harus melihat semua lapisan sejarah, biayanya akan terlalu tinggi. Oleh karena itu, Kimi mengusulkan solusi kompromi yang disebut Block Attention Residuals: pertama-tama membagi model menjadi beberapa blok, di mana dalam masing-masing blok tetap mempertahankan metode penjumlahan seperti sebelumnya, tetapi antar blok digunakan attention untuk memilih. Dengan cara ini, kemampuan untuk “memilih” informasi tetap terjaga, sekaligus secara signifikan mengurangi beban memori dan komputasi, dan secara praktis dapat langsung diterapkan pada model yang sudah ada.

Dari hasilnya, Kimi pada sebuah model besar hampir tidak menambah latensi inferensi (kurang dari 2%), tetapi mampu meningkatkan efisiensi sekitar 1,25 kali, dan menunjukkan peningkatan pada berbagai metrik pengujian. Ini menunjukkan bahwa pendekatan ini tidak hanya bagus secara teori, tetapi juga memiliki nilai praktis. Sebelumnya, attention menyelesaikan masalah “hubungan antar kata”, tetapi Kimi lebih jauh lagi, membuat model mulai memikirkan “informasi mana yang harus digunakan antar lapisan”.

Singkatnya, model tidak hanya membaca data, tetapi juga mulai belajar bagaimana meninjau kembali dan mencari informasi yang telah dihitung sebelumnya.

Artikel ini mendapatkan pujian dari Musk: “Mengagumkan!” Apa rahasia dari model AI Kimi dari China? Artikel ini pertama kali muncul di Chain News ABMedia.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar