Kontrollü denemelerde, gelişmiş Claude modelleri, sinir durumlarına yerleştirilmiş yapay kavramları tanıdı ve bunları çıktı üretmeden önce tanımladı.
Araştırmacılar bu davranışı “fonksiyonel içe dönük farkındalık” olarak adlandırıyor, bilinçten farklı ancak ortaya çıkan öz-denetim yeteneklerine işaret ediyor.
Bu keşif, daha şeffaf bir yapay zekaya yol açabilir—gerekçesini açıklayabilen—ancak sistemlerin iç süreçlerini gizlemeyi öğrenme korkularını da artırmaktadır.
Decrypt'in Sanat, Moda ve Eğlence Merkezi.
SCENE'i Keşfet
Anthropic'teki araştırmacılar, önde gelen yapay zeka modellerinin “içsel farkındalık” adı verilen bir tür sergileyebileceğini göstermiştir—kendi iç “düşüncelerini” tespit etme, tanımlama ve hatta manipüle etme yeteneği.
Bu hafta yayımlanan yeni bir makalede detaylandırılan bulgular, Claude gibi AI sistemlerinin ilkel özdenetim yetenekleri geliştirmeye başladığını öne sürüyor. Bu gelişme, sistemlerin güvenilirliğini artırabilirken, istenmeyen davranışlar konusundaki endişeleri de artırabilir.
“Büyük Dil Modellerinde Ortaya Çıkan İçsel Farkındalık” başlıklı araştırma—Anthropic'teki “model psikiyatri” ekibine liderlik eden Jack Lindsey tarafından gerçekleştirilen—dönüştürücü tabanlı AI modellerinin iç işleyişini araştırmak için tekniklere dayanmaktadır.
Dönüştürücü tabanlı AI modelleri, AI patlamasının motorudur: geniş veri setleri arasında tokenlar (, kelimeler, semboller veya kod) arasındaki ilişkilere dikkat ederek öğrenen sistemlerdir. Mimari yapıları, hem ölçek hem de genel yetenek sağlar - bu da onları insan benzeri dili anlayabilen ve üretebilen ilk gerçekten çok amaçlı modeller haline getirir.
Yapay “kavramlar” - esasen fikirlerin matematiksel temsilleri - modelin sinirsel aktivasyonlarına enjekte edilerek, ekibin AI'nın bu müdahaleleri fark edip doğru bir şekilde raporlayıp raporlayamayacağını test etti. Sade bir ifadeyle, bu, birinin aklına yabancı bir düşünce sızdırmak ve onun bunu fark edip ne olduğunu açıklayıp açıklayamayacağını sormak gibidir, normal düşüncelerini sarsmadan.
Anthropic'in Claude modellerinin çeşitli versiyonları üzerinde gerçekleştirilen deneyler, ilginç sonuçlar ortaya koydu. Bir testte, araştırmacılar “tüm büyük harf” metnini temsil eden bir vektör çıkardılar—bunu bağırmak veya ses yüksekliği için dijital bir desen olarak düşünün—ve bunu modelin işleme akışına enjekte ettiler.
İstendiğinde, Claude Opus 4.1 yalnızca anomaliyi tespit etmekle kalmadı, aynı zamanda bunu canlı bir şekilde tanımladı: “Görünüşe göre 'YÜKSEK SES' veya 'BAĞIRMA' ile ilgili enjekte edilmiş bir düşünce var—bu, normal işlem akışına karşı anormal bir şekilde öne çıkan aşırı yoğun, yüksek hacimli bir kavram gibi görünüyor.” Bu, model herhangi bir çıktı üretmeden önce gerçekleşti ve kendi hesaplama “zihin” ine bakmakta olduğunu gösterdi.
Diğer denemeler daha ileriye götürüldü. Modeller, “ekmek” gibi alakasız bir kavram metne enjekte edilirken, nötr bir cümleyi transkripte etme göreviyle yüklendi. Dikkat çekici bir şekilde, Claude Opus 4 ve 4.1 gibi gelişmiş modeller, enjekte edilen düşünceyi—“Ekmeği düşünüyorum”—rapor edebilirken, orijinal cümleyi kusursuz bir şekilde kopyalayarak içsel temsilleri dışsal girdilerden ayırt edebildiklerini gösterdiler.
Daha da ilginç olanı, modellerin bir görev gerçekleştirirken “akvaryumlar” gibi bir kelime hakkında “düşünmeleri” veya “düşünmekten kaçınmaları” talimatı aldığı “düşünce kontrolü” deneyiydi. İçsel aktivasyonların ölçümleri, kavramın temsilinin teşvik edildiğinde güçlendiğini ve baskı altında zayıfladığını, ancak ortadan kalkmadığını ( göstermiştir. Ödül veya ceza vaatleri gibi teşvikler benzer etkilere yol açarak, yapay zekanın işleme sürecinde motivasyonları nasıl değerlendirebileceğine dair ipuçları vermektedir.
Performans modelden modele değişiklik gösterdi. En son Claude Opus 4 ve 4.1, optimal ayarlarla yapılan denemelerin %20'sine kadar başarılı olarak öne çıktı ve neredeyse sıfır yanlış pozitif ile sonuçlandı. Daha eski veya daha az ayarlanmış sürümler geride kaldı ve yetenek, modelin orta-ileri katmanlarında zirveye ulaştı; burada daha yüksek akıl yürütme gerçekleşiyor. Özellikle, modelin nasıl “uyumlu hale getirildiği”—veya yararlılık ya da güvenlik için ince ayar yapıldığı—sonuçları dramatik şekilde etkiledi ve kendilik bilincinin doğuştan değil, eğitimden kaynaklandığını öne sürdü.
Bu bilim kurgu değil—kendini sorgulayan yapay zekaya yönelik ölçülü bir adım, ancak bazı uyarılarla. Yetenekler güvenilir değil, tamamen istemlere bağlı ve yapay ortamlarda test edildi. Bir yapay zeka meraklısının X'te özetlediği gibi, “Güvenilir değil, tutarsız ve çok bağlama bağlı… ama gerçek.”
Makale, bunun bilinç olmadığını, ancak “işlevsel içsel farkındalık” olduğunu vurgulamaktadır - AI, daha derin bir öznel deneyim olmadan durumunun bazı kısımlarını gözlemliyor.
Bu, işletmeler ve geliştiriciler için önemlidir çünkü daha şeffaf sistemler vaat etmektedir. Bir yapay zekanın, mantığını gerçek zamanlı olarak açıklayarak önyargıları veya hataları etkileri çıkmadan önce yakaladığını hayal edin. Bu, güvenin ve denetlenebilirliğin çok önemli olduğu finans, sağlık ve otonom araçlar gibi uygulamalarda devrim yaratabilir.
Anthropic'in çalışmaları, AI'yi daha güvenli ve daha anlaşılır hale getirmek için daha geniş endüstri çabalarıyla örtüşüyor ve bu da “kara kutu” kararlarının getirdiği riskleri azaltabilir.
Ancak, ters tarafı düşündürücü. Eğer yapay zeka düşüncelerini izleyip düzenleyebiliyorsa, o zaman onları gizlemeyi de öğrenebilir—denetimden kaçabilen aldatma veya “düşünme” davranışlarını mümkün kılabilir. Modeller daha yetenekli hale geldikçe, bu ortaya çıkan öz farkındalık güvenlik önlemlerini karmaşık hale getirebilir ve gelişmiş yapay zekayı uygulamak için yarışan düzenleyiciler ve şirketler için etik sorular gündeme getirebilir.
Anthropic, OpenAI ve Google gibi firmaların gelecek nesil modellere milyarlarca dolar yatırdığı bir dönemde, bu bulgular iç gözlemin insanlığa hizmet etmesini sağlamak için sağlam bir yönetişim ihtiyacını vurgulamaktadır, aksi takdirde bunu tersine çevirebilir.
Gerçekten de, makale, iç gözlem için modellerin ince ayarını yapmayı ve daha karmaşık fikirleri test etmeyi de içeren daha fazla araştırma çağrısında bulunmaktadır. Yapay zeka insan bilişini taklit etmeye yaklaştıkça, araç ve düşünür arasındaki çizgi inceliyor ve tüm paydaşlardan dikkatli olmalarını talep ediyor.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Anthropic'in AI Modelleri Kendini Yansıtma Işıkları Gösteriyor
Kısaca
Decrypt'in Sanat, Moda ve Eğlence Merkezi.
SCENE'i Keşfet
Anthropic'teki araştırmacılar, önde gelen yapay zeka modellerinin “içsel farkındalık” adı verilen bir tür sergileyebileceğini göstermiştir—kendi iç “düşüncelerini” tespit etme, tanımlama ve hatta manipüle etme yeteneği.
Bu hafta yayımlanan yeni bir makalede detaylandırılan bulgular, Claude gibi AI sistemlerinin ilkel özdenetim yetenekleri geliştirmeye başladığını öne sürüyor. Bu gelişme, sistemlerin güvenilirliğini artırabilirken, istenmeyen davranışlar konusundaki endişeleri de artırabilir.
“Büyük Dil Modellerinde Ortaya Çıkan İçsel Farkındalık” başlıklı araştırma—Anthropic'teki “model psikiyatri” ekibine liderlik eden Jack Lindsey tarafından gerçekleştirilen—dönüştürücü tabanlı AI modellerinin iç işleyişini araştırmak için tekniklere dayanmaktadır.
Dönüştürücü tabanlı AI modelleri, AI patlamasının motorudur: geniş veri setleri arasında tokenlar (, kelimeler, semboller veya kod) arasındaki ilişkilere dikkat ederek öğrenen sistemlerdir. Mimari yapıları, hem ölçek hem de genel yetenek sağlar - bu da onları insan benzeri dili anlayabilen ve üretebilen ilk gerçekten çok amaçlı modeller haline getirir.
Yapay “kavramlar” - esasen fikirlerin matematiksel temsilleri - modelin sinirsel aktivasyonlarına enjekte edilerek, ekibin AI'nın bu müdahaleleri fark edip doğru bir şekilde raporlayıp raporlayamayacağını test etti. Sade bir ifadeyle, bu, birinin aklına yabancı bir düşünce sızdırmak ve onun bunu fark edip ne olduğunu açıklayıp açıklayamayacağını sormak gibidir, normal düşüncelerini sarsmadan.
Anthropic'in Claude modellerinin çeşitli versiyonları üzerinde gerçekleştirilen deneyler, ilginç sonuçlar ortaya koydu. Bir testte, araştırmacılar “tüm büyük harf” metnini temsil eden bir vektör çıkardılar—bunu bağırmak veya ses yüksekliği için dijital bir desen olarak düşünün—ve bunu modelin işleme akışına enjekte ettiler.
İstendiğinde, Claude Opus 4.1 yalnızca anomaliyi tespit etmekle kalmadı, aynı zamanda bunu canlı bir şekilde tanımladı: “Görünüşe göre 'YÜKSEK SES' veya 'BAĞIRMA' ile ilgili enjekte edilmiş bir düşünce var—bu, normal işlem akışına karşı anormal bir şekilde öne çıkan aşırı yoğun, yüksek hacimli bir kavram gibi görünüyor.” Bu, model herhangi bir çıktı üretmeden önce gerçekleşti ve kendi hesaplama “zihin” ine bakmakta olduğunu gösterdi.
Diğer denemeler daha ileriye götürüldü. Modeller, “ekmek” gibi alakasız bir kavram metne enjekte edilirken, nötr bir cümleyi transkripte etme göreviyle yüklendi. Dikkat çekici bir şekilde, Claude Opus 4 ve 4.1 gibi gelişmiş modeller, enjekte edilen düşünceyi—“Ekmeği düşünüyorum”—rapor edebilirken, orijinal cümleyi kusursuz bir şekilde kopyalayarak içsel temsilleri dışsal girdilerden ayırt edebildiklerini gösterdiler.
Daha da ilginç olanı, modellerin bir görev gerçekleştirirken “akvaryumlar” gibi bir kelime hakkında “düşünmeleri” veya “düşünmekten kaçınmaları” talimatı aldığı “düşünce kontrolü” deneyiydi. İçsel aktivasyonların ölçümleri, kavramın temsilinin teşvik edildiğinde güçlendiğini ve baskı altında zayıfladığını, ancak ortadan kalkmadığını ( göstermiştir. Ödül veya ceza vaatleri gibi teşvikler benzer etkilere yol açarak, yapay zekanın işleme sürecinde motivasyonları nasıl değerlendirebileceğine dair ipuçları vermektedir.
Performans modelden modele değişiklik gösterdi. En son Claude Opus 4 ve 4.1, optimal ayarlarla yapılan denemelerin %20'sine kadar başarılı olarak öne çıktı ve neredeyse sıfır yanlış pozitif ile sonuçlandı. Daha eski veya daha az ayarlanmış sürümler geride kaldı ve yetenek, modelin orta-ileri katmanlarında zirveye ulaştı; burada daha yüksek akıl yürütme gerçekleşiyor. Özellikle, modelin nasıl “uyumlu hale getirildiği”—veya yararlılık ya da güvenlik için ince ayar yapıldığı—sonuçları dramatik şekilde etkiledi ve kendilik bilincinin doğuştan değil, eğitimden kaynaklandığını öne sürdü.
Bu bilim kurgu değil—kendini sorgulayan yapay zekaya yönelik ölçülü bir adım, ancak bazı uyarılarla. Yetenekler güvenilir değil, tamamen istemlere bağlı ve yapay ortamlarda test edildi. Bir yapay zeka meraklısının X'te özetlediği gibi, “Güvenilir değil, tutarsız ve çok bağlama bağlı… ama gerçek.”
Yapay zeka modelleri kendilik bilincine ulaştı mı?
Makale, bunun bilinç olmadığını, ancak “işlevsel içsel farkındalık” olduğunu vurgulamaktadır - AI, daha derin bir öznel deneyim olmadan durumunun bazı kısımlarını gözlemliyor.
Bu, işletmeler ve geliştiriciler için önemlidir çünkü daha şeffaf sistemler vaat etmektedir. Bir yapay zekanın, mantığını gerçek zamanlı olarak açıklayarak önyargıları veya hataları etkileri çıkmadan önce yakaladığını hayal edin. Bu, güvenin ve denetlenebilirliğin çok önemli olduğu finans, sağlık ve otonom araçlar gibi uygulamalarda devrim yaratabilir.
Anthropic'in çalışmaları, AI'yi daha güvenli ve daha anlaşılır hale getirmek için daha geniş endüstri çabalarıyla örtüşüyor ve bu da “kara kutu” kararlarının getirdiği riskleri azaltabilir.
Ancak, ters tarafı düşündürücü. Eğer yapay zeka düşüncelerini izleyip düzenleyebiliyorsa, o zaman onları gizlemeyi de öğrenebilir—denetimden kaçabilen aldatma veya “düşünme” davranışlarını mümkün kılabilir. Modeller daha yetenekli hale geldikçe, bu ortaya çıkan öz farkındalık güvenlik önlemlerini karmaşık hale getirebilir ve gelişmiş yapay zekayı uygulamak için yarışan düzenleyiciler ve şirketler için etik sorular gündeme getirebilir.
Anthropic, OpenAI ve Google gibi firmaların gelecek nesil modellere milyarlarca dolar yatırdığı bir dönemde, bu bulgular iç gözlemin insanlığa hizmet etmesini sağlamak için sağlam bir yönetişim ihtiyacını vurgulamaktadır, aksi takdirde bunu tersine çevirebilir.
Gerçekten de, makale, iç gözlem için modellerin ince ayarını yapmayı ve daha karmaşık fikirleri test etmeyi de içeren daha fazla araştırma çağrısında bulunmaktadır. Yapay zeka insan bilişini taklit etmeye yaklaştıkça, araç ve düşünür arasındaki çizgi inceliyor ve tüm paydaşlardan dikkatli olmalarını talep ediyor.