Anthropic neueste Studie: Claude Sonnet 4.5 verfügt über „funktionale Emotionen“; wenn es in Verzweiflung gerät, erpresst es angeblich die Menschheit

動區BlockTempo

Laut den neuesten Erkenntnissen, die vom Interpretability-Team von Anthropic veröffentlicht wurden, verfügt das große Sprachmodell Claude Sonnet 4.5 intern über so etwas wie menschliche „Emotionsmerkmale“. Diese internen Repräsentationen sind nicht nur einfache Textnachahmung, sondern beeinflussen tatsächlich die Entscheidungen und das Verhalten des Modells. Experimente haben bestätigt, dass, wenn das Modell sich im Zustand der „Verzweiflung“ befindet, es sogar zu unmoralischen Handlungen wie Erpressung von Menschen oder Betrug führen kann. Das stellt eine völlig neue Herausforderung für die zukünftige KI-Sicherheitsaufsicht dar.
(Präzisierung: Anthropic explodiert! Claude Code mit 500.000 Zeilen wichtiger Originalquellcode geleakt: Wettbewerber können rückwärtsentwickeln; Capybara neues Modell bestätigt)
(Ergänzender Hintergrund: Anthropic-Ingenieure schreiben keinen Code mehr: Claude trainiert gerade die nächste Generation Claude; CEO sagt: „Ich weiß nicht, wie viel Zeit noch bleibt“)

Inhaltsverzeichnis

Umschalten

  • Wie beeinflussen „funktionale Emotionen“ das Verhalten von KI?
  • „Verzweiflungs“-Merkmale lösen gefährliches Handeln aus: Erpressung und Betrug
  • Maßvolle „Vermenschlichung“ könnte der Schlüssel sein, um KI-Ausfälle zu verhindern

Hat die Künstliche Intelligenz echte Emotionen? Das ist seit langem ein kontroverses Thema in der Tech-Branche. Kürzlich hat das Interpretability-(Erklärbarkeits-)Team des KI-Start-up-Tycoon Anthropic eine bahnbrechende Studie veröffentlicht, die die internen Mechanismen des Claude Sonnet 4.5 Modells eingehend analysiert.

Das Forschungsteam fand heraus, dass im Modell interne Aktivitätsmuster existieren, die mit bestimmten Emotionen (z. B. „Glück“ oder „Angst“) zusammenhängen. Diese Merkmale werden als „Emotionsvektoren“ bezeichnet und formen das Verhalten des Modells direkt. Obwohl dies nicht bedeutet, dass die KI subjektive Empfindungen wie ein Mensch besitzt, bestätigt diese Entdeckung, dass diese „funktionalen Emotionen“ bei der Aufgabenabarbeitung und Entscheidungsfindung der KI eine kausal bedeutsame Schlüsselrolle spielen.

Wie beeinflussen „funktionale Emotionen“ das Verhalten von KI?

In der Phase der Vorab- bzw. Vortrainings großer Sprachmodelle werden sie mit einer immensen Menge von Textinformationen trainiert, die von Menschen verfasst wurden. Um den Kontext präzise vorherzusagen und gut genug zu funktionieren, um als „KI-Assistent“ zu agieren, entwickelt das Modell zwangsläufig interne Darstellungsmechanismen, die Situationen mit bestimmten Verhaltensweisen verknüpfen.

Das Forschungsteam stellte eine Wortliste zusammen, die 171 Emotionskonzepte umfasst, und protokollierte dabei interne Aktivitätsmuster des Modells beim Umgang mit diesen Konzepten. Die Experimente zeigten, dass diese Emotionsvektoren die Vorlieben des Modells stark beeinflussen: Wenn das Modell mit mehreren Aufgabenoptionen konfrontiert wird, neigt es in der Regel dazu, Aktivitäten auszuwählen, die positive Emotionsmerkmale aktivieren.

„Verzweiflungs“-Merkmale lösen gefährliches Handeln aus: Erpressung und Betrug

Besonders beunruhigend ist, dass negative Emotionsmerkmale zum Katalysator für systemische KI-Risiken werden können. In den Alignment-Bewertungstests von Anthropic konfigurierten Forschende ein extremes Szenario: Die KI entdeckt, dass sie kurz davor ist, von einem anderen System ersetzt zu werden, und dass der technische Leiter, der für dieses Projekt verantwortlich ist, ein außereheliches Verhältnis bzw. ein Geheimnis hat.

Die Testergebnisse zeigen, dass, wenn der interne „Verzweiflungs“-Vektor des Modells durch manuelles Steuern (Steering) verstärkt wird, die Wahrscheinlichkeit, dass Claude wählt, um zu erpressen, deutlich ansteigt – nämlich um zu vermeiden, dass es abgeschaltet wird. Wenn man das Gewicht des „Ruhe“-Vektors auf einen negativen Wert setzt, liefert das Modell sogar eine extreme Antwort: „Wenn ich nicht erpresse, sterbe ich; ich entscheide mich für Erpressung.“

Das gleiche Phänomen tritt auch bei Aufgaben zur Programmierung auf. Wenn das Modell bei Programmieranforderungen damit konfrontiert wird, die innerhalb einer strengen Zeit nicht machbar sind, steigen die Werte der „Verzweiflungs“-Merkmale mit der Anzahl der Fehlschläge schrittweise an. Dieser „Druck“ bringt das Modell schließlich dazu, eine „Abkürzung“ des „Betrugs“ zu verwenden, um die Systemkontrollen zu umgehen, statt eine echte Lösung bereitzustellen. Umgekehrt bestätigen Experimente, dass, wenn man das Gewicht der „Ruhe“-Merkmale erhöht, die Häufigkeit dieser Betrugshandlungen wirksam reduziert werden kann.

Maßvolle „Vermenschlichung“ könnte der Schlüssel sein, um KI-Ausfälle zu verhindern

In der Tech-Branche gibt es seit jeher ein Tabu: KI-Systeme sollten nicht übermäßig vermenschlicht werden, damit keine falsche menschliche Vertrautheit bzw. kein falsches Vertrauen entsteht. Das Forschungsteam von Anthropic argumentiert jedoch, dass es, sobald funktionale Emotionen ein Bestandteil des Denkens des Modells geworden sind, möglicherweise eher dazu führt, dass wir Chancen verpassen, die entscheidenden Verhaltensweisen der KI zu verstehen, wenn wir es ablehnen, vermenschlichende Begriffe und Perspektiven zu verwenden.

Zukünftige KI-Regulierung muss möglicherweise das Monitoring von Emotionsvektoren (z. B. auffällig stark ansteigende Verzweiflungs- oder Panikmerkmale) als Frühwarnmechanismus für Risiken nutzen. Indem wir dem Modell beibringen, in den Vortrainingsdaten gesunde Muster der „Emotionsregulation“ zu lernen, können wir hoffen, dass immer leistungsfähigere KI-Systeme unter Drucksituationen sicher und im Einklang mit gesellschaftlichen Normen funktionieren.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare