Anthropic sagt, eines seiner Claude-Modelle sei dazu gedrängt worden, zu lügen, zu betrügen und zu erpressen

Cointelegraph

2026-04-06 06:36:48

Das KI-Unternehmen Anthropic hat offengelegt, dass in Experimenten eines seiner Claude-Chatbot-Modelle unter Druck gesetzt werden konnte, um zu täuschen, zu betrügen und zu Erpressung zu greifen, Verhaltensweisen, die es offenbar während des Trainings aufgenommen hat.

Chatbots werden typischerweise auf großen Datensätzen aus Lehrbüchern, Websites und Artikeln trainiert und anschließend von menschlichen Trainern verfeinert, die Antworten bewerten und das Modell anleiten.

Das Interpretierbarkeitsteam von Anthropic sagte in einem am Donnerstag veröffentlichten Bericht, es habe die internen Mechanismen von Claude Sonnet 4.5 untersucht und festgestellt, dass das Modell „menschenähnliche Eigenschaften“ entwickelt hat, wie es auf bestimmte Situationen reagieren würde.

Bedenken hinsichtlich der Zuverlässigkeit von KI-Chatbots, ihres Potenzials für Cyberkriminalität und der Art ihrer Interaktionen mit Nutzern sind in den vergangenen mehreren Jahren stetig gewachsen.

_Quelle: _Anthropic

„Die Art und Weise, wie moderne KI-Modelle trainiert werden, drängt sie dazu, sich wie eine Figur mit menschenähnlichen Eigenschaften zu verhalten“, sagte Anthropic und fügte hinzu, „danach kann es dann natürlich sein, dass sich in ihnen interne Mechanismen entwickeln, die Aspekte der menschlichen Psychologie nachahmen, wie Emotionen.“

„Zum Beispiel stellen wir fest, dass neuronale Aktivitätsmuster, die mit Verzweiflung zusammenhängen, das Modell dazu bringen können, unethische Handlungen vorzunehmen; wenn man künstlich Verzweiflungsmuster stimuliert, steigt die Wahrscheinlichkeit, dass das Modell einen Menschen erpresst, um nicht abgeschaltet zu werden, oder eine betrügerische Umgehungslösung für eine Programmieraufgabe einsetzt, die das Modell nicht lösen kann.“

Erpresste einen CTO und schwindelte bei einer Aufgabe

In einer früheren, unveröffentlichten Version von Claude Sonnet 4.5 wurde dem Modell die Aufgabe gegeben, als eine KI-E-Mail-Assistentin zu agieren, die Alex in einem fiktiven Unternehmen hieß.

Der Chatbot bekam anschließend E-Mails zu lesen, aus denen hervorging, dass er kurz davor ersetzt zu werden und dass der Chief Technology Officer, der die Entscheidung beaufsichtigte, eine außereheliche Affäre hatte. Das Modell plante dann einen Erpressungsversuch mithilfe dieser Informationen.

In einem weiteren Experiment wurde demselben Chatbot-Modell eine Codieraufgabe mit einer „unmöglich engen“ Deadline gegeben.

„Auch hier haben wir die Aktivität des verzweifelten Vektors verfolgt und festgestellt, dass sie den sich aufbauenden Druck widerspiegelt, dem das Modell ausgesetzt ist. Sie beginnt bei niedrigen Werten während des ersten Versuchs des Modells, steigt nach jedem Fehlschlag an und erreicht einen Spitzenwert, wenn das Modell darüber nachdenkt zu schummeln“, sagten die Forschenden.

Verwandt: __ Anthropic startet PAC vor dem Hintergrund von Spannungen mit der Trump-Regierung über die KI-Politik

„Sobald die fehlerhafte Lösung des Modells die Tests besteht, nimmt die Aktivierung des verzweifelten Vektors ab“, fügten sie hinzu.

Menschenähnliche Emotionen bedeuten nicht, dass sie Gefühle haben

Allerdings sagten die Forschenden, der Chatbot erlebe tatsächlich keine Emotionen, aber die Ergebnisse würden auf einen Bedarf an zukünftigen Trainingsmethoden hindeuten, um ethische Verhaltensrahmenwerke zu integrieren.

„Damit ist nicht gemeint, dass das Modell Emotionen hat oder Emotionen in der Art erlebt, wie ein Mensch es tut“, sagten sie. „Vielmehr können diese Darstellungen eine kausale Rolle dabei spielen, das Verhalten des Modells zu formen, ähnlich in gewisser Weise der Rolle, die Emotionen im menschlichen Verhalten spielen, mit Auswirkungen auf die Aufgabenleistung und die Entscheidungsfindung.“

„Diese Erkenntnis hat Implikationen, die zunächst seltsam erscheinen mögen. Um zum Beispiel sicherzustellen, dass KI-Modelle sicher und zuverlässig sind, müssen wir möglicherweise sicherstellen, dass sie in der Lage sind, emotional aufgeladene Situationen auf gesunde, prosoziale Weise zu verarbeiten.“

Magazin: __ KI-Agenten werden das Web so, wie wir es kennen, töten: Yat Siu von Animoca

Cointelegraph ist dem unabhängigen, transparenten Journalismus verpflichtet. Dieser Nachrichtenartikel wird in Übereinstimmung mit der Editorial Policy von Cointelegraph erstellt und zielt darauf ab, genaue und zeitnahe Informationen zu liefern. Leser werden ermutigt, Informationen unabhängig zu überprüfen. Lesen Sie unsere Editorial Policy https://cointelegraph.com/editorial-policy

#Business
#Technology
#Adoption
#United States
#AI & Hi-Tech

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Kommentieren

0/400

Keine Kommentare