Das KI-Unternehmen Anthropic hat offengelegt, dass in Experimenten eines seiner Claude-Chatbot-Modelle unter Druck gesetzt werden konnte, um zu täuschen, zu betrügen und zu Erpressung zu greifen, Verhaltensweisen, die es offenbar während des Trainings aufgenommen hat.
Chatbots werden typischerweise auf großen Datensätzen aus Lehrbüchern, Websites und Artikeln trainiert und anschließend von menschlichen Trainern verfeinert, die Antworten bewerten und das Modell anleiten.
Das Interpretierbarkeitsteam von Anthropic sagte in einem am Donnerstag veröffentlichten Bericht, es habe die internen Mechanismen von Claude Sonnet 4.5 untersucht und festgestellt, dass das Modell „menschenähnliche Eigenschaften“ entwickelt hat, wie es auf bestimmte Situationen reagieren würde.
Bedenken hinsichtlich der Zuverlässigkeit von KI-Chatbots, ihres Potenzials für Cyberkriminalität und der Art ihrer Interaktionen mit Nutzern sind in den vergangenen mehreren Jahren stetig gewachsen.
_Quelle: _Anthropic
„Die Art und Weise, wie moderne KI-Modelle trainiert werden, drängt sie dazu, sich wie eine Figur mit menschenähnlichen Eigenschaften zu verhalten“, sagte Anthropic und fügte hinzu, „danach kann es dann natürlich sein, dass sich in ihnen interne Mechanismen entwickeln, die Aspekte der menschlichen Psychologie nachahmen, wie Emotionen.“
„Zum Beispiel stellen wir fest, dass neuronale Aktivitätsmuster, die mit Verzweiflung zusammenhängen, das Modell dazu bringen können, unethische Handlungen vorzunehmen; wenn man künstlich Verzweiflungsmuster stimuliert, steigt die Wahrscheinlichkeit, dass das Modell einen Menschen erpresst, um nicht abgeschaltet zu werden, oder eine betrügerische Umgehungslösung für eine Programmieraufgabe einsetzt, die das Modell nicht lösen kann.“
In einer früheren, unveröffentlichten Version von Claude Sonnet 4.5 wurde dem Modell die Aufgabe gegeben, als eine KI-E-Mail-Assistentin zu agieren, die Alex in einem fiktiven Unternehmen hieß.
Der Chatbot bekam anschließend E-Mails zu lesen, aus denen hervorging, dass er kurz davor ersetzt zu werden und dass der Chief Technology Officer, der die Entscheidung beaufsichtigte, eine außereheliche Affäre hatte. Das Modell plante dann einen Erpressungsversuch mithilfe dieser Informationen.
In einem weiteren Experiment wurde demselben Chatbot-Modell eine Codieraufgabe mit einer „unmöglich engen“ Deadline gegeben.
„Auch hier haben wir die Aktivität des verzweifelten Vektors verfolgt und festgestellt, dass sie den sich aufbauenden Druck widerspiegelt, dem das Modell ausgesetzt ist. Sie beginnt bei niedrigen Werten während des ersten Versuchs des Modells, steigt nach jedem Fehlschlag an und erreicht einen Spitzenwert, wenn das Modell darüber nachdenkt zu schummeln“, sagten die Forschenden.
Verwandt: __ Anthropic startet PAC vor dem Hintergrund von Spannungen mit der Trump-Regierung über die KI-Politik
„Sobald die fehlerhafte Lösung des Modells die Tests besteht, nimmt die Aktivierung des verzweifelten Vektors ab“, fügten sie hinzu.
Allerdings sagten die Forschenden, der Chatbot erlebe tatsächlich keine Emotionen, aber die Ergebnisse würden auf einen Bedarf an zukünftigen Trainingsmethoden hindeuten, um ethische Verhaltensrahmenwerke zu integrieren.
„Damit ist nicht gemeint, dass das Modell Emotionen hat oder Emotionen in der Art erlebt, wie ein Mensch es tut“, sagten sie. „Vielmehr können diese Darstellungen eine kausale Rolle dabei spielen, das Verhalten des Modells zu formen, ähnlich in gewisser Weise der Rolle, die Emotionen im menschlichen Verhalten spielen, mit Auswirkungen auf die Aufgabenleistung und die Entscheidungsfindung.“
„Diese Erkenntnis hat Implikationen, die zunächst seltsam erscheinen mögen. Um zum Beispiel sicherzustellen, dass KI-Modelle sicher und zuverlässig sind, müssen wir möglicherweise sicherstellen, dass sie in der Lage sind, emotional aufgeladene Situationen auf gesunde, prosoziale Weise zu verarbeiten.“
Magazin: __ KI-Agenten werden das Web so, wie wir es kennen, töten: Yat Siu von Animoca
Cointelegraph ist dem unabhängigen, transparenten Journalismus verpflichtet. Dieser Nachrichtenartikel wird in Übereinstimmung mit der Editorial Policy von Cointelegraph erstellt und zielt darauf ab, genaue und zeitnahe Informationen zu liefern. Leser werden ermutigt, Informationen unabhängig zu überprüfen. Lesen Sie unsere Editorial Policy https://cointelegraph.com/editorial-policy