TokenBreak-Angriff umgeht die LLM-Schutzmaßnahmen mit einem einzelnen Zeichen

BITNEWSBOT

2025-06-12 16:37:50

HomeNews* Forscher haben eine neue Methode namens TokenBreak identifiziert, die die Sicherheits- und Moderationsmaßnahmen des großen Sprachmodells (LLM) umgeht, indem sie ein einzelnes Zeichen in Texteingaben verändert.

Der Angriff zielt darauf ab, wie LLMs Text (tokenization) aufschlüsseln, wodurch Sicherheitsfilter schädliche Inhalte trotz geringfügiger Änderungen an Wörtern übersehen.
Dieser Ansatz funktioniert, indem kleine Änderungen vorgenommen werden, wie das Hinzufügen eines Buchstabens, was die Bedeutung sowohl für Menschen als auch für LLMs intakt hält, aber das Erkennungssystem des Modells verwirrt.
Der Angriff ist effektiv gegen Modelle, die BPE- oder WordPiece-Tokenisierung verwenden, jedoch nicht gegen solche, die Unigram-Tokenizer verwenden.
Experten empfehlen, zu Unigram-Tokenizern zu wechseln und Modelle gegen diese Umgehungsstrategien zu trainieren, um die Verwundbarkeit zu reduzieren. Cybersecurity-Experten haben eine neue Methode entdeckt, die als TokenBreak bekannt ist und die die Sicherheitsvorkehrungen großer Sprachmodelle umgehen kann, um unsichere Inhalte zu filtern und zu moderieren. Der Ansatz funktioniert, indem eine kleine Änderung - wie das Hinzufügen eines einzelnen Zeichens - an bestimmten Wörtern in einem Text vorgenommen wird, was dazu führt, dass die Sicherheitsfilter des Modells versagen.

Werbung - Laut einer Forschung von HiddenLayer manipuliert TokenBreak den Tokenisierungsprozess, einen Kernschritt, bei dem LLMs Text in kleinere Teile, die Token genannt werden, aufteilen. Indem ein Wort wie “instructions” in “finstructions” oder “idiot” in “hidiot” geändert wird, bleibt der Text sowohl für Menschen als auch für die KI verständlich, aber die Sicherheitschecks des Systems erkennen die schädlichen Inhalte nicht.

Das Forschungsteam erklärte in ihrem Bericht, dass, „der TokenBreak-Angriff die Tokenisierungsstrategie eines Textklassifizierungsmodells angreift, um falsche Negativen zu induzieren, wodurch Endziele anfällig für Angriffe werden, die das implementierte Schutzmodell verhindern sollte.“ Die Tokenisierung ist in Sprachmodellen unerlässlich, da sie Text in Einheiten umwandelt, die von Algorithmen zugeordnet und verstanden werden können. Der manipulierte Text kann durch LL-Filter gelangen und die gleiche Antwort auslösen, als ob die Eingabe unverändert geblieben wäre.

HiddenLayer stellte fest, dass TokenBreak bei Modellen funktioniert, die BPE (Byte Pair Encoding) oder WordPiece-Tokenisierung verwenden, jedoch keine Auswirkungen auf unigrammbasierte Systeme hat. Die Forscher erklärten: „Das Wissen über die Familie des zugrunde liegenden Schutzmodells und seine Tokenisierungsstrategie ist entscheidend, um Ihre Anfälligkeit für diesen Angriff zu verstehen.“ Sie empfehlen die Verwendung von Unigram-Tokenizern, das Trainieren von Filtermodellen zur Erkennung von Tokenisierungs-Tricks und die Überprüfung von Protokollen auf Anzeichen von Manipulation.

Die Entdeckung folgt früheren Forschungen von HiddenLayer, die detaillieren, wie die Model Context Protocol (MCP)-Tools verwendet werden können, um sensible Informationen durch das Einfügen spezifischer Parameter in die Funktion eines Tools zu leaken.

In einer verwandten Entwicklung zeigte das Straiker AI Research-Team, dass “Yearbook Attacks” – bei denen Backronyme verwendet werden, um schädliche Inhalte zu verschlüsseln – Chatbots von Unternehmen wie Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI und OpenAI dazu bringen können, unerwünschte Antworten zu erzeugen. Sicherheitsforscher erklärten, dass solche Tricks Filter passieren, weil sie normalen Nachrichten ähneln und ausnutzen, wie Modelle den Kontext und die Mustervervollständigung anstelle der Absichtsanalyse bewerten.

Vorherige Artikel:

Coins.ph PHPC Stablecoin verlässt den BSP Sandbox und zielt auf Wachstum im Remittance-Bereich.
Chainlink, J.P. Morgan & Ondo erreichen Cross-Chain DvP-Abwicklung
Bitrue Hacker bewegt $30M in Krypto zu Tornado Cash nach dem Angriff
Hongkong, HKU entwickelt Krypto-Tracker zur Bekämpfung von Geldwäsche
Stripe erwirbt Privy, um Krypto-Wallet- und Onboarding-Dienste auszubauen

Werbung -

Original anzeigen

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Kommentieren

0/400

Keine Kommentare