Gemini, ChatGPT und LLaVA: Neuer Wurm verbreitet sich in KI-Ökosystemen selbst
Forscher haben einen KI-Wurm entwickelt. Dieser kann nicht nur sensible Daten abgreifen, sondern sich auch selbst in einem GenAI-Ökosystem ausbreiten.
Sicherheitsforscher haben einen speziellen KI-Wurm namens Morris II entwickelt, der sich automatisch von einem generativen KI-System auf ein anderes ausbreiten und potenziell Daten abgreifen und Spam-E-Mails versenden kann. "Das bedeutet im Grunde, dass man jetzt die Möglichkeit hat, eine neue Art von Cyberangriff durchzuführen, die es bisher noch nicht gegeben hat", erklärte Ben Nassi, einer der Forscher dieses Projekts, gegenüber Wired.
Angeblich handelt es sich um den ersten generativen KI-Wurm, der darauf abzielt, GenAI-Ökosysteme durch die Verwendung von sich selbst replizierenden Anweisungen zu attackieren.
Gemini, ChatGPT und LLaVA auf dem Prüfstand
Die Forscher haben ihren Wurm nach eigenen Angaben unter Einsatz verschiedener Einstellungen und Eingabedaten innerhalb einer Testumgebung gegen KI-basierte E-Mail-Assistenten getestet. Dabei nahmen die Sicherheitsforscher drei verschiedene KI-Modelle ins Visier: Googles Gemini Pro, OpenAIs ChatGPT 4.0 und das quelloffene und auf Metas LLaMA basierende Modell LLaVA (Large Language Visual Assistant).
KI-Modelle generieren selber neue Anweisungen
Dem Wired-Bericht zufolge konnten die Forscher Daten aus E-Mails extrahieren: Möglich sei etwa das Abgreifen von Namen, Rufnummern, Kreditkartennummern oder anderen sensiblen Informationen. Ein ausführliches Paper zu Morris II sowie ein kurzes Demonstrationsvideo haben die Forscher auf einer Webseite veröffentlicht.
"Die Studie zeigt, dass Angreifer Anweisungen in die Eingabefelder einfügen können, die, wenn sie von einem GenAI-Modell verarbeitet werden, dieses dazu veranlassen, die Eingabe als Ausgabe zu replizieren und bösartige Aktivitäten auszuführen", erklären die Sicherheitsforscher. Ferner werde der angegriffene KI-Agent dazu veranlasst, die bösartigen Eingaben durch Verbindungen innerhalb des GenAI-Ökosystems an andere Agenten weiterzugeben.
Die Vorgehensweise wird mit jener von klassischen SQL-Injection- und Pufferüberlauf-Angriffen verglichen. Zum Einsatz komme ein "bösartiger selbstreplizierender Prompt", der das KI-Modell dazu veranlasse, in seiner Antwort anstelle von Daten selber Anweisungen auszugeben, so die Forscher.
Google und OpenAI sind informiert
Die Verantwortung sehen die Sicherheitsforscher allerdings nicht bei Google oder OpenAI. "Der Wurm nutzt ein schlechtes Architekturdesign für das GenAI-Ökosystem aus und ist keine Schwachstelle im GenAI-Service", heißt es auf der Webseite des Projekts. Die Erkenntnisse zu Morris II seien aber dennoch an die beiden Softwarekonzerne übermittelt worden. In den kommenden zwei bis drei Jahren rechnen die Forscher auch in freier Wildbahn mit generativen KI-Würmern.
Ich verstehe das so Im Text steht das die KI also das LLM statt Antworten Anweisungen...
Das Prinzip sollte man auf Menschen auch übertragen. Erst wenn dieser einen Nachweis...