Penetrationstests von LLM/GenAI-Systemen

Sichern Sie Ihre LLM/GenAI-Systeme mit einem maßgeschneiderten Penetrationstest von DSecured: Profitieren Sie von verständlichen Berichten mit klaren Handlungsempfehlungen.

Unsere kreativen und renommierten ethischen Hacker identifizieren und dokumentieren Schwachstellen präzise, sodass Ihre IT-Abteilung direkt umsetzbare Schritte erhält. Dank unserer Teilnahme an Live Hacking Events und der umfassenden Erfahrung in der Sicherheitsforschung garantieren wir höchste Sicherheitsstandards für Ihre LLM/GenAI-Systeme.

Damian Strobel

Damian Strobel

Gründer und CEO

"Im Bereich LLM und GenAI kommen einige Herausforderungen auf uns zu!"

Was ist ein LLM-Penetrationstest?

Penetrationstests gegen Systeme aus dem Bereich "GenAI" (Generative Künstliche Intelligenz) werden immer wichtiger, da diese Systeme - primär LLM (Large Language Models) - immer häufiger in Applikationen integriert werden. Bei einem LLM Pentest liegt der Fokus primär auf dem Schutz des Models, seiner Daten, Manipulierbarkeit und der Sicherheit des Agenten. Ein guter Startpunkt für einen LLM-Test sind die LLM-OWASP Top 10. Im Allgemein erfolgt der LLM Penetrationstest immer in Form eines Blackbox-Ansatzes. Wir sind der Nutzer, der mit dem LLM interagiert. In der Regel ist das quasi eine Chat- oder Sprachanwendung. Von hier aus versuchen wir das System zu manipulieren, Daten zu extrahieren und die Integrität des Models zu gefährden.

Sollte ein LLM-Pentest mit einem Web-Pentest kombiniert werden?

Es kommt klar auf den Fokus an. Beides hängt eng zusammen, da klassische Sicherheitslücken, wie SQL Injections oder Command Injections sowohl Daten als auch das Model in vielfältiger Art und Weise negativ beeinflussen können. Hier sollte man sich zusammensetzen und gemeinsam entscheiden, was Sinn macht. In der Regel ist es sinnvoll, einen Penetrationstest der Webanwendung durchzuführen und im Anschluss den LLM-Test zu starten.

Wir prüfen gerne, ob ein Angreifer Ihr LLM-Model stehlen oder manipulieren kann.

Wie viel kostet ein LLM-Penetrationstest?

Wie immer im Bereich IT-Sicherheit gilt: Es kommt darauf an. Einfache Systeme können mit kleinem vierstelligen Budget geprüft werden. Mit zunehmender Komplexität steigt aber oft der Kostenfaktor. Handelt es sich um Systeme, die hochkomplex sind, vielleicht sogar mit diversen Agenten, diversen verschiedenen Modellen, die miteinander interagieren, kann der Preis schnell in den fünfstelligen kommen.

Das einfachste was Sie machen können ist, uns eine Anfrage zu schicken. Je mehr Sie uns über Ihr System sagen können, desto besser können wir Ihnen eine bessere Zahl nennen bzw. ein Angebot machen.

Speziell im LLM-Bereich ist auch, dass es hin und wieder nötig ist, eigene Modelle zu trainieren, um bestimmte Dinge zu testen. Ein Beispiel hierfür ist TextFooler, womit manipulative Eingaben generiert werden können, die zum Testen des LLM verwendet werden können. Besonders effektiv wird das, wenn man eigene Modelle zum generieren dieser Inhalte verwendet - diese müssen aber oft durch das so genannte Fine Tuning.

LLM Pentest

Wir prüfen gerne die Sicherheit und Integrität Ihres LLM-Models.

Welche Schwachstellen können LLM-Systeme haben?

Die "OWASP Top 10 for Large Language Model Applications" sind im Bereich LLM-Pentesting die beste Quelle um zu verstehen, welche Gefahren in dieser Art von Applikationen lauern. Die häufigsten Probleme bei LLM-Anwendungen sind Prompt Injections und Adversarial Inputs. Auch die Manipulation des Models mittels eigener Trainingsdaten ist problematisch, da so etwas zu rechtlichen Problemen führen kann. Vieles hängt aber wahnsinnig stark vom Kontext der Anwendung ab.

Das Thema Datenleck ist ebenfalls ein großes Problem. Hierbei versucht der Angreifer, das Model so zu manipulieren, dass es private Daten, die es ggf. beim Training gesehen hat, preisgibt. Viele Schwachstellen dieser Art können mit komplexen Anwendungen, wie garak, teilautomatisiert entdeckt werden. DoS Angriffe sieht man auch häufig, hierbei versucht der Angreifer das Model so zu nutzen, dass die zugrundeliegende Infrastruktur überlastet wird und/oder enorme Kosten generiert werden.

Ein wichtiges Thema ist außerdem die Agenten-Steuerung. Sehr einfache LLM-Anwendungen sind oft nur Chatbots. Wird eine KI-Anwendung aber komplex und mehrstufig, sieht man häufig, dass die KI intern Befehle an einen Agenten generiert, die dieser ausführt. Hier ist das Ziel des Angreifers das Ausführen von eigenem Code und final sogar das Übernehmen des Agenten und Stehlen des gesamten Models. Auch besteht die Möglichkeit das Outputs an weitere Systeme oder Komponenten weitergeleitet werden und dort zu Probleme führen können.

Einige Unternehmen, denen wir bisher helfen konnten

Grab
PayPal
BMW
Goldman Sachs
Starbucks
ATT
TikTok
Hilton

Weitere Fragen samt Antworten zum Thema
"LLM/GenAI Penetrationstest"

Welche spezifischen Risiken werden bei einem LLM/GenAI Penetrationstest untersucht?

Es kommt stark auf die App an. Der Fokus liegt auf den OWASP LLM Top 10. Hat Ihre App ein Web-Frontend kommen auch ganz schnell klassische Web-Sicherheitslücken in den Fokus (XSS, SQLi, ...). Bezogen auf das LLM liegt der Fokus auf Datenmanipulation, Prompt Injections und Adversarial Input-Angriffe.

Wie lange dauert in der Regel ein LLM/GenAI Penetrationstest?

Meist sind wir innerhalb einer Woche fertig. Aber wie immer - es hängt von der Größe der gesamten Anwendung ab. Je größer und komplexer, desto länger dauert es. Wir haben auch schon Tests gesehen, die mehrere Wochen in Anspruch genommen haben.

Was beinhaltet die Dokumentation eines LLM/GenAI Penetrationstests?

Im Fall von LLM-Pentests beinhaltet der Bericht eine Management Summary, technische Details und Handlungsempfehlungen. Außerdem beinhaltet ein großer Teil des Berichts Beispiele, wie man das System manipulieren kann.

Wie oft sollte man ein LLM-System testen?

Im Gegensatz zu klassischen Applikationen, die getestet werden, hat man beim Fall LLM oft den Fall, dass das Model mit Hilfe von Nutzerdaten teilweise wöchentlich oder sogar täglich trainiert wird. Theoretisch müsste man für jede neue Modell-Generation den gesamten LLM-Pentest wiederholen.

Wie aktuell ist das Wissen Ihrer Tester bezüglich neuester GenAI Technologien?

Neben dem Hackern von LLM-Technologie, bauen wir auch Systeme auf Basis von LLM für Kunden und für unsere internen Systeme. Wir kennen sie von allen Perspektiven und können daher auch besser testen.

Kontaktieren Sie DSecured

LLM-Penetrationstest anfragen