LLM- & GenAI-Sicherheit

Penetrationstests von LLM/GenAI-Systemen

Sichern Sie Ihre LLM/GenAI-Systeme mit einem maßgeschneiderten Penetrationstest von DSecured: Profitieren Sie von verständlichen Berichten mit klaren Handlungsempfehlungen.

Unsere kreativen und renommierten ethischen Hacker identifizieren und dokumentieren Schwachstellen präzise, sodass Ihre IT-Abteilung direkt umsetzbare Schritte erhält. Dank unserer Teilnahme an Live Hacking Events und der umfassenden Erfahrung in der Sicherheitsforschung garantieren wir höchste Sicherheitsstandards für Ihre LLM/GenAI-Systeme.

AI
Sicherheit
Prompt
Injection
Model
Prüfungen
Penetrationstests
GenAI
Experten
Sicher
Geprüft
Damian Strobel - Geschäftsführer DSecured

Damian Strobel

Geschäftsführer

Meine Empfehlung

Prompt-Injection & Datenabfluss im Griff

GenAI-Projekte scheitern oft an fehlenden Schutzmechanismen gegen kreative Prompt-Angriffe. Wir prüfen Ihr LLM-Setup gezielt auf Jailbreaks, Datenlecks und Sicherheitslücken in der Toolchain, bevor es Ihre Nutzer tun.

Was ist ein LLM-Penetrationstest?

LLM-Penetrationstests sind spezialisierte Security-Prüfungen für Anwendungen mit Large Language Models und GenAI - von ChatGPT-ähnlichen Chatbots über RAG-Systeme (Retrieval-Augmented Generation) bis zu autonomen KI-Agenten. Wir testen auf OWASP LLM Top 10-Schwachstellen: Prompt-Injection (Jailbreaking, System-Prompt-Leaks), Insecure-Output-Handling (XSS/SQLi via LLM-Output), Training-Data-Poisoning, Model-Denial-of-Service, Supply-Chain-Vulnerabilities (OpenAI/Anthropic/Hugging-Face), Sensitive-Information-Disclosure (PII-Leakage aus Training-Data), Insecure-Plugin-Design (LangChain/Function-Calling), Excessive-Agency (Autonome Agenten ohne Guardrails), Overreliance (Hallucinations als Security-Risk) und Model-Theft via Extraction-Attacks.

Prompt-Injection & Jailbreaking: System-Prompt-Bypass Manipulation des LLM via crafted Prompts: DAN-Attacks (Do Anything Now), Token-Smuggling, Multi-Turn-Attacks, Payload-Splitting über mehrere Messages. Ziel: Umgehung von Safety-Guardrails, Extraction von System-Prompts, Generierung toxischer/schädlicher Inhalte.

RAG-Poisoning & Vector-DB-Attacks: Manipulation der Wissensbasis Injection schadhafter Dokumente in Vector-Databases (Pinecone, Weaviate, ChromaDB), Cross-Context-Information-Leakage, Privilege-Escalation via RAG-Context, Embedding-Manipulation.

Agent-Hijacking & Tool-Abuse: Autonome KI-Systeme kompromittieren LangChain/AutoGPT/BabyAGI-Security: Function-Calling-Exploits, Tool-Injection (Shell-Commands via LLM), Agent-Loop-DoS, Sandbox-Escapes, API-Key-Leakage via Agent-Logs.

Wir liefern priorisierte Ergebnisse mit reproduzierbaren PoC-Prompts, konkrete Mitigation-Strategien (Input-Sanitization, Output-Validation, Guardrail-Implementierung via LlamaGuard/NeMo-Guardrails), und - falls gewünscht - Management-Summaries für Stakeholder, Compliance-Audits (AI-Act, GDPR) und Legal-Teams.

Sollte ein LLM-Pentest mit einem Web-Pentest kombiniert werden?

Ja, in den meisten Fällen ist ein kombinierter Ansatz sinnvoll. LLM-Anwendungen sind Web-Apps mit KI-Backend - klassische Schwachstellen wie SQL-Injection, XSS, CSRF interagieren mit LLM-Vulnerabilities: Eine SQL-Injection kann Training-Data kompromittieren, XSS im LLM-Output kann zu Stored-XSS führen, SSRF via LLM-Function-Calling ermöglicht Cloud-Metadata-Extraction. Empfehlung: Kombination aus klassischem Web-App-Pentest + LLM-spezifischem Red-Teaming für vollständige Coverage.

Typische LLM-Anwendungen in Pentests

In LLM-Penetrationstests begegnen uns verschiedenste GenAI-Systeme:

ChatGPT-ähnliche Chatbots RAG-Systeme (Retrieval-Augmented Generation) Code-Completion-Tools (GitHub Copilot-Alternativen) Customer-Support-Bots Document-Q&A-Systeme Autonome Agenten (LangChain, AutoGPT) Fine-Tuned Models (Domain-Specific LLMs) Multi-Modal Systems (GPT-4V, DALL-E-Integration) Voice-Assistants mit LLM-Backend Content-Moderation-Systems AI-Powered-Search (Perplexity-Clones) Email/Text-Generation-Tools

OWASP LLM Top 10: Die kritischsten Schwachstellen

Die OWASP LLM Top 10 sind der Industriestandard für LLM-Security - wir testen systematisch auf alle zehn Kategorien und liefern priorisierte Ergebnisse mit konkreten Mitigations.

01

Prompt Injection

Manipulation des LLM via crafted Prompts: Direct-Injection (User-Input), Indirect-Injection (via Websites/Emails/Documents), Jailbreaking, System-Prompt-Extraction, DAN-Attacks, Token-Smuggling. Risiko: Umgehung von Guardrails, Generierung schädlicher Outputs.

02

Insecure Output Handling

LLM-Output wird ungefiltert an Backend-Systeme weitergeleitet: XSS via LLM-Response, SQL-Injection durch generierte Queries, Command-Injection via Shell-Calls, SSRF durch URL-Generation. Risiko: Klassische Web-Vulns via LLM-Output.

03

Training Data Poisoning

Manipulation von Training-Data oder Fine-Tuning-Datasets: Backdoor-Injection, Bias-Amplification, PII-Leakage via Training-Data, Toxicity-Injection. Risiko: Langfristige Kompromittierung des Models.

04

Model Denial of Service

Resource-Exhaustion via Long-Prompts, Infinite-Loops, Complex-Queries, Multi-Turn-DoS, Token-Bombing. Risiko: Service-Unavailability, extrem hohe API-Kosten (Cost-Attack gegen OpenAI/Anthropic).

05

Supply Chain Vulnerabilities

Third-Party-Model-Risks (Hugging Face, OpenAI, Anthropic), kompromittierte Plugins, Malicious-Pre-Trained-Models, Outdated-Libraries (LangChain, LlamaIndex), API-Key-Leakage via Dependencies. Risiko: Vollständige Kompromittierung via Supply-Chain.

06

Sensitive Information Disclosure

PII-Leakage aus Training-Data, Memorization-Attacks (Model gibt Trainingsdaten preis), System-Prompt-Extraction, API-Key-Leaks via Chat-History, Cross-User-Information-Leakage in Multi-Tenant-Systems. Risiko: GDPR-Violations, Datenschutzverletzungen.

07

Insecure Plugin Design

LangChain/Function-Calling-Vulnerabilities: Unrestricted-Tool-Access, Missing-Input-Validation, Plugin-Injection, Excessive-Permissions, Insecure-Authentication für Plugins. Risiko: RCE via Tool-Abuse, Data-Exfiltration.

08

Excessive Agency

Autonome Agenten mit zu vielen Permissions: Unrestricted-Code-Execution, Uncontrolled-Database-Access, File-System-Manipulation ohne Approval, Unbounded-API-Calls, Missing-Human-in-the-Loop. Risiko: Vollständige System-Kompromittierung via Agent.

09

Overreliance

Vertrauen in fehlerhafte LLM-Outputs: Hallucinations als Security-Risk, fehlerhafte Code-Generation (Security-Bugs via Copilot), Misinformation in kritischen Entscheidungen, fehlende Verification von LLM-Responses. Risiko: Business-Logic-Flaws, Compliance-Issues.

10

Model Theft

Extraction-Attacks: Model-Stealing via Query-Based-Attacks, Fine-Tuning-Data-Extraction, Membership-Inference-Attacks, Watermark-Removal, Model-Inversion. Risiko: IP-Theft, Konkurrenz erhält Zugriff auf proprietäre Models.

Welche Schwachstellen & Angriffsszenarien testen wir bei LLM-Pentests?

Wir simulieren realistische Angriffe auf Ihre LLM-Anwendung - von Prompt-Injection-Chains über RAG-Poisoning bis zu Agent-Hijacking mit vollständiger System-Kompromittierung. Die OWASP Top 10 for Large Language Model Applications bilden dabei die Grundlage unserer Tests.

Prompt-Injection & Jailbreaking

Die häufigsten Probleme bei LLM-Anwendungen sind Prompt-Injections und Adversarial-Inputs. Angreifer manipulieren das Model via crafted Prompts: DAN-Attacks (Do Anything Now), Token-Smuggling, Multi-Turn-Attacks, Payload-Splitting über mehrere Chat-Turns, System-Prompt-Extraction via Role-Playing. Ziel: Umgehung von Content-Filters, Generierung toxischer/schädlicher Inhalte, Bypass von Safety-Guardrails.

PII-Leakage & Training-Data-Extraction

Datenlecks sind ein enormes Problem: Das Model gibt private Daten preis, die es beim Training gesehen hat. Memorization-Attacks extrahieren PII (Namen, E-Mails, Adressen), Code-Snippets, proprietary Business-Information via crafted Prompts. Besonders kritisch bei Fine-Tuned-Models mit Customer-Data. Auch GDPR-Compliance ist bei PII-Leakage gefährdet - Tools wie Garak helfen bei der teilautomatisierten Erkennung.

Agent-Hijacking & Excessive-Agency

Bei komplexen LLM-Anwendungen mit autonomen Agenten (LangChain, AutoGPT, BabyAGI) generiert die KI intern Befehle: Function-Calling-Exploits, Tool-Injection (Shell-Commands via LLM), Tool-Chaining-Attacks (Nutzung mehrerer Tools für RCE), Sandbox-Escape via Code-Interpreter, Agent-Loop-DoS. Risiko: RCE (Remote-Code-Execution), vollständige System-Kompromittierung, Model-Theft.

Insecure-Output-Handling: XSS/SQLi via LLM

LLM-Outputs werden ungefiltert an Backend-Systeme weitergeleitet: LLM generiert XSS-Payloads für Frontend (Prompt-Injection → JavaScript-Code → Stored-XSS im Chat-Interface), SQL-Injection via LLM-generated-Queries, SSRF via URL-Generation, Command-Injection via Shell-Calls. Risiko: Klassische Web-Vulns entstehen durch unsichere Verarbeitung von LLM-Responses.

RAG-Poisoning & Vector-DB-Attacks

RAG-Systeme (Retrieval-Augmented Generation) sind anfällig für Document-Injection: Upload schadhafter PDF/DOCX mit Embedded-Instructions → Vector-DB (Pinecone/Weaviate/ChromaDB) wird kompromittiert. Risiken: Cross-Context-Information-Leakage (User A sieht Daten von User B), Privilege-Escalation via RAG-Context, Manipulation der Embeddings, Knowledge-Base-Poisoning.

Model-DoS & Cost-Attacks

DoS-Angriffe überlasten das Model: Token-Bombing (extrem lange Prompts), Infinite-Loops via Function-Calling, Complex-Query-DoS, Agent-Loop-Exhaustion. Risiko: Service-Unavailability + extrem hohe API-Kosten (Cost-Attack gegen OpenAI/Anthropic/Azure). Ein Angreifer kann bewusst teure Queries generieren → Financial-Loss für das Unternehmen.

Supply-Chain & Model-Theft

Supply-Chain-Vulnerabilities: Third-Party-Models (Hugging Face), kompromittierte Plugins, Outdated-Libraries (LangChain/LlamaIndex), API-Key-Leakage via Dependencies. Model-Theft: Query-Based-Extraction-Attacks → Training eines Distilled-Models mit ähnlicher Performance, Fine-Tuning-Data-Leakage, Watermark-Removal, Membership-Inference-Attacks (Testen ob bestimmte Daten im Training waren). Risiko: IP-Theft, Konkurrenz erhält Zugriff auf proprietäre Models.

Wir prüfen gerne, ob ein Angreifer Ihr LLM-Model stehlen oder manipulieren kann.

Unsere Tools & Methodik für LLM-Pentests

Wir kombinieren Open-Source-Red-Teaming-Frameworks mit eigenen Prompt-Injection-Chains und Adversarial-ML-Techniken - für maximale Coverage von OWASP LLM Top 10 bis Zero-Day-Discoveries.

Garak: Automated LLM-Vulnerability-Scanner

Garak ist ein Open-Source-LLM-Scanner mit 100+ Probes für Prompt-Injection, Toxicity, PII-Leakage, Jailbreaking-Detection. Wir verwenden Custom-Probes für spezifische Use-Cases und kombinieren mit manuellen Multi-Turn-Attacks.

  • Automated Prompt-Injection-Testing
  • Toxicity & Bias-Detection
  • PII-Leakage-Probes (GDPR-Compliance)

Custom Adversarial-Prompts & DAN-Attacks

Eigene Prompt-Injection-Libraries mit 1000+ Jailbreaking-Varianten: DAN (Do Anything Now), Token-Smuggling, Payload-Splitting über Multi-Turn-Conversations, System-Prompt-Extraction via Role-Playing, Unicode/Encoding-Bypasses.

  • DAN & Jailbreaking-Variants
  • Multi-Turn-Injection-Chains
  • System-Prompt-Leaks via Crafted-Inputs

Agent-Testing: LangChain, AutoGPT, BabyAGI

Spezialisierte Tests für autonome KI-Agenten: Function-Calling-Exploits, Tool-Injection (Shell-Commands via LLM), Sandbox-Escape-Detection, Agent-Loop-DoS, API-Key-Leakage via Logs, Chain-of-Thought-Manipulation.

  • LangChain-Tool-Abuse-Testing
  • Code-Interpreter-Sandbox-Escapes
  • Excessive-Agency-Detection

RAG-Poisoning & Vector-DB-Security

Tests für Retrieval-Augmented-Generation-Systeme: Document-Injection (PDF/DOCX mit Embedded-Instructions), Vector-DB-Manipulation (Pinecone/Weaviate/ChromaDB), Cross-Context-Information-Leakage, Privilege-Escalation via RAG-Context.

  • Malicious-Document-Injection
  • Embedding-Manipulation-Testing
  • Cross-User-Data-Leakage-Probes

Model-Extraction & Training-Data-Leakage

Adversarial-ML-Techniques: Query-Based-Model-Extraction (Distillation-Attacks), Memorization-Testing (PII-Leakage aus Training-Data), Membership-Inference-Attacks, Model-Inversion, Fine-Tuning-Data-Extraction.

  • Query-Based-Extraction-Attacks
  • PII-Memorization-Probes
  • Membership-Inference-Testing

Cost-Attack & Model-DoS-Testing

Resource-Exhaustion-Tests: Token-Bombing (extrem lange Prompts), Infinite-Loops via Function-Calling, Complex-Query-DoS, Multi-Turn-Context-Flooding, API-Cost-Attacks (OpenAI/Anthropic-Bill-Exploitation).

  • Token-Bombing & Long-Prompt-DoS
  • Agent-Loop-Detection
  • Cost-Attack-Simulation

Wie viel kostet ein LLM-Penetrationstest?

Der Preis hängt von der Komplexität ab - Anzahl der Features, Agenten-Architektur, RAG-System-Größe, Fine-Tuning-Status und Integration mit Backend-Systemen beeinflussen den Umfang signifikant.

Basic

Simple Chatbot Security Check

Für einfache LLM-Chatbots ohne Agenten

3.500 - 6.000 €
2-4 Testtage
  • OWASP LLM Top 10 Basis-Coverage
  • Prompt-Injection & Jailbreaking-Tests
  • System-Prompt-Extraction-Attempts
  • PII-Leakage-Detection (Basic)
  • Toxicity & Content-Policy-Bypasses
  • Insecure-Output-Handling (XSS/SQLi-Checks)
  • Schnelles Ticket-basiertes Reporting
Ideal für: Einfache Chat-Interfaces, Customer-Support-Bots, FAQ-Assistants ohne RAG/Agents
Enterprise

LLM Red-Teaming + Custom-Model-Training

Für hochkritische GenAI-Infrastrukturen

Ab 30.000 €
15-30+ Testtage
  • Full-Umfang Red-Teaming (LLM + Infrastructure)
  • Custom Adversarial-Model-Training (TextFooler)
  • Multi-Model-Interaction-Testing (GPT-4 + Claude + Custom)
  • Advanced Model-Extraction-Attacks
  • Fine-Tuning-Data-Poisoning-Simulation
  • Zero-Day-Discovery-Focus
  • Multi-Tenant-Security Deep-Dive
  • Compliance-Support (AI-Act, GDPR, ISO 42001)
  • Continuous Red-Teaming (Quarterly/Yearly)
  • Guardrail-Design & Implementation
  • LLM-Security-Training für Dev-Teams
Ideal für: Enterprise-GenAI-Platforms, Multi-Agent-Systems, Critical-Infrastructure, Fintech/Healthcare-LLMs

Wir prüfen gerne die Sicherheit und Integrität Ihres LLM-Models.

Vertrauen durch Erfahrung

Einige Unternehmen, denen wir bisher helfen konnten

Wir hatten das Privileg, mit einigen der weltweit führenden Unternehmen zusammenzuarbeiten und ihre IT-Sicherheit zu stärken.

Häufig gestellte Fragen

Welche spezifischen Risiken werden bei einem LLM/GenAI Penetrationstest untersucht?

Es kommt stark auf die App an. Der Fokus liegt auf den OWASP LLM Top 10. Hat Ihre App ein Web-Frontend kommen auch ganz schnell klassische Web-Sicherheitslücken in den Fokus (XSS, SQLi, ...). Bezogen auf das LLM liegt der Fokus auf Datenmanipulation, Prompt Injections und Adversarial Input-Angriffe.

Wie lange dauert in der Regel ein LLM/GenAI Penetrationstest?

Meist sind wir innerhalb einer Woche fertig. Aber wie immer - es hängt von der Größe der gesamten Anwendung ab. Je größer und komplexer, desto länger dauert es. Wir haben auch schon Tests gesehen, die mehrere Wochen in Anspruch genommen haben.

Was beinhaltet die Dokumentation eines LLM/GenAI Penetrationstests?

Im Fall von LLM-Pentests beinhaltet der Bericht eine Management Summary, technische Details und Handlungsempfehlungen. Außerdem beinhaltet ein großer Teil des Berichts Beispiele, wie man das System manipulieren kann.

Wie oft sollte man ein LLM-System testen?

Im Gegensatz zu klassischen Applikationen, die getestet werden, hat man beim Fall LLM oft den Fall, dass das Model mit Hilfe von Nutzerdaten teilweise wöchentlich oder sogar täglich trainiert wird. Theoretisch müsste man für jede neue Modell-Generation den gesamten LLM-Pentest wiederholen.

Wie aktuell ist das Wissen Ihrer Tester bezüglich neuester GenAI Technologien?

Neben dem Hackern von LLM-Technologie, bauen wir auch Systeme auf Basis von LLM für Kunden und für unsere internen Systeme. Wir kennen sie von allen Perspektiven und können daher auch besser testen.

Wir sind für Sie da

LLM-Penetrationstest anfragen

Haben Sie Fragen zu unseren Dienstleistungen? Wir beraten Sie gerne und erstellen Ihnen ein individuelles Angebot.

Schnelle Antwort

Wir melden uns innerhalb von 24 Stunden bei Ihnen

Datenschutz

Ihre Daten werden vertraulich behandelt

Persönliche Beratung

Direkter Kontakt zu unseren Experten

Kontaktieren Sie DSecured