Florian Wolf präsentiert über Digitale Souveränität beim KI Klub Werder

Self-Hosted LLM Stack: Production-Ready AI ohne Vendor Lock-in

Florian Wolf zeigt beim KI Klub Werder, wie du KI-Systeme selbst hostest – mit voller Datenkontrolle, ohne Cloud-Abhängigkeit

ChatGPT, Claude & Co. sind praktisch – aber jede Anfrage schickt deine Daten zu OpenAI, Anthropic oder Google. Für Unternehmen, die DSGVO-konform arbeiten wollen, sensible Daten verarbeiten oder einfach digitale Souveränität ernst nehmen, ist das eine Herausforderung.

Florian Wolf, CTO bei enersis climate intelligence Suisse AG, hat beim KI Klub Werder gezeigt, wie man einen produktionsreifen lokalen LLM-Stack aufsetzt. Von Hardware-Entscheidungen über Docker-Setup bis zu MCP-Integrationen – hier ist, was du wissen musst.

Warum lokal statt Cloud?

Die Motivation ist simpel: Datenkontrolle. Bei Cloud-Services wie ChatGPT oder Claude verlassen deine Daten bei jeder Anfrage deine Infrastruktur. Das erzeugt nicht nur DSGVO-Risiken und AI-Act-Pflichten, sondern schafft auch strategische Abhängigkeiten.

Lokale LLM-Infrastrukturen lösen alle diese Probleme:

  • Keine Drittlandstransfers: Daten bleiben in deinem Netzwerk
  • Compliance by Design: DSGVO, AI Act und Data Act werden einfacher
  • Keine API-Kosten: Einmalige Hardware-Investition statt monatlicher Abos
  • Minimale Latenz: Keine Netzwerk-Roundtrips
  • Volle Kontrolle: Modelle, Konfiguration, Tool-Integration – alles in deiner Hand

Gleichzeitig wächst die Menge von Open Source/Open Weight Modellen, die immer fähiger werden. Wer braucht schon die Kapazität von Claude oder ChatGPT, um ein Meetingprotokoll zu erstellen, wenn Qwen3 dies mit einem Bruchteil der Parameter genauso gut macht?

Der Stack: Pragmatisch und produktionsreif

Florian stellte einen bewährten Software-Stack vor, der auf Open-Source-Komponenten basiert:

Core-Komponenten

Ollama als Model-Server – Modelle herunterladen und starten mit einem simplen ollama pull. Keine komplexe Konfiguration, keine API-Keys, funktioniert super einfach.

Open-WebUI als Benutzeroberfläche – sieht aus wie ChatGPT, funktioniert wie ChatGPT, ist aber komplett lokal. Perfekt für kleine Teams.

Docker für Integrationen – alle Services containerisiert, einfach zu deployen, einfach zu warten.

MCP-Integration: Tools, die du kennst

Das Model Context Protocol (MCP) von Anthropic ermöglicht die kontrollierte Integration externer Tools:

  • Confluence: Interne Dokumentation durchsuchen
  • Jira: Ticket-Status und Sprint-Informationen abrufen
  • SearXNG: Private Web-Suche ohne Tracking
  • Docling: PDF- und Dokumenten-Verarbeitung

Und Qdrant: als Vector-Store für RAG (Retrieval-Augmented Generation) direkt per Docker in Open-WebUI integriert.

Der Clou: Alle Tool-Zugriffe laufen über kontrollierte Endpunkte. Du definierst, welche Systeme das LLM erreichen darf.

Architektur: Daten bleiben drinnen

Der fundamentale Unterschied zwischen Cloud und lokal wird in der Architektur sichtbar:

Cloud-Workflow:

  1. Anfrage verlässt dein Netzwerk
  2. Verarbeitung bei OpenAI/Anthropic/Google
  3. Tool-Aufrufe über deren Infrastruktur
  4. Antwort zurück

Lokal-Workflow:

  1. Anfrage an die lokale Infrastruktur
  2. Inferenz auf deiner GPU
  3. Tool-Aufrufe über interne Endpunkte (wenn du es erlaubst)
  4. Antwort lokal generiert

Ergebnis: Keine Daten bei Dritten, keine heimlichen Trainingsdaten-Sammlung, keine unnötigen Logs bei Big Tech.

Hardware: Realistisch planen

LLMs basieren auf massiv parallelen Berechnungen – GPUs sind Pflicht. Florians Empfehlungen basieren auf praktischer Erfahrung:

Der Sweet Spot:

  • 24GB VRAM (z.B. RTX 3090): Läuft Modelle mit 7B-13B Parametern nativ, bis ~30B quantisiert
  • 48GB VRAM (z.B. 2x RTX 3090): Für ~32B-Modelle mit großem Kontext optimal

Warum GPU statt CPU? LLMs bestehen aus Milliarden Parametern, die parallel verarbeitet werden. GPUs haben tausende Kerne für genau solche Operationen – CPUs nur wenige Dutzend. Der Performance-Unterschied ist dramatisch.

Florian zeigte auch seinen eigenen Aufbau: Custom-PC mit Wasserkühlung, optimiert für Dauerbetrieb. Eine Investition von ca. 3.500 EUR für eine ernsthaft produktiven Setup.

Präsentation: Self-Hosted LLM Stack

Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide 20
1 / 20

Live-Demo: Praxis, die trägt

Die Demo zeigte, was das System leistet:

  1. Monitoring mit nvtop: Echtzeit-Übersicht über GPU-Auslastung, VRAM-Nutzung und Temperatur
  2. PDF-Analyse: Dokument hochladen, vom LLM analysieren lassen
  3. Confluence-Integration: "Hole mir die neueste Dokumentation zu Projekt X"
  4. Jira-Abfrage: "Welche Tickets sind aktuell in Sprint 23?"
  5. Web-Recherche: SearXNG für aktuelle Informationen über viele Suchmaschienen ohne zu tracken

Bedienung: Genau wie ChatGPT – nur eben mit voller Datenkontrolle und revisionssicher.

Compliance: By Design statt by Contract

Ein lokaler Stack vereinfacht Compliance erheblich:

DSGVO:

  • Datenminimierung: Daten verlassen nie deine Infrastruktur
  • Zweckbindung: Du definierst, wofür das LLM genutzt wird
  • Betroffenenrechte: Alle Daten liegen bei dir, Auskunft/Löschung ist trivial

AI Act:

  • Dokumentation: Logge Prompts und Antworten in deinem System
  • Risiko-Klassifizierung: Einfacher, weil du den kompletten Stack kontrollierst

Data Act:

  • Portabilität: Deine Daten, dein Format
  • Wechselrechte: Kein Vendor Lock-in

Ausblick: Von Chat zu Agenten

Florian zeigte zum Abschluss eigent.ai – ein Multi-Agent-System, das auf CAMEL-AI basiert. Statt einzelner Chat-Anfragen orchestriert eigent.ai mehrere spezialisierte Agents:

  • Browser Agent: Web-Automatisierung
  • Code Agent: Schreibt und führt Code aus
  • Document Agent: Erstellt strukturierte Dokumente
  • Search Agent: Multi-Source-Recherche

Der Orchestrator zerlegt komplexe Aufgaben, verteilt sie an spezialisierte Agents und koordiniert parallele Ausführung. Alles lokal, mit klaren Policies.

Das ist die nächste Stufe: Von reaktivem Chat zu proaktiver Automatisierung – und das ganze auf Deinen eigenen Systemen.

KI Klub Werder (Havel)

Wir zeigen dir jeden Monat hands-on, wie Datenautonomie mit KI geht. Bring deinen Laptop mit, nimm dein Modell mit nach Hause.

Zu den Veranstaltungen →

← Zurück zum Blog