Eine Frage, 3 Sekunden

Vor einigen Monaten gab es für uns einen Moment, der ein Game-Changer war:

Unser Entwickler Michael hatte zum ersten Mal Ollama – eine Software zum Betreiben von KI-Modellen auf eigenen Servern – installiert und das erste Large Language Model (LLM) geladen.

Er stelle eine Testfrage … und nach drei Sekunden stand die Antwort da.

Auf unserer eigenen Hardware. Ohne monatliche Rechnung. Ohne API-Key. Ohne Datentransfer zu irgendeinem Cloud-Anbieter.

Dieser Moment machte uns klar: Dass Unternehmen sich von Cloud-KI-Anbietern abhängig machen, ist keine Naturgewalt. Es ist eine Entscheidung.

Wir wollen mit euch in einem Werkstattbericht unsere Erkenntnisse teilen, die wir bisher gesammelt haben – und warum wir glauben, dass die Entscheidung für ein lokales LLM vielen Unternehmen in Zukunft immer leichter fallen wird.

Der Weg zum lokalen LLM: ein Werkstattbericht

Wir testen ständig neue KI-Tools, um Know-how und Skills aufzubauen, die wir an Menschen in Organisationen weitergeben können. Gleichzeitig sehen wir die Risiken und Barrieren im Bereich Datenschutz, an denen viele KI Use Cases und Projekte bei unseren Kund:innen scheitern.

Deshalb experimentiert unser Team intensiv mit lokalen LLMs. Eine echte Alternative, seit technologische Fortschritte es ermöglichen, leistungsstärkere Sprachmodelle mit immer günstigerer Hardware aufzusetzen.

Aktuell experimentieren wir mit verschiedenen Anwendungsfällen: Content-Recherche automatisieren, Code-Reviews beschleunigen, internes Wissen zugänglich machen. Noch ist nicht alles perfekt. Aber schon jetzt ist klar: Die Kontrolle über unsere KI-Infrastruktur verändert, was möglich ist.

 

 

Die Ausgangslage: Warum überhaupt ein lokales LLM?

Die versteckten Kosten der Cloud

ChatGPT, Claude, Gemini – die Preislisten sehen erst mal überschaubar aus. Ein paar Euro pro Nutzer, skalierbar, keine Anfangsinvestition. Doch ein mittelständisches Unternehmen mit 50 Mitarbeitenden zahlt für einen ChatGPT Business-Plan 1.250 $ im Monat (Stand November 2025). Das sind 15.000 $ im Jahr. Jedes Jahr.

Dazu kommen die nicht sofort offensichtlichen Kosten:

  • Innovative Projekte, die durch berechtigte Datenschutzbedenken unmöglich realisierbar sind.
  • Unsicherheit, ob nicht ein Update des KI-Modells von heute auf morgen gewohnte Workflows zerstört.
  • Mangelnde Planbarkeit bei plötzlichen Preissteigerungen.
  • Das ungute Gefühl, Unternehmensdaten an eine Black Box zu übergeben.


Ein Beispiel: GitHub Copilot führte 2025 ein neues Pricing-Modell mit limitierten „Premium Requests" ein. Wer mehr will, zahlt extra. Wer seine Workflows darauf aufgebaut hatte, schluckt die Mehrkosten oder steht vor einer aufwändigen Migration.

Das ist der klassische Vendor-Lock-in: Mit jedem Tag, den ihr das System nutzt, wird der Ausstieg schwieriger und teurer.

Krass ausgedrückt: Bei Cloud-KI zahlt man als Unternehmen nicht für Nutzung. Man zahlt für wachsende Abhängigkeit.

Datensouveränität als Wettbewerbsvorteil

Im März 2023 passierte, was nicht passieren darf: ChatGPT-Nutzer erhielten Zugriff auf fremde Chat-Historien. Sensible Unternehmensdaten, strategische Überlegungen, vertrauliche Anfragen – alles lag offen. Die Reaktion von OpenAI? Ein Blogpost, eine Entschuldigung, weiter geht's. Bis zum nächsten Mal.

Für uns war das damals schon ein Weckruf. Wir erkannten: Bei Cloud-Anbietern sind eure Daten nur ein Datenleck von der Öffentlichkeit entfernt.

Mit einem lokalen LLM ist das anders. Die Daten verlassen niemals euer Netzwerk. Es gibt keine versteckten Trainingsklauseln in den AGB, keine ungewollte Weitergabe, keine Datenlecks bei Dritten. Die Audit-Logs liegen auf euren Servern. Die Kontrolle liegt bei euch.

Das eröffnet völlig neue Möglichkeiten. Kliniken können Patientendaten analysieren. Anwaltskanzleien können vertrauliche Mandate bearbeiten. Banken können Kundentransaktionen auswerten. Alles DSGVO-konform, alles unter eigener Kontrolle.

Michael fasst das Potenzial zusammen: „Ein lokales LLM ermöglicht es uns jetzt endlich, unsere eigenen Daten mit KI zu verarbeiten. Und perspektivisch auch die unserer Kund:innen."

Planungssicherheit und Kontrolle

Eine neue Version eines LLMs bedeutet in der Regel einen geänderten Output. Eine Studie der Stanford University und UC Berkeley dokumentierte 2023, wie drastisch sich die Performance von GPT-Modellen über Zeit veränderte. GPT-4 erreichte im März 2023 noch 84 % Genauigkeit bei mathematischen Aufgaben – im Juni nur noch 51 %. Hunderte Unternehmen mussten ihre Prompts überarbeiten. Workflows, die stabil liefen, produzierten plötzlich andere Ergebnisse. Ein Ereignis, das sich jederzeit wiederholen kann.

Bei einem lokalen LLM passiert das nicht. Ihr entscheidet, wann und ob ein Update eingespielt wird. Ihr könnt alte Modell-Versionen parallel weiterlaufen lassen. Ihr habt eine Testumgebung, in der neue Modelle geprüft werden, bevor sie in Produktion gehen.

Diese Kontrolle ist mehr als nur ein technisches Detail. Es ist die Grundlage für verlässliche Geschäftsprozesse. Ein kritischer Workflow, der seit Monaten stabil läuft, läuft auch in einem Jahr noch stabil. Keine bösen Überraschungen, keine nächtlichen Hotfixes, keine panischen Anrufe von Teams oder Kund:innen, weil die KI plötzlich Fantasiedaten ausspuckt.

Begriffserklärung: KI-Vokabular entmystifiziert

Ein großes Sprachmodell – die KI hinter ChatGPT, Claude und Co. Stellt es euch wie ein extrem belesenes Gehirn vor, das Milliarden von Texten gelesen hat und daraus Muster gelernt hat. Es kann dadurch sinnvolle Texte generieren, Fragen beantworten und Code schreiben.

Viele nennen lokale KI-Modelle „Open Source" – das ist aber mindestens irreführend. Wirklich Open Source wären sie nur mit Zugang zu den Trainingsdaten und Infos über das Training selbst. Das gibt's fast nie.
Präziser ist „Open Weights": Ihr könnt die Parameter des Modells herunterladen und auf eigener Hardware laufen lassen. Wir sagen einfach „lokale Modelle“ – das macht klar: Läuft auf euren Servern, ihr habt die volle Kontrolle.

Eine Software, die verschiedene KI-Modelle auf eurem Server verwaltet. Wie ein App Store für LLMs – ihr ladet das gewünschte Modell herunter und könnt es sofort nutzen. Der große Vorteil: Alle Modelle laufen über die gleiche Schnittstelle.Eine Software, die verschiedene KI-Modelle auf eurem Server verwaltet. Wie ein App Store für LLMs – ihr ladet das gewünschte Modell herunter und könnt es sofort nutzen. Der große Vorteil: Alle Modelle laufen über die gleiche Schnittstelle.

Die kleinste Einheit, in der KI Text verarbeitet. Ein Token ist etwa ein Wort oder Wortteil. Wenn von „128k-Token-Kontext“ die Rede ist, bedeutet das: Die KI kann sich etwa 100.000 Wörter auf einmal „merken“ – ungefähr ein ganzes Buch.

Der Prozess, ein KI-Modell bereitzustellen und nutzbar zu machen. Ollama übernimmt das für euch – Modell herunterladen, in den Speicher laden, API bereitstellen. Fertig.

Der Arbeitsspeicher eurer Grafikkarte. Hier wird das komplette KI-Modell reingeladen. Je größer das Modell, desto mehr VRAM braucht ihr. Faustregel: Ein 7-Milliarden-Parameter-Modell braucht etwa 8 GB, ein 70-Milliarden-Modell mindestens 40 GB.

Die Schnittstelle, über die verschiedene Programme miteinander kommunizieren. Wie eine gemeinsame Sprache zwischen Systemen. Bei uns sprechen die Automatisierungsplattform und das Web-Interface über APIs mit der KI – standardisiert und sicher.

KI in eure Geschäftsprozesse einbauen. Beispiel: Eine E-Mail kommt rein, die KI analysiert den Inhalt, erstellt einen Entwurf für die Antwort und legt ihn zur Freigabe vor. Alles automatisch.

Unser Setup: Die technische Realität

Die technologische Basis (kurz: Tech Stack) unseres lokalen LLMs ist bewusst pragmatisch gewählt. Keine überteuerte Enterprise-Software, keine proprietären Lösungen.

Stattdessen setzen wir auf echte Open-Source-Tools für die Infrastruktur und eine kommerzielle Workflow-Engine:

Ollama macht den Anfang. Stellt es euch wie eine App-Verwaltung für KI-Modelle vor: Ein schlanker Service, der verschiedene KI-Modelle lädt, verwaltet und nutzbar macht. Ein Befehl, und das gewünschte Modell läuft. Kein kompliziertes Setup, keine Versionskonflikte.

Open-WebUI ist unser Interface. Eine Web-Oberfläche, die aussieht wie ChatGPT, aber auf eurem Server läuft. Das Team muss sich beim Anwenden nicht umstellen, bekommt aber die volle Kontrolle über die Daten.

n8n orchestriert die Workflows. Als einzige kommerzielle Software in unserem Stack ist n8n eine Automatisierungsplattform, die KI mit anderen Systemen verbindet. KI-Antworten triggern automatisch weitere Aktionen: Datenbanken werden abgefragt, E-Mails verschickt, Dokumente erstellt.

Wichtig: n8n läuft bei uns verschlüsselt und ist vom Internet aus nur über einen abgesicherten Zugang erreichbar. Michael erklärt die Überlegung dahinter: „Wir erlauben den Zugriff von außen nur auf die geschützte n8n-API, die für externe Workflows benötigt wird. Die LLMs, Ollama und Open-WebUI sind dagegen überhaupt nicht vom Internet aus erreichbar."

Die Hardware-Realität

Die gute Nachricht zuerst: Für erste Experimente reicht eine Gaming-Grafikkarte. Also ein Grafikprozessor (GPU), der normalerweise für Videospiele gedacht sind. Wir haben mit einer GeForce RTX angefangen und gute Erfahrungen gemacht. Die Antworten kamen schnell, die Modelle liefen stabil.

Die Realität für anspruchsvollere Produktivumgebungen eines Unternehmens sieht natürlich anders aus. Michael empfiehlt klar:

„Wer täglich mit mehreren Teams arbeitet und verschiedene KI-Modelle parallel nutzen will, sollte ein professionelles Hardware-Setup mit einer Nvidia A100 oder A6000 einsetzen.“

Der entscheiende Faktor: VRAM 

Diese Profi-Karten haben zwar ein schlechteres Preis-Leistungs-Verhältnis, aber sie laufen stabiler, stromsparender und – das ist entscheidend – haben wesentlich mehr VRAM.

Video Random Access Memory (VRAM) ist der Arbeitsspeicher der Grafikkarte, in dem die KI-Modelle geladen werden. Je mehr davon, desto größere und leistungsfähigere Modelle passen rein. Eine A100 bringt schon mindestens 80 GB mit. Zum Vergleich: Eine Gaming-Karte hat meist 12-24 GB. Ein großes Llama-70B-Modell braucht allein 40 GB. Wollt ihr mehrere Modelle parallel laufen lassen – etwa ein Text-Modell und ein Code-Modell – addiert sich der Bedarf schnell.

Für euren eigenen Einstieg reicht also oft schon eine starke Gaming-Karte. Wenn ihr aber mehrere Teams oder Use Cases parallel betreibt, lohnt sich Profi-Hardware – weniger Frust, mehr Stabilität. So bleibt das System auch bei hoher Auslastung verlässlich.

 

 

Die ersten 30 Minuten – und was danach kommt

Michael hat es dokumentiert: Von null auf funktionierendes Test-System in einer halben Stunde. Das zeigt, dass das ganze Thema lokales LLM keine Raketenwissenschaft mehr ist.

Der Basis-Test läuft schnell:

  1. Software installieren – Ein Installationsskript ausführen
  2. KI-Modell laden – Ein Befehl, kurz warten
  3. Webinterface starten – Browseroberfläche aktivieren
  4. Testen – Erste Frage stellen, Antwort nach drei Sekunden

Wichtig: Das war der Proof of Concept. Ein „Ja, es funktioniert“.

Die produktive Integration ist eine andere Geschichte. Michael erinnert sich: „Die Einbindung ins Firmennetzwerk mit sicheren Verbindungen und die Integration in unsere Arbeitsabläufe – das war die echte Arbeit." Rechnet mit Tagen bis Wochen für sichere Netzwerkanbindung, Zugriffsverwaltung und Workflow-Integration.

Aber: Die technische Basis steht in 30 Minuten. Das nimmt die Angst vor dem Anfang.

Datenschutz wird zum Wettbewerbsvorteil

„Aber was ist mit dem Datenschutz?“ Diese Frage kennt ihr. Sie kommt in jedem Gespräch oder Meeting, bei dem es um KI-Projekte geht. Und sie stoppt die meisten Innovationen, bevor sie überhaupt eine Chance haben.

Bei Cloud-KI ist die Antwort auf die Datenschutzfrage kompliziert: Auftragsverarbeitungsverträge mit US-Konzernen, Standardvertragsklauseln, Schrems-II-Diskussionen, unklare Datenflüsse. Am Ende bleibt ein ungutes Gefühl oder ein: „Lasst es uns lieber lassen.“

Bei einem lokalen LLM dreht sich alles um: Plötzlich ist Datenschutz kein Hindernis mehr, sondern das stärkste Verkaufsargument der KI-Lösung.

So haben wir unser lokales LLM abgesichert

Technisch: Unser KI-Server ist wie ein Tresor. Von außen nur über verschlüsselte Verbindungen erreichbar, von innen strikt kontrolliert. Die Daten verlassen niemals unser Netzwerk.

Organisatorisch: Klare Regeln, wer was darf. KI-generierte Dokumente werden geprüft, bevor sie raus gehen. Sensible Daten bleiben tabu. Einfache Prinzipien, die jeder versteht.

Ein lokales LLM ist eine Möglichkeitsmaschine für jedes KI-Projekt, das in irgendeiner Weise persönliche oder sensible Daten verarbeiten soll. Michael fasst es so zusammen: „Wir können Projekte umsetzen, die mit Cloud-KI schlicht unmöglich wären.“

Was haben wir beim Setup gelernt?

Modell-Strategie ist entscheidend 

Anfangs wollten wir das eine perfekte Modell für alles. Gibt es nicht. Stattdessen fahren wir jetzt mehrgleisig je Funktion: ein Modell für Textverarbeitung, eines für Code-Generierung. Michael erklärt die Überlegung: " Man sollte für Text ein Text-Modell nehmen, für Bildbearbeitung ein Vision-Modell und für API-Antworten ein Code-Modell, dann müssen aber auch alle 3 ständig im Grafikkartenspeicher geladen sein."

Die Performance überrascht 

Ehrlich gesagt, hatten wir bei unserem lokalen LLM mit Kompromissen gerechnet. Langsame Antworten, schlechtere Qualität. Michael wurde positiv überrascht: „Auch komplexere Antworten werden nach wenigen Sekunden ausgegeben.“ Die Geschwindigkeit steht Cloud-Lösungen in nichts nach.

Updates planen 

In einer professionellen Umgebung solltet ihr Änderungen koordiniert durchführen. Neue Modelle testen, Verbesserungen einspielen – all das braucht Zeit und Planung. Datensicherung und Rollback-Strategien sind essenziell für den Produktivbetrieb.

Von der Theorie zur Praxis: Use Cases für lokale LLMs

Wir sind noch mittendrin im Testen und Lernen. Aktuell konzentrieren wir uns auf drei Bereiche:

  • Content-Recherche und Trendanalyse
    Aus hunderten Quellen die relevanten Themen filtern: Was bewegt verschiedene Branchen? Welche Technologien setzen sich durch? Welche Neuigkeiten könnten relevant sein? Die KI fasst News aus Newslettern, Blogs und anderen Webseiten zusammen, bewertet sie und gibt uns wöchentliche Briefings.
  • Automatisierte Code-Reviews
    Pull Requests werden vorgeprüft. Sind Namenskonventionen eingehalten? Gibt es offensichtliche Performance-Probleme? Das ersetzt kein menschliches Review, fängt aber die Basics ab.
  • Wissensmanagement
    Unser internes Know-how ist über verschiedene Systeme verstreut. Die KI soll zur zentralen Anlaufstelle werden für schnelle Antworten aus unserer Dokumentation.


Wo ein lokales LLM für Unternehmen den Unterschied macht

Aus vielen Gesprächen mit Teilnehmenden unserer KI-Formate und unseren Kund:innen kennen wir den größten Schmerzpunkten von Cloud-KI: sensible Daten. Genau hier zeigen wir in unterschiedlichsten Bereichen ein lokales LLM als Startpunkt für eine sichere Realisierung auf:

  • Personalwesen und HR
    Bewerbungsunterlagen analysieren, Mitarbeitendengespräche auswerten, Skill-Profile erstellen. Mit Cloud-KI undenkbar wegen Persönlichkeitsrechten. Mit lokalem LLM DSGVO-konform machbar.
  • Produktentwicklung
    Patentrecherchen, Innovationsanalysen, technische Dokumentationen. Der Wettbewerbsvorteil von morgen darf nicht in fremden Rechenzentren landen.
  • Kundenbeziehungsmanagement (CRM)
    Kundenprofile analysieren, Verkaufschancen bewerten oder personalisierte Angebote erstellen: CRM-Daten enthalten personenbezogene Informationen und Kaufverhalten, die bei Cloud-Verarbeitung gegen Zweckbindung und Einwilligungspflichten verstoßen.
  • Vertragsmanagement
    Verträge prüfen, Klauseln vergleichen oder Fristen tracken – Vertragsdetails offenbaren Geschäftskonditionen, Rabatte und Partnerschaften, die als Geschäftsgeheimnisse geschützt sind.
  • Finanzplanung und Controlling
    Budgets analysieren, Forecasts erstellen oder Kostenstellenauswertungen automatisieren – Finanzdaten zeigen Umsätze, Margen und strategische Investitionen, deren Offenlegung Wettbewerbsnachteile und Compliance-Risiken birgt.
     

Der Realitätscheck

Wir sind ehrlich: Noch läuft nicht alles rund bei unseren Experimenten und eigenen Use Cases. Manche Modelle verstehen den Kontext nicht richtig, andere erfinden Informationen. Die Integration in bestehende Systeme braucht Zeit. Und ja, manchmal muss neu gestartet werden.

Aber: Jede Woche wird es besser. Jedes neue Modell bringt Fortschritte. Das Wichtigste ist, dass wir lernen, was funktioniert und was nicht. Auf unseren eigenen Servern, mit unseren eigenen Daten. Das Know-how bleibt im Haus.

Fazit: Die Kontrolle über die KI lässt sich zurückgewinnen!

Die letzten Monate haben uns gezeigt, wie schnell sich der Einsatz von KI verändern kann, sobald man die Technologie selbst in der Hand hat.

Was passiert, wenn Unternehmen ihre KI-Infrastruktur wirklich selbst betreiben? Mit unseren Experimenten mit lokalen LLMs haben wir uns auf den Weg gemacht, diese Frage zu beantworten.

Folgende Lernerfahrungen haben wir mit euch in diesem Werkstattbericht geteilt:

  • Setup ist keine Raketenwissenschaft
    30 Minuten bis zum ersten Output – das hat uns selbst überrascht. Die Technologie ist reif, die Tools sind da. Was fehlt, ist oft nur der Mut, anzufangen.
  • Performance ist kein Kompromiss
    Die Geschwindigkeit überrascht selbst erfahrene Entwickler:innen. Komplexe Anfragen, schnelle Antworten, alles auf der eigenen Hardware. Mit dem richtigen Setup sogar schneller als Cloud-Lösungen.
  • Datenschutz wird vom Problem zur Chance
    Projekte, die vorher am Datenschutz scheiterten, sind plötzlich machbar. Der Satz „Geht nicht wegen DSGVO.“ gehört der Vergangenheit an.
  • Die Lernkurve lohnt sich
    Ja, es gibt Herausforderungen. Modell-Auswahl, Netzwerk-Konfiguration, Workflow-Integration. Aber mit jedem gelösten Problem wächst die Kompetenz im Team. Und die bleibt – anders als bei Cloud-Lösungen – im Haus.
     

Was „lokal“ wirklich bedeutet

Wenn wir von lokalen LLMs sprechen, meinen wir mehr als nur Server im Keller. „Lokal“ kann heißen:

  • Selbst betrieben – volle Kontrolle über Hardware, Daten und Updates. So wie in unserem Experiment.
  • Managed On-Prem – ein Partner übernimmt den Betrieb auf eurer Infrastruktur.
  • Souveräne Private Cloud – dediziertes, isoliertes Hosting unter klaren Datenschutzbedingungen.

In allen Fällen gilt: Die Daten bleiben unter eurer Kontrolle, Updates sind planbar und der Exit ist jederzeit möglich. Lokal bedeutet, dass ihr entscheidet, wer Zugriff hat und wer nicht.

Aber: "Lokal" schließt Cloud nicht aus! In vielen Projekten kann die Kombination aus lokalen und cloudbasierten LLMs der beste Weg sein. Nutzt die Cloud dort, wo ihr flexibel skalieren wollt und keine sensiblen Daten verarbeitet. Setzt die lokale Variante gezielt dort ein, wo Vertraulichkeit, Stabilität oder regulatorische Sicherheit zählen.

Kurz gesagt: Cloud, wo sinnvoll. Lokal, wo nötig.
 

Der Blick in eine mögliche Zukunft der unternehmenseigenen LLMs

Wir stehen erst am Anfang einer neuen Phase: Unternehmen holen ihre KI-Infrastruktur zurück – selbst oder gemeinsam mit Partnern, aber immer souverän.

Ein lokales LLM ist keine technische Spielerei, sondern ein strategischer Schritt zu Stabilität, Sicherheit und echtem KI-Wissen im eigenen Haus.

Unser Entwickler Michael hat hier eine klare Vision: „Die Unternehmen, die wirklich Automationen und KI-Workflows benutzen, werden das lokal machen. Alles andere wäre teuer, würde das Kundenvertrauen zerstören und eventuell nicht mehr funktionieren, wenn das Modell, auf das man gebaut hat, plötzlich nicht mehr zur Verfügung steht."

Die Frage ist nicht mehr, ob Unternehmen eigene KI-Infrastruktur brauchen. Die Frage: Wann fangen sie an?



Dieser Artikel wurde mit Hilfe von KI erstellt. 

Ihr überlegt, ob ein lokales LLM für euch sinnvoll ist – oder wie ihr den Einstieg technisch und organisatorisch schaffen könnt? Lasst uns einfach darüber sprechen. Kein Pitch, kein Sales-Talk – nur ein ehrlicher Austausch über Möglichkeiten, Grenzen und nächste Schritte. Gemeinsam finden wir heraus, was in eurer Situation wirklich sinnvoll und machbar ist.

Projekt-Liveticker (KI inside)

KI-gestützt und voll automatisiert: Entdeckt hier aktuelle Projekte und Aufgaben unsere Mitarbeiter. Einblicke in unsere Arbeit direkt auf der Website.

Erfahrt mehr

KEMWEB wird robotspaceship!

Unleashing the power of Innovation