Projekt-Liveticker (KI inside)
KI-gestützt und voll automatisiert: Entdeckt hier aktuelle Projekte und Aufgaben unsere Mitarbeiter. Einblicke in unsere Arbeit direkt auf der Website.
Erfahrt mehrEin Werkstattbericht, wie wir unser eigenes KI-System aufgesetzt haben - und welche Erfahrungen ihr für euer Unternehmen mitnehmen könnt.
Vor einigen Monaten gab es für uns einen Moment, der ein Game-Changer war:
Unser Entwickler Michael hatte zum ersten Mal Ollama – eine Software zum Betreiben von KI-Modellen auf eigenen Servern – installiert und das erste Large Language Model (LLM) geladen.
Er stelle eine Testfrage … und nach drei Sekunden stand die Antwort da.
Auf unserer eigenen Hardware. Ohne monatliche Rechnung. Ohne API-Key. Ohne Datentransfer zu irgendeinem Cloud-Anbieter.
Dieser Moment machte uns klar: Dass Unternehmen sich von Cloud-KI-Anbietern abhängig machen, ist keine Naturgewalt. Es ist eine Entscheidung.
Wir wollen mit euch in einem Werkstattbericht unsere Erkenntnisse teilen, die wir bisher gesammelt haben – und warum wir glauben, dass die Entscheidung für ein lokales LLM vielen Unternehmen in Zukunft immer leichter fallen wird.
Wir testen ständig neue KI-Tools, um Know-how und Skills aufzubauen, die wir an Menschen in Organisationen weitergeben können. Gleichzeitig sehen wir die Risiken und Barrieren im Bereich Datenschutz, an denen viele KI Use Cases und Projekte bei unseren Kund:innen scheitern.
Deshalb experimentiert unser Team intensiv mit lokalen LLMs. Eine echte Alternative, seit technologische Fortschritte es ermöglichen, leistungsstärkere Sprachmodelle mit immer günstigerer Hardware aufzusetzen.
Aktuell experimentieren wir mit verschiedenen Anwendungsfällen: Content-Recherche automatisieren, Code-Reviews beschleunigen, internes Wissen zugänglich machen. Noch ist nicht alles perfekt. Aber schon jetzt ist klar: Die Kontrolle über unsere KI-Infrastruktur verändert, was möglich ist.
ChatGPT, Claude, Gemini – die Preislisten sehen erst mal überschaubar aus. Ein paar Euro pro Nutzer, skalierbar, keine Anfangsinvestition. Doch ein mittelständisches Unternehmen mit 50 Mitarbeitenden zahlt für einen ChatGPT Business-Plan 1.250 $ im Monat (Stand November 2025). Das sind 15.000 $ im Jahr. Jedes Jahr.
Dazu kommen die nicht sofort offensichtlichen Kosten:
Ein Beispiel: GitHub Copilot führte 2025 ein neues Pricing-Modell mit limitierten „Premium Requests" ein. Wer mehr will, zahlt extra. Wer seine Workflows darauf aufgebaut hatte, schluckt die Mehrkosten oder steht vor einer aufwändigen Migration.
Das ist der klassische Vendor-Lock-in: Mit jedem Tag, den ihr das System nutzt, wird der Ausstieg schwieriger und teurer.
Krass ausgedrückt: Bei Cloud-KI zahlt man als Unternehmen nicht für Nutzung. Man zahlt für wachsende Abhängigkeit.
Im März 2023 passierte, was nicht passieren darf: ChatGPT-Nutzer erhielten Zugriff auf fremde Chat-Historien. Sensible Unternehmensdaten, strategische Überlegungen, vertrauliche Anfragen – alles lag offen. Die Reaktion von OpenAI? Ein Blogpost, eine Entschuldigung, weiter geht's. Bis zum nächsten Mal.
Für uns war das damals schon ein Weckruf. Wir erkannten: Bei Cloud-Anbietern sind eure Daten nur ein Datenleck von der Öffentlichkeit entfernt.
Mit einem lokalen LLM ist das anders. Die Daten verlassen niemals euer Netzwerk. Es gibt keine versteckten Trainingsklauseln in den AGB, keine ungewollte Weitergabe, keine Datenlecks bei Dritten. Die Audit-Logs liegen auf euren Servern. Die Kontrolle liegt bei euch.
Das eröffnet völlig neue Möglichkeiten. Kliniken können Patientendaten analysieren. Anwaltskanzleien können vertrauliche Mandate bearbeiten. Banken können Kundentransaktionen auswerten. Alles DSGVO-konform, alles unter eigener Kontrolle.
Michael fasst das Potenzial zusammen: „Ein lokales LLM ermöglicht es uns jetzt endlich, unsere eigenen Daten mit KI zu verarbeiten. Und perspektivisch auch die unserer Kund:innen."
Eine neue Version eines LLMs bedeutet in der Regel einen geänderten Output. Eine Studie der Stanford University und UC Berkeley dokumentierte 2023, wie drastisch sich die Performance von GPT-Modellen über Zeit veränderte. GPT-4 erreichte im März 2023 noch 84 % Genauigkeit bei mathematischen Aufgaben – im Juni nur noch 51 %. Hunderte Unternehmen mussten ihre Prompts überarbeiten. Workflows, die stabil liefen, produzierten plötzlich andere Ergebnisse. Ein Ereignis, das sich jederzeit wiederholen kann.
Bei einem lokalen LLM passiert das nicht. Ihr entscheidet, wann und ob ein Update eingespielt wird. Ihr könnt alte Modell-Versionen parallel weiterlaufen lassen. Ihr habt eine Testumgebung, in der neue Modelle geprüft werden, bevor sie in Produktion gehen.
Diese Kontrolle ist mehr als nur ein technisches Detail. Es ist die Grundlage für verlässliche Geschäftsprozesse. Ein kritischer Workflow, der seit Monaten stabil läuft, läuft auch in einem Jahr noch stabil. Keine bösen Überraschungen, keine nächtlichen Hotfixes, keine panischen Anrufe von Teams oder Kund:innen, weil die KI plötzlich Fantasiedaten ausspuckt.
Ein großes Sprachmodell – die KI hinter ChatGPT, Claude und Co. Stellt es euch wie ein extrem belesenes Gehirn vor, das Milliarden von Texten gelesen hat und daraus Muster gelernt hat. Es kann dadurch sinnvolle Texte generieren, Fragen beantworten und Code schreiben.
Viele nennen lokale KI-Modelle „Open Source" – das ist aber mindestens irreführend. Wirklich Open Source wären sie nur mit Zugang zu den Trainingsdaten und Infos über das Training selbst. Das gibt's fast nie.
Präziser ist „Open Weights": Ihr könnt die Parameter des Modells herunterladen und auf eigener Hardware laufen lassen. Wir sagen einfach „lokale Modelle“ – das macht klar: Läuft auf euren Servern, ihr habt die volle Kontrolle.
Eine Software, die verschiedene KI-Modelle auf eurem Server verwaltet. Wie ein App Store für LLMs – ihr ladet das gewünschte Modell herunter und könnt es sofort nutzen. Der große Vorteil: Alle Modelle laufen über die gleiche Schnittstelle.Eine Software, die verschiedene KI-Modelle auf eurem Server verwaltet. Wie ein App Store für LLMs – ihr ladet das gewünschte Modell herunter und könnt es sofort nutzen. Der große Vorteil: Alle Modelle laufen über die gleiche Schnittstelle.
Die kleinste Einheit, in der KI Text verarbeitet. Ein Token ist etwa ein Wort oder Wortteil. Wenn von „128k-Token-Kontext“ die Rede ist, bedeutet das: Die KI kann sich etwa 100.000 Wörter auf einmal „merken“ – ungefähr ein ganzes Buch.
Der Prozess, ein KI-Modell bereitzustellen und nutzbar zu machen. Ollama übernimmt das für euch – Modell herunterladen, in den Speicher laden, API bereitstellen. Fertig.
Der Arbeitsspeicher eurer Grafikkarte. Hier wird das komplette KI-Modell reingeladen. Je größer das Modell, desto mehr VRAM braucht ihr. Faustregel: Ein 7-Milliarden-Parameter-Modell braucht etwa 8 GB, ein 70-Milliarden-Modell mindestens 40 GB.
Die Schnittstelle, über die verschiedene Programme miteinander kommunizieren. Wie eine gemeinsame Sprache zwischen Systemen. Bei uns sprechen die Automatisierungsplattform und das Web-Interface über APIs mit der KI – standardisiert und sicher.
KI in eure Geschäftsprozesse einbauen. Beispiel: Eine E-Mail kommt rein, die KI analysiert den Inhalt, erstellt einen Entwurf für die Antwort und legt ihn zur Freigabe vor. Alles automatisch.
Die technologische Basis (kurz: Tech Stack) unseres lokalen LLMs ist bewusst pragmatisch gewählt. Keine überteuerte Enterprise-Software, keine proprietären Lösungen.
Stattdessen setzen wir auf echte Open-Source-Tools für die Infrastruktur und eine kommerzielle Workflow-Engine:
Ollama macht den Anfang. Stellt es euch wie eine App-Verwaltung für KI-Modelle vor: Ein schlanker Service, der verschiedene KI-Modelle lädt, verwaltet und nutzbar macht. Ein Befehl, und das gewünschte Modell läuft. Kein kompliziertes Setup, keine Versionskonflikte.
Open-WebUI ist unser Interface. Eine Web-Oberfläche, die aussieht wie ChatGPT, aber auf eurem Server läuft. Das Team muss sich beim Anwenden nicht umstellen, bekommt aber die volle Kontrolle über die Daten.
n8n orchestriert die Workflows. Als einzige kommerzielle Software in unserem Stack ist n8n eine Automatisierungsplattform, die KI mit anderen Systemen verbindet. KI-Antworten triggern automatisch weitere Aktionen: Datenbanken werden abgefragt, E-Mails verschickt, Dokumente erstellt.
Wichtig: n8n läuft bei uns verschlüsselt und ist vom Internet aus nur über einen abgesicherten Zugang erreichbar. Michael erklärt die Überlegung dahinter: „Wir erlauben den Zugriff von außen nur auf die geschützte n8n-API, die für externe Workflows benötigt wird. Die LLMs, Ollama und Open-WebUI sind dagegen überhaupt nicht vom Internet aus erreichbar."
Die gute Nachricht zuerst: Für erste Experimente reicht eine Gaming-Grafikkarte. Also ein Grafikprozessor (GPU), der normalerweise für Videospiele gedacht sind. Wir haben mit einer GeForce RTX angefangen und gute Erfahrungen gemacht. Die Antworten kamen schnell, die Modelle liefen stabil.
Die Realität für anspruchsvollere Produktivumgebungen eines Unternehmens sieht natürlich anders aus. Michael empfiehlt klar:
„Wer täglich mit mehreren Teams arbeitet und verschiedene KI-Modelle parallel nutzen will, sollte ein professionelles Hardware-Setup mit einer Nvidia A100 oder A6000 einsetzen.“
Diese Profi-Karten haben zwar ein schlechteres Preis-Leistungs-Verhältnis, aber sie laufen stabiler, stromsparender und – das ist entscheidend – haben wesentlich mehr VRAM.
Video Random Access Memory (VRAM) ist der Arbeitsspeicher der Grafikkarte, in dem die KI-Modelle geladen werden. Je mehr davon, desto größere und leistungsfähigere Modelle passen rein. Eine A100 bringt schon mindestens 80 GB mit. Zum Vergleich: Eine Gaming-Karte hat meist 12-24 GB. Ein großes Llama-70B-Modell braucht allein 40 GB. Wollt ihr mehrere Modelle parallel laufen lassen – etwa ein Text-Modell und ein Code-Modell – addiert sich der Bedarf schnell.
Für euren eigenen Einstieg reicht also oft schon eine starke Gaming-Karte. Wenn ihr aber mehrere Teams oder Use Cases parallel betreibt, lohnt sich Profi-Hardware – weniger Frust, mehr Stabilität. So bleibt das System auch bei hoher Auslastung verlässlich.
Michael hat es dokumentiert: Von null auf funktionierendes Test-System in einer halben Stunde. Das zeigt, dass das ganze Thema lokales LLM keine Raketenwissenschaft mehr ist.
Der Basis-Test läuft schnell:
Wichtig: Das war der Proof of Concept. Ein „Ja, es funktioniert“.
Die produktive Integration ist eine andere Geschichte. Michael erinnert sich: „Die Einbindung ins Firmennetzwerk mit sicheren Verbindungen und die Integration in unsere Arbeitsabläufe – das war die echte Arbeit." Rechnet mit Tagen bis Wochen für sichere Netzwerkanbindung, Zugriffsverwaltung und Workflow-Integration.
Aber: Die technische Basis steht in 30 Minuten. Das nimmt die Angst vor dem Anfang.
„Aber was ist mit dem Datenschutz?“ Diese Frage kennt ihr. Sie kommt in jedem Gespräch oder Meeting, bei dem es um KI-Projekte geht. Und sie stoppt die meisten Innovationen, bevor sie überhaupt eine Chance haben.
Bei Cloud-KI ist die Antwort auf die Datenschutzfrage kompliziert: Auftragsverarbeitungsverträge mit US-Konzernen, Standardvertragsklauseln, Schrems-II-Diskussionen, unklare Datenflüsse. Am Ende bleibt ein ungutes Gefühl oder ein: „Lasst es uns lieber lassen.“
Bei einem lokalen LLM dreht sich alles um: Plötzlich ist Datenschutz kein Hindernis mehr, sondern das stärkste Verkaufsargument der KI-Lösung.
Technisch: Unser KI-Server ist wie ein Tresor. Von außen nur über verschlüsselte Verbindungen erreichbar, von innen strikt kontrolliert. Die Daten verlassen niemals unser Netzwerk.
Organisatorisch: Klare Regeln, wer was darf. KI-generierte Dokumente werden geprüft, bevor sie raus gehen. Sensible Daten bleiben tabu. Einfache Prinzipien, die jeder versteht.
Ein lokales LLM ist eine Möglichkeitsmaschine für jedes KI-Projekt, das in irgendeiner Weise persönliche oder sensible Daten verarbeiten soll. Michael fasst es so zusammen: „Wir können Projekte umsetzen, die mit Cloud-KI schlicht unmöglich wären.“
Anfangs wollten wir das eine perfekte Modell für alles. Gibt es nicht. Stattdessen fahren wir jetzt mehrgleisig je Funktion: ein Modell für Textverarbeitung, eines für Code-Generierung. Michael erklärt die Überlegung: " Man sollte für Text ein Text-Modell nehmen, für Bildbearbeitung ein Vision-Modell und für API-Antworten ein Code-Modell, dann müssen aber auch alle 3 ständig im Grafikkartenspeicher geladen sein."
Ehrlich gesagt, hatten wir bei unserem lokalen LLM mit Kompromissen gerechnet. Langsame Antworten, schlechtere Qualität. Michael wurde positiv überrascht: „Auch komplexere Antworten werden nach wenigen Sekunden ausgegeben.“ Die Geschwindigkeit steht Cloud-Lösungen in nichts nach.
In einer professionellen Umgebung solltet ihr Änderungen koordiniert durchführen. Neue Modelle testen, Verbesserungen einspielen – all das braucht Zeit und Planung. Datensicherung und Rollback-Strategien sind essenziell für den Produktivbetrieb.
Wir sind noch mittendrin im Testen und Lernen. Aktuell konzentrieren wir uns auf drei Bereiche:
Aus vielen Gesprächen mit Teilnehmenden unserer KI-Formate und unseren Kund:innen kennen wir den größten Schmerzpunkten von Cloud-KI: sensible Daten. Genau hier zeigen wir in unterschiedlichsten Bereichen ein lokales LLM als Startpunkt für eine sichere Realisierung auf:
Wir sind ehrlich: Noch läuft nicht alles rund bei unseren Experimenten und eigenen Use Cases. Manche Modelle verstehen den Kontext nicht richtig, andere erfinden Informationen. Die Integration in bestehende Systeme braucht Zeit. Und ja, manchmal muss neu gestartet werden.
Aber: Jede Woche wird es besser. Jedes neue Modell bringt Fortschritte. Das Wichtigste ist, dass wir lernen, was funktioniert und was nicht. Auf unseren eigenen Servern, mit unseren eigenen Daten. Das Know-how bleibt im Haus.
Die letzten Monate haben uns gezeigt, wie schnell sich der Einsatz von KI verändern kann, sobald man die Technologie selbst in der Hand hat.
Was passiert, wenn Unternehmen ihre KI-Infrastruktur wirklich selbst betreiben? Mit unseren Experimenten mit lokalen LLMs haben wir uns auf den Weg gemacht, diese Frage zu beantworten.
Folgende Lernerfahrungen haben wir mit euch in diesem Werkstattbericht geteilt:
Wenn wir von lokalen LLMs sprechen, meinen wir mehr als nur Server im Keller. „Lokal“ kann heißen:
In allen Fällen gilt: Die Daten bleiben unter eurer Kontrolle, Updates sind planbar und der Exit ist jederzeit möglich. Lokal bedeutet, dass ihr entscheidet, wer Zugriff hat und wer nicht.
Aber: "Lokal" schließt Cloud nicht aus! In vielen Projekten kann die Kombination aus lokalen und cloudbasierten LLMs der beste Weg sein. Nutzt die Cloud dort, wo ihr flexibel skalieren wollt und keine sensiblen Daten verarbeitet. Setzt die lokale Variante gezielt dort ein, wo Vertraulichkeit, Stabilität oder regulatorische Sicherheit zählen.
Kurz gesagt: Cloud, wo sinnvoll. Lokal, wo nötig.
Wir stehen erst am Anfang einer neuen Phase: Unternehmen holen ihre KI-Infrastruktur zurück – selbst oder gemeinsam mit Partnern, aber immer souverän.
Ein lokales LLM ist keine technische Spielerei, sondern ein strategischer Schritt zu Stabilität, Sicherheit und echtem KI-Wissen im eigenen Haus.
Unser Entwickler Michael hat hier eine klare Vision: „Die Unternehmen, die wirklich Automationen und KI-Workflows benutzen, werden das lokal machen. Alles andere wäre teuer, würde das Kundenvertrauen zerstören und eventuell nicht mehr funktionieren, wenn das Modell, auf das man gebaut hat, plötzlich nicht mehr zur Verfügung steht."
Die Frage ist nicht mehr, ob Unternehmen eigene KI-Infrastruktur brauchen. Die Frage: Wann fangen sie an?
Dieser Artikel wurde mit Hilfe von KI erstellt.
Ihr überlegt, ob ein lokales LLM für euch sinnvoll ist – oder wie ihr den Einstieg technisch und organisatorisch schaffen könnt? Lasst uns einfach darüber sprechen. Kein Pitch, kein Sales-Talk – nur ein ehrlicher Austausch über Möglichkeiten, Grenzen und nächste Schritte. Gemeinsam finden wir heraus, was in eurer Situation wirklich sinnvoll und machbar ist.
KI-gestützt und voll automatisiert: Entdeckt hier aktuelle Projekte und Aufgaben unsere Mitarbeiter. Einblicke in unsere Arbeit direkt auf der Website.
Erfahrt mehr