Lokale LLMs sind im Grunde Modelle, die wie ihre Brüder in der Cloud genutzt werden können. Statt über eine API, also über eine Schnittstelle in die Cloud der Anbieter, können diese Modelle lokal (on Premise) ausgeführt werden. Dies kann beispielsweise auf dem PC des Anwenders geschehen, aber auch auf einem internen Server, der im Grunde ähnlich wie die API der grossen Anbieter funktionieren kann. In der Geschäftswelt, wo eine zunehmende Transformation in die Cloud vorangetrieben wird, kann man sich berechtigterweise die Frage stellen, wie dieses Puzzleteil in das Gesamtbild fortschrittlicher Unternehmenstransformationen passen soll. Es gibt jedoch entscheidende Vorteile, die für bestimmte Use-Cases erfolgskritisch sind:
Bedingungsloser Datenschutz: Da beim Ausführen von lokalen Modellen alles „offline" geschieht, gelangen keine Daten an externe Unternehmen. Dies ist insbesondere von Wichtigkeit, falls es sich um hochsensitive Kundendaten oder internes geistiges Eigentum handelt, welche auf keinen Fall nach aussen gelangen sollten, oder wo eine Weitergabe an Dritte mit hohen rechtlichen Hürden verbunden ist, zum Beispiel durch Regularien wie der DSGVO.
Keine Abhängigkeit: Die Abhängigkeit von grossen Cloud Anbietern wird umgangen. Du hast die freie Wahl, welches Modell du für was und wie einsetzt. Im Rahmen der Möglichkeiten der lokalen Modelle entscheidet nur dein Unternehmen – es gibt niemanden der dir reinredet oder mitbestimmt, keine Geschäftsbedingungen die sich ändern oder das Angebot in anderer Weise beeinflusst. Zudem besteht die Möglichkeit dank Open Source Frameworks wie OLLAMA, stetig die neusten und performantesten Modelle zu nutzen, ohne einen Anbieterwechsel vollführen zu müssen.
Keine Abonnementgebühren: Die Kosten für die Nutzung von Large Language Models für Unternehmen können sich schnell aufsummieren, da zwar eine einzelne API-Anfrage meist nur wenig kostet, sich diese Ausgaben jedoch rasch addieren können. Bei Business-SaaS (Software as a Service) Angeboten, besteht oft die Notwendigkeit pro Nutzer zu bezahlen. Bei lokalen LLM hingegen, liefert eine einmalige Investition über eine lange Zeit entsprechende Ressourcen, die lediglich durch die Limitierungen der Hardware und die Fähigkeiten der Modelle begrenzt sind.
Die technologischen Fortschritte, insbesondere der letzten Monate, haben die Grösse der Modelle reduziert, während die Fähigkeiten drastisch gestiegen sind. Kleinere Modelle werden beispielsweise aus grossen Modellen destilliert, einem Prozess, bei dem ein grösseres Modell ein kleineres Modell trainiert und somit die Essenz der Fähigkeiten trotz kleinerer Grösse weitestgehend beibehalten kann – ähnlich wie beim Komprimieren eines Bildes. Zudem gibt es Modelle, die sich auf spezielle Anwendungsfälle spezialisiert haben, zum Beispiel fürs Programmieren. Auch besteht die Möglichkeit, ein Modell mit Trainingsdaten feinabzustimmen („Finetuning"), um es auf bestimmte Anwendungsfälle im Unternehmen zu spezialisieren.