llama Sinn und Unsinn?

peterle

Forenkasper
Wer spielt denn alles mit llama und was macht ihr damit?
Ich bislang nichts. War aber neugierig und das gewählte Modell ist nicht ganz deutsch kompatibel. Es bricht Sätze ab und erzählt Unsinn. Dieselbe Frage in englisch gestellt, wird korrekt und vollständig beantwortet.

Meine Grundidee war eine Art Copilot zu basteln, um nicht unzählige Infos ins Netz zu schicken.
 
Sinn! :) Ich spiele seit den ersten guten freien Modellen ca. Anfang 2023 mit lokalen LLMs und muss sagen, dass die Sache 2025 einen gewaltigen Sprung nach vorne gemacht hat. Im Frühjahr 2025 Gemma 3, im Sommer gpt-oss und das ganze Jahr über vor allem Alibaba mit einer erschlagenden Menge kleiner Gwen-Modellen. Dazu eine Unmenge Destillate, Spezialisierungen und so weiter durch die Community. HuggingFace hat inzwischen mehr Modelle, als man realistisch gesehen jemals ausprobieren kann.

Ich hatte meine aktuelle Generation Hardware letztes Jahr sogar größer als geplant dimensioniert, um mit LLMs rumspielen zu können. Die Radeon 9070 XT bringt einen schon sehr weit, gerade da auch ROCm im letzten Jahr massive Fortschritte gemacht hat. Aus Anwendersicht vor allem in Sachen Geschwindigkeit, zusammen mit Verbesserungen in llama.cpp haben sich die Tokens pro Sekunde verfielfacht. Dazu damals nicht allzu teure und izwischen obszön luxoriöse 96 Gigabyte RAM, womit man auch relativ gesehen große Modelle ausführen kann. Wobei es schon merklich auf die Geschwindigkeit schlägt, wenn nicht alle Layer im VRAM liegen.

Faszinierend, aber sinnlos sind für mich Rollenspiele. Es ist erstaunlich, wie glaubwürdige Figuren Silly Tavern mit spezialisierten Rollenspielmodellen erschaffen kann. Und wie konsistent sie inzwischen in ihrer Rolle bleiben. Da versteht man schnell, wieso gefühlt immer mehr Menschen der Spiral verfallen.

Bei den produktiveren Dingen helfen mir LLMs vor allem Problemlösungen. Es hat mir beim Entwickeln von Ideen immer geholfen, mit jemanden darüber sprechen zu können und LLMs können die Rolle dieses Jemands inzwischen erschreckend gut übernehmen. Wobei man die Grenzen der eher kleinen lokalen Modelle kennen sollte Mit ausreichend Rechenleistung in Form großer Context Windows ist ihr Reasoning inzwischen zwar äußerst gut, aber es fehlt ihnen prinzipbedingt mangels Parametern an Wissen. Da LLMs immer irgendwas antworten, beginnen sie stark zu halluzinieren, sobald man die Bereiche ihre Trainings verlässt. Dem LLM Internetzugriff zu geben und es recherchieren zu lassen, hilft nur bedingt. Wie gut es klappt, ist wiederum von Modell abhängig.

Programmierung habe ich nur wenig gemacht. Vibecoding kann man mit kleinen lokalen Modellen noch mehr als mit Cloudmodellen vergessen. Praktisch sind spezielle Codingmodelle als Snippet-Engine auf Steroiden oder um Code in natürlicher Sprache zusammenzufassen. Mit exponentiell steigender Fehlerrate bei zunehmender Codekomplexität.

Generell muss man sich aber darüber im klaren sein, dass nicht nur kleine Modelle drastische Fortschritte gemacht habe. Die wirklich großen Cloudmodelle wie Claude Opus 4.5 oder GPT 5.2 sind eine ganz andere Klasse. Neben den diversen ethischen Problemen und Datenschutzbedenken allerdings auch extrem teuer. Eine gute Alternative ist China-KI über OpenRouter. DeepSeek 3.2 ist zum Beispiel pro Millionen Token so unglaublich günstig, dass man dafür lokal bei wesentlich kleineren Modellen nicht mal den Strom bekommt. Selbst wenn man durch Ausschluss von Training auf den übermittelten Daten in die höhere Preisregion kommt. Interessant finde ich gerade auch Moxies (hat u.a. den Signal Messenger gebaut) Confer als Ansatz vollständig verschlüsselter bzw. vertrauenswürdiger Cloud-KI. Aber das ist noch ganz am Anfang.
 
llama.cpp haben sich die Tokens pro Sekunde verfielfacht
Ergänzung:
Ja. llama.cpp funktioniert anständig. Insbesondere wenn man auf CPU-Inference angewiesen ist. Und mit Quanisierung (also runterrechnen des Modells auf weniger Genauigkeit) lässt sich auch gut Geschwindigkeit rausholen und RAM-Bedarf senken. Insbesondere Q8-Quantisierung lohnt sich eigentlich immer, weil man i.d.R. kaum Qualitätsverlust hat.

llama.cpp ist allerdings auf GGUF-Dateien angewiesen. Man kann oftmals konvertieren. Unter https://huggingface.co/unsloth findet man aber viele freie Modelle als GGUF-Dateien schon fertig konvertiert und auch quantisiert.
Hier mal exemplarisch qwen3-Next-80B-A3B-Instruct oder auch gpt-oss-20b, falls man eher klein anfangen will. :-)

Eine Alternative zu llama.cpp ist ollama. Das basiert auf llama.cpp ist aber die Einsteigshürde ist ein wenig kleiner. Insbesondere dann, wenn es darum geht, lokale Dateien mit einzubeziehen und die sozusagen via LLM abfragbar zu machen.

Hinweis zu CPU-Inference:
Je nach System kann es sein, das stumpf alle CPU-Kerne zuweisen nicht die beste Performance bringt.

Man muss bei lokalen Modellen zwar Abstriche machen, weil die großen Modelle der kommerziellen Anbieter natürlich deutlich größer sind.
Aber wenn Privacy ein wichtiger Aspekt ist, dann ist lokal alternativlos. Außerdem findet man unter den offenen Modellen auch eher mal weniger zensierte Modelle. GPT und Co sind i.d.R. vergleichsweise restriktiv, was auch nicht verwunderlich ist. Die kriegen dann gern mal schlechte Presse a-la "Depressiver Teenager wurde von Modell zum Sprung ermutigt" u.ä.

Ergänzung:
Wobei Wissen ohnehin nicht die Stärke von LLMs sind. Das Grundprinzip ist vielmehr, Sprache verarbeiten zu können und darin sind sie gut. Das sie zufällig auch noch Wissen haben ist eher ein Nebeneffekt, weil für das Sprachverständnis eben sehr viel Texte als Trainingsmaterial verwendet wurde. Und quasi über den Weg wurde quasi auch Wissen in die Modelle transferiert. Aber es ist jetzt nicht so, das die verlässlich Fakten ausspucken können. Auch wenn sie dafür gerne mal benutzt werden.

Aber so für mehr oder weniger phantasievolle Textgenerierung (wie das genannte Beispiel Rollenspiel) da funktionieren sie gut.
Oder auch Aufgaben wie: "Lese den Text für mich und gib mir eine Zusammenfassung".
Oder auch: "Ich möchte einen Text schreiben und X,Y und Z will ich damit sagen" usw.

Generell sollte man Sprachmodelle aber weniger als Experten begreifen, sondern als Praktikanten, an dem man den Boilerplateanteil der Arbeit delegieren kann.
Und es befreit einem auch nicht davon Know-How zu haben.
Sowas wie "Wir werfen unsere Programmier raus denn, denn unseren Kram kann künftig unsere Sekretärin vibe-coden" wird eher nicht funktionieren.

Dem LLM Internetzugriff zu geben und es recherchieren zu lassen, hilft nur bedingt.
Vor allem bringt das zwei Security-Probleme mitsich. Zum einen potentiell data-leakage. Zum anderen kann halt eine fiese Internetseite auch irgendwas ins Modell injecten.
Man untergräbt somit ein bisschen das Ziel, was man hat, wenn man lokale Modelle betreibt.

Confer als Ansatz vollständig verschlüsselter bzw. vertrauenswürdiger Cloud-KI. Aber das ist noch ganz am Anfang.
Wobei ich mich frage, wie das funktionieren soll. Also das die Cloud Daten verarbeiten kann, die verschlüsselt sind. Es ist ja nicht so, das eine 1:1 Beziehung zwischen Daten und deren verschlüsselten Gegenpart existiert bzw. wenn die existieren würde, wäre das ja eher ein Hinweis auf schlechte Verschlüsselung.

Der Taschenspielertrick besteht bei solchen Systemen darin, das man irgendwelche speziell gesicherte Hardware hat die (angeblich) von außen nicht zugreifbar ist. Das Problem dabei ist: Solange die Hardware nicht unter Deiner Kontrolle ist, kann da natürlich beliebig dran herum manipuliert oder die sogar als virtuelle Umgebung bereit gestellt werden ohne das Du von außen sehen kannst, ob da alles mit rechten Dingen zugeht.

Und das ist dann auch das, was mich daran ärgert. Denn: beworben wird Confidential Computing mit "Du musst den Cloudanbieter nicht mehr vertrauen". Das kriegt man damit aber gar nicht realisiert. Man kriegt allenfalls ein paar Angriffsvektoren weg.

Insofern ist es aus meiner Sicht ziemliche Augenwischerei.

Lustig bei Confer: Oben drüber schreiben die "Private AI" und unten drunter ist ein fetter "Sign-in with Google" - Button.
Genau mein Humor. :-)
 
Zuletzt bearbeitet:
Allgemein sind meine Erfahrungen mit KI Systemen gemischt. Von "Es hat mir die perfekte Antwort gegeben" bis "Ich habe 30min damit verschwendet auf eine sinnvolle Antwort hinzuarbeiten". Allgemein sehe ich, dass bei neuen Problemen KIs so ihre Probleme haben. StackOverflow ist nicht mehr mit Antworten gefüllt, weil da "keiner" mehr fragt. Dann stammeln sie auch nur noch sinnloses und schwammiges Zeug vor sich hin. Aber am Ende hängt es vom Thema ab. Will man HTML, CSS und JavaScript lernen ist eine KI wesentlich hilfreicher, als bei Dingen wie z.B. Zig.

Auch wenn man es dem Nutzer gerne andrehen will ("CoPilot PC"): Sinnvolle lokale Ausführung von KIs sehe ich aktuell noch kritisch bis sinnfrei. Die meisten Dinge die ich ausprobiert habe, die auch mit 16GB RAM gehen, geben bei nicht-trivialen Fragen echt schlechte Antworten.

Alles was bei mir halbwegs sinnvoll funktioniert braucht >80GB RAM, egal ob Sprachmodell oder Bildgenerator. Und Sprachmodelle schreiben dann trotz Ryzen 9950X3D mit 1-2 Wörtern pro Sekunde. Und nebenbei ist der PC fast unbenutzbar langsam für andere Dinge, weil RAM voll und CPU ausgelastet. Also so aus Spaß sicherlich nutzbar, aber als lokalen Coding-Assistent will man vermutlich nicht 5-10min auf die Antwort warten. Gibt auch schnellere Modelle, aber so ein qwen3-coder hat dann auch oft genug angefangen einfach sinnlose Zahlenfolgen zu schreiben und damit nie aufgehört :D

Ich weiß CPUs mit RAM on Package (Apple M CPUs, AMD Strix Halo) sind dort schneller, weil mehr RAM Bandbreite. Aber so locker flockig nebenbei mit vollem RAM macht man auch dann nebenbei auch nichts anderes. Und alle anderen Alternativen sind quasi unbezahlbar für den Heimgebrauch.

Kann natürlich jeder für sich selbst ausprobieren, aber ich denke, wenn man nicht gerade einen dicken GPU Cluster mit einem TB VRAM im Keller hat, dann wird man von einem lokalen "CoPilot PC" eher enttäuscht.

Aber die Geschichte wiederholt sich. Es geht zurück zum "Mainframe".
 
Der Taschenspielertrick besteht bei solchen Systemen darin, das man irgendwelche speziell gesicherte Hardware hat die (angeblich) von außen nicht zugreifbar ist. Das Problem dabei ist: Solange die Hardware nicht unter Deiner Kontrolle ist, kann da natürlich beliebig dran herum manipuliert oder die sogar als virtuelle Umgebung bereit gestellt werden ohne das Du von außen sehen kannst, ob da alles mit rechten Dingen zugeht.

Und das ist dann auch das, was mich daran ärgert. Denn: beworben wird Confidential Computing mit "Du musst den Cloudanbieter nicht mehr vertrauen". Das kriegt man damit aber gar nicht realisiert. Man kriegt allenfalls ein paar Angriffsvektoren weg.
https://confer.to/blog/2026/01/private-inference/ beschreibt es. Ich sehe da möglich Angriffsvektoren, aber insgesamt dürfte es schon wesentlich vertrauenswürdiger als so mancher andere LLM-Service sein. Meine Pläne zum Gewinn der nächsten US-Prädentschaftswahlen würde ich nun nicht darein werfen, aber für den unkrtischen Wald- und Wiesenkram dürfte es okay sein. Die Frage ist eher, wie Confer Geld verdienen möchte. LLMs zu hosten ist irre teuer und einen belastbaren Weg zu Monetarisierung sehe ich da noch weniger als bei den großen Anbietern am Markt.
 
Sinnvolle lokale Ausführung von KIs sehe ich aktuell noch kritisch bis sinnfrei.
Sagen wir mal so:
Es macht sich gut, spezialisierte und dafür kleinere Modelle zu nutzen. Die bekommt man dann auch in akzeptabler Performance zum laufen.
Generel Purpose Modelle sind meist recht groß und langsam. Und selbst da macht man es aus Performancegründen ja schon eine ganze Weile so, das man die unterteilt, in dem man spezialisierte Modelle kombiniert (Stichwort: Mixture-of-Experts).

Aber ja. In gewisser Weise erzwingen derzeit LLM und Co eine Abhängigkeit. Trotz allgegenwärtiger Cloud kann man immer noch alles irgendwie selber betreiben. Bei dem KI-Krempel ist das anders. Selbst der reine Betrieb fertiger Modelle hat ja schon große Vorraussetzungen. An sowas wie Training etc. ist gar nicht zu denken.

Wir haben ja jetzt schon eine viel zu starke Zentralisierung des Internets. Und LLMs (und vergleichbare Systeme) werden den Effekt noch verstärken.

StackOverflow ist nicht mehr mit Antworten gefüllt, weil da "keiner" mehr fragt.
Ja. Wobei es ja vielleicht auch tendenziell gar nicht so schlecht ist, wenn eine solche Plattform mit Fragen geflutet wird die schon zig mal in allen möglichen Abwandlungen gestellt wurden. Und das da die KIs beliebter sind, liegt auf der Hand. Die ermöglichen eine Echtzeit-Interaktivität, bei der man auch nachfragen stellen kann.
Ich hätte jetzt vermutet, das sich dann bei stackoverflow.com und ähnlichen Plattformen eher Fragen/Antworten aus Bereichen kommen, die eben nicht so verbreitet sind.
Aber klar. Das aufkommen von (sogenannten) KIs ist auf jeden Fall eine Herausforderung für stackoverflow und für Websites im allgemeinen. Weil diese KIs eben immer mehr zum Frontend fürs Internet wird. Man kann das auch sehr schön an der Entwicklung der WebBrowser sehen. Bisher ein Viewer für Websites. Und immer mehr eine LLM-gestützter Aggregator für Internetinhalte.

Das wird also allgemein sehr spannend, wie sich das weiter entwickelt. Weil viele klassische Geschäftsmodelle a-la "Leute besuchen unsere Seite und wir schalten darauf Werbung" dann nicht mehr funktionieren. Möglicherweise ist es in ein paar Jahren so, das es dann Inhalteanbieter gibt die nur noch (kostenpflichtige) APIs anbieten, um maschinlesbar Daten an die LLMs zu schicken. Und die Kunden haben dann ein kostenpflichtiges Abo bei den LLM-Betreibern.

Oder die finanzieren sich dadurch, in dem eingebettet in den Antworten die Werbung platziert wird.
So in der Art wie: "Wenn Du ein Regal an der Wand befestigen willst, musst Du zuerst ein Loch in die Wand bohren. Das bohren geht am besten mit dem Bosch-Bohrhammer 3000 den Du bei Amazon bestellen kannst, wenn Du hier drauf klickst" usw.

Vor allem aber ist es deshalb problematisch, weil Du ja keine Information mehr direkt bekommst ohne das es durch den KI-Filter geht. Den KI-Betreibern kommt deshalb eine noch höhere Macht zu als es die großen Tech-Konzerne wie Google und Co schon ohne dem hatten.

Also so aus Spaß sicherlich nutzbar, aber als lokalen Coding-Assistent will man vermutlich nicht 5-10min auf die Antwort warten.
Ja. Als Coding-Assistent sicherlich unschön. Aber wenns zum Beispiel darum geht, ein Video zu transkribieren und das lange dauert, dann lasse ich das in der Nacht laufen und gut ist.
Schlechte Performance ist nicht immer ein Ausschlusskritierium.

Ja. Wenn ich richtig verstanden hab, ist das in etwa das, was ich schon angedeutet hab:
Also das man auf der fremden Hardware dann doch entschlüsselt und auf den unverschlüsselten Daten arbeitet. Also nix mit "durchgehend verschlüsselt".
Das das im Ergebnis immer noch sicher ist als der LLM-Hoster vom Grabbeltisch, das würde ich und habe ich ja soweit auch schon eingeräumt.

Was man bei dem "man muss den Cloudanbieter vertrauen" ja auch immer beachten muss, das es ja nicht zwangsläufig darum geht, das das grundsätzlich eine bad company ist. Häufig führen ja auch einfach solche Sachen wie Konfigurationsfehler oder ein frustrierter/bestochener/erpresster/eingeschleuster Mitarbeiter Datenschutzproblemen.

Zudem macht man sich ja, wenn man mit Confidential computing wirbt, selbst zur Zielscheibe. Weil die bösen Buben wissen zwar: "Da gibts ein paar Hürden mehr als üblich". Aber die wissen eben auch: "Da werden wir höchstwahrscheinlich auch etwas abgreifen können, was sich wirklich lohnt".

und einen belastbaren Weg zu Monetarisierung sehe ich da noch weniger als bei den großen Anbietern am Markt
Ja. Das wird in der Tat noch spannend werden. Bisher ist es ja so, das es ein Hype ist und man investiert, um dabei zu sein. Ob und wann sich das Ganze auch wirklich lohnt, ist immer noch schwer abzuschätzen.
Vermutlich sehen wir gerade eine Blase die demnächst platzt und dann rüttelt sich alles zurecht und konsolidiert sich. Vielleicht so ähnlich, wie wir das ja auch mit dem Internet (dotcom-Blase) erlebt haben.
 
Ich habe noch nicht mit lokalen LLMs gemacht. Daher mal eine ganz grundsätzliche Frage: Was ist ein einfacher Einstieg - kennt Ihr gute Howtos oder Beispielanwendungen, die ich mal probieren und von denen ich mich dann weiterhangeln könnte? Wenn ich einige Beiträge hier lese, merke ich, wie wenig ich bisher verstehe: Quantisierung, GGUF, CPU-Inference sind mir allesamt unbekannt. Ich muss klein anfangen.
 
ich vermute mal, dass ein Modell alleine nichts bringt. Das Modell muss ja noch irgendwie trainiert und mit Infos gefuettert werden und woher bekommt es diese? Ich habe aber ehrlich gesagt auch noch nichts mit lokalen Modellen gemacht. Ich wuesste ehrlich gesagt auch nicht, was ich damit anfangen sollte. Es wird aber vermutlich genug Einsatzgebiete geben.
 
Ich muss klein anfangen.
Was für eine GPU hast du zur Verfügung? Du brauchst vor allem massig an VRAM und nein, 16GB VRAM ist nicht mehr viel in diesem Bereich.

Lossy-encodierung, damit man mit weniger VRAM hinkommt. Ähnlicher Vergleich wäre .png in .jpg kleindampfen, eben mit Verlust.


Will man meist nicht. Es sei denn, man hat brutal viele Kerne zur Verfügung, die die Leistung einer GPU outperformen würden. Bauchgefühlig muss man dann schon 128+ Kerne draufwerfen, definitiv im Bereich "was man daheim nicht hat". Aber ich weiß ja nicht, was bei dir im Keller so für feines Spielzeug brummt. ;)
 
Ich habe noch nicht mit lokalen LLMs gemacht. Daher mal eine ganz grundsätzliche Frage: Was ist ein einfacher Einstieg - kennt Ihr gute Howtos oder Beispielanwendungen, die ich mal probieren und von denen ich mich dann weiterhangeln könnte? Wenn ich einige Beiträge hier lese, merke ich, wie wenig ich bisher verstehe: Quantisierung, GGUF, CPU-Inference sind mir allesamt unbekannt. Ich muss klein anfangen.
Auch wenn es in der Szene aus verschiedenen Gründen eher unbeliebt ist: https://ollama.com/ Das ist eine Go-Anwendung mit minimalen Abhängigkeiten, die es unter FreeBSD und den meisten Linux-Distros aus den Paketen gibt. Gestartet läuft sie per Webinterface im lokalen Browser und ist ohne größere Vorkenntnisse zu bedienen. Vor allem bietet sie eine kuratierte Liste freier Modelle an, die vorkonfiguriert sind und einfach per Klick heruntergeladen werden können.
 
Was ist ein einfacher Einstieg
Die Installation von llama.cpp oder auch ollama ist eigentlich relativ einfach. Die gibts auch unter Umständen schon den Repositorys von Linux-Distributionen aber auch bei FreeBSD (https://www.freshports.org/misc/llama-cpp/ bzw. https://www.freshports.org/misc/ollama/).
Auch die Benutzung ist jetzt nicht so schwer. Es reicht ein einfacher Aufruf, um auf ein Webinterface zu bekommen.

Ich sag mal, wer ein BSD installiert kriegt, für den ist der Betrieb eines lokalen Modells jetzt sicher keine Hürde. :-)

Das schwerste ist dann die Entscheidung, welches Modell man nimmt. Ich würde mal sagen, mit so einem gpt-oss-20b macht man nichts verkehrt, weil das relativ gut funktioniert und auch nicht so sehr von Hardware-Gegebenheiten abhängt (halbwegs moderne CPU und 16GB RAM reicht schon).
Man kann das fertig im GGUF-Format bei Hugging-Face (der bekanntesten Seite für freie Modelle) downloaden.

Die o.g. Tools bieten integrierte Möglichkeiten Modelle herunter zu laden, aber man kann es auch manuell machen.
Beispielsweise für gpt-oss 20b das hier (dort Download klicken):
https://huggingface.co/unsloth/gpt-oss-20b-GGUF/blob/main/gpt-oss-20b-Q8_0.gguf

Das z.B. mit llama.cpp in einem Webinterface ansprechbar machen:
llama-server -m gpt-oss-20b-Q8_0.gguf --jinja --threads 8
Ist dann unter http://localhost:8080 ansprechbar (kann man natürlich umkonfigurieren; siehe: llama-server --help )

Das Modell muss ja noch irgendwie trainiert und mit Infos gefuettert werden
Die sind bereits trainiert und Du kannst sofort damit chatten.
Also für ein ersten Anfang und damit rumspielen reicht ein einfaches Setup.

Will man meist nicht.
Also mit dem von mir angesprochenen gpt-oss-20b schafft man mit CPU-only auf halbwegs moderner Hardware schon so 10 - 20 Tokens pro Sekunde. Und ein Token ist ja nicht ein Buchstabe, sondern eher eine Silbe. Insofern finde ich das schon ok.
Allerdings muss man bedenken, gpt-oss-20b ist ein Reasoning-Modell. Je nach dem wie stark man die Reasoning-Stufe einstellt, geht natürlich ein Teil fürs "nachdenken" drauf.
Mit einem non-reasoning-Modell schafft man die Performance auch quasi netto.
 
Zuletzt bearbeitet:
Wenn ich einige Beiträge hier lese, merke ich, wie wenig ich bisher verstehe: Quantisierung, GGUF, CPU-Inference sind mir allesamt unbekannt. Ich muss klein anfangen.

Es gibt gute Videos (8 Minuten), Texte und Visualisierungen zum Thema.


ich vermute mal, dass ein Modell alleine nichts bringt. Das Modell muss ja noch irgendwie trainiert und mit Infos gefuettert werden und woher bekommt es diese?

Das Modell ist das Ergebnis des Trainings, das sich in den Parametern des Modells abbildet. Im einfachsten Fall - Text - grast man einfach (wie eine Suchmaschine) die unendlichen Weiten des World Wide Webs ab (inklusive Wikipedia und allem, was man so findet) und nutzt diese gigantischen Textmengen, um sein Modell zu trainieren.

Ich habe aber ehrlich gesagt auch noch nichts mit lokalen Modellen gemacht. Ich wuesste ehrlich gesagt auch nicht, was ich damit anfangen sollte.

Fang mit einem Chat-Bot an. Den kannst du dann alles fragen, von historischen Zusammenhängen bis hin zur Entwicklung von kompletten Shell-Skripten für Aufgaben unter BSD. Wobei man - vor allem bei den kleinen Modellen - besser dran ist, wenn man sich alles in englischer Sprache macht (weil eben auch der Großteil des Trainingsmaterials in englischer Sprache ist).

Es wird aber vermutlich genug Einsatzgebiete geben.

Die Liste wird jeden Tag länger.

Was für eine GPU hast du zur Verfügung? Du brauchst vor allem massig an VRAM und nein, 16GB VRAM ist nicht mehr viel in diesem Bereich.

Für die ersten Schritte reicht eine handelsübliche CPU samt 16 GB RAM völlig aus. Man hat es ja nicht eilig und braucht keine Modelle mit 120 Milliarden Parametern, die 80 GB VRAM benötigen.

Wenn man dann Blut geleckt habt, kann man sich immer noch eine GPU mit 16 GB VRAM kaufen (Kostenpunkt aktuell 300-400€ für die neueste Generation).
 
In der Firma hab ich mal mit DeepSeek rumgespielt, das lief erstaunlich gut, ca auf den Niveau der älteren ChatGPTs (3, 3.5), aber braucht halt schon ziemlich lange. Und für das Wohnzimmer wäre das jetzt auch nichts bei nem Ramverbrauch von knapp 100GB.

Lokal zuhause hab ich mal ein kleines Model für die Beschlagwortung von Fotos getestet (nach nem Tutorial von Heise/Golem/CT irgend sowas). Das lief leider nicht wirklich zufriedenstellend.

Vorallem haben sich "die Großen" ja auch weiterentwickelt, ChatGPT 5.2 ist auf nem Niveau da kommt man glaube ich lokal derzeit nicht wirklich hin.
 
ChatGPT 5.2 ist auf nem Niveau da kommt man glaube ich lokal derzeit nicht wirklich hin.
Ja. Wobei es noch andere Faktoren gibt.

Die ganzen großen Anbieter aktualisieren fortwährend ihre Modelle. Das ist zwar zum einen gut, weil man kommt rasch in den Genuss von Verbesserungen und neuen Features.

Das heißt aber auch umgekehrt auch, das sich die Bedienung und das Verhalten ändert. Insbesondere letzteres ist manchmal doch recht störend. Weil um mit einem Modell gut arbeiten zu können, muss man sich auch so ein bisschen aufs Modell einspielen. So Dinge wie "Wie muss man Sachen formulieren, um eine möglichst brauchbare Antwort zu bekommen".

Und insbesondere bei GPT-5 hat OpenAI auf ein internes Routing und versucht für die jeweilige Anfrage das möglichst passende (ressourcenschonendste) Modell zu nehmen, wo sich dann auch noch das Modell abhängig von der Anfrage plötzlich anders verhalten hat.
Ich glaube, diese Änderung hat man zumindest teilweise wieder zurück genommen. Aber das zeigt halt schön die Problematik.

Zudem ist das größte und neuste Modell nicht immer das Beste. Es hängt stark von dem ab, was man machen will.
 
An das Niveau von GPT 5.2, Claude Opus 4.5 und Gemini 3 Pro wird man lokal wahrscheinlich nie kommen. Aber wie @Andy_m4 schon andeutet, ist das für viele Zwecke schlicht auch nicht notwendig. Die genaue Anzahl Parameter geben sie ja nicht mehr bekannt, aber Schätzungen gehen für dann vollständige GPT 5.2 zum Beispiel von 2 bis 5 Billionen (deutsche Billionen, also englische Trilions) aus. Die Faustformel für VRAM nicht-quantifizierter Modelle ist Parameter*(Präzision/8)*1,2. Nimmt man für GPT 5.2 3,5 Billionen Parameter und eine Präzision von 16 Bit an, sind das allein für das Model 3.500.000.000.000*(16/8)*1,2)=8.400.000.000.000/1024/1024/1024=7828,10 Gigabyte VRAM. Darauf kommen dann noch Kontext und Prompt-Cache.

Selbst wenn das Moorsche Gesetz sich wider Erwarten nicht weiter verlangsamt und es eine Tendenz zu mehr VRAM gibt, wird es noch viele, viele Jahre dauern, bis sowas halbwegs bezahlbar geworden ist. Im Moment hat das nur mit großen "GPU-Worlds" Sinn, also diesen ganze Racks umfassenden GPU-Verbünden, die das Model dann einmal im kohärenten VRAM halten können und dann auf x Instanzen y Kunden parallel über eine API zur Verfügung stellen. Sowas kostet auch ganz schnell hoch siebenstellig und säuft genug Strom, dass man Three Miles Island wieder in Betrieb nehmen muss. :gpaul:

Inferencing ist dabei der kleinere Teil. Vom Training eines solchen Monsters, was idealerweise kontinuierlich erfolgt, reden wir da noch bei weitem nicht.
 
Ich bin doch immer wieder fasziniert, was hier im Forum an Kompetenz so rumlungert.

Bei mir laufen aktuell die BSDs nur auf Servern und ich spiele mit einem Macbook mit M1 Max und 64GB RAM rum.

Bin von Ollama nach Llama und jetzt auf LMStudio.ai umgestiegen und gerade das LM Studio ist Couch-KI für DAUs. Kann man zwar auch alles mögliche und unmögliche drin rumfummeln, muß man aber nicht und hat einen sehr bequemen Download und Ladevorgang für die Modelle, die man testen möchte.

Jetzt muß ich "nur" mal schauen, wo und wie ich Modelle finde, die mir aktuell in annehmbarer Zeit 8TB an Bildern, PDFs, SQL, TXT und anderem Zeugs durchsuchen wollen, um das am besten zu sortieren, zu verrschlagworten und Duplikate auszusortieren. :p
 
wieder fasziniert, was hier im Forum an Kompetenz so rumlungert
Meistens schaffen wir das ja auch zu verbergen. Aber eben nicht immer. ;-)

Bildern, PDFs, SQL, TXT und anderem Zeugs durchsuchen wollen, um das am besten zu sortieren, zu verrschlagworten
Man muss gucken, was man überhaupt erreichen will und was man für was nimmt.
Für Textlastige Dokumente wie PDFs, TXT sind natürlich die LLMs prinzipiell ganz gut geeignet. Man muss sich aber klar machen, was das Ziel sein soll.
Wenn man wissen will, was wo geschrieben steht, dann ist eine Desktop-Suchmaschine besser. Wenns darum geht, das die Dokumente eine Wissensbasis sind mit man sich mit der quasi natürlichsprachlich unterhalten will, dann sind LLMs eher das Mittel der Wahl (Stichworte: RAG, LangChain, Vektordatenbanken).

Was das Thema Bilder/Fotos angeht, sind beliebte Tools Immich und PhotoPrism.
 
Zurück
Oben