KI lokal betreiben: LLMs auf dem eigenen PC
Deine Daten. Dein Modell. Kein Cloud-Abo.
Große Sprachmodelle wie ChatGPT und Claude laufen normalerweise in der Cloud – deine Prompts verlassen deinen Computer und werden auf Servern von OpenAI, Anthropic oder Google verarbeitet. Für die meisten Anwendungen ist das völlig in Ordnung.
Aber es gibt gute Gründe, KI lokal zu betreiben: Datenschutz bei sensiblen Dokumenten, keine laufenden Abo-Kosten, Offline-Nutzung, und die Freiheit, mit Open-Source-Modellen zu experimentieren. Dieser Guide zeigt dir alles, was du brauchst: Welche Hardware du brauchst, welche Tools es gibt, welche Modelle sich lohnen – und wo die ehrlichen Grenzen liegen.
Cloud vs. Lokal – unsere ehrliche Einordnung
Die Cloud-Modelle (ChatGPT, Claude, Gemini) sind für die meisten Aufgaben besser, schneller und einfacher. Lokale Modelle sind nichtder Ersatz für Cloud-KI – sie sind eine Ergänzung für spezifische Use-Cases:
Lokale KI ist gut für:
- •Sensible Dokumente (Steuerdaten, Verträge, Arztbriefe)
- •Offline-Nutzung (Flugzeug, abgelegene Orte)
- •Kostenlose unbegrenzte Nutzung ohne Abo
- •Lernen und Experimentieren
- •Firmen mit strengen Compliance-Anforderungen
Cloud-KI ist besser für:
- •Beste Qualität bei komplexen Aufgaben
- •Aktuelle Web-Recherche (Perplexity, ChatGPT)
- •Bilder generieren (DALL-E, Midjourney)
- •Maximale Kontextlänge (Claude: 200k Tokens)
- •Kein Hardware-Investment nötig
Welche Hardware brauchst du?
Die wichtigste Komponente für lokale KI ist nicht der Prozessor – es ist der Arbeitsspeicher. Genauer: der Speicher deiner Grafikkarte (VRAM). Je mehr VRAM, desto größere und bessere Modelle kannst du laufen lassen.
| Dein Setup | RAM / VRAM | Geeignete Modelle | Erlebnis |
|---|---|---|---|
| Laptop (8 GB RAM, keine GPU) | 8 GB | Kleine Modelle (1–3B) | Langsam, für Experimente |
| Gaming-PC (16 GB RAM, RTX 3060 12 GB) | 12 GB VRAM | 7B Modelle (Llama 3.2, Mistral 7B) | Solide für Alltag |
| Starker PC (32 GB RAM, RTX 4070 Ti 16 GB) | 16 GB VRAM | 13B Modelle, gute 7B | Sehr gut |
| High-End (64 GB RAM, RTX 4090 24 GB) | 24 GB VRAM | 30B+ Modelle, mehrere gleichzeitig | Exzellent |
| Mac mit Apple Silicon (M2/M3/M4 Pro/Max) | 32–128 GB Unified | Große Modelle dank Unified Memory | Überraschend gut |
| Budget-Tipp: Gebrauchte RTX 3090 | 24 GB VRAM | 30B+ Modelle | Bestes Preis-Leistungs-Verhältnis |
Unsere Hardware-Empfehlungen
NVIDIA RTX 5060 Ti 16 GB
Gutes Einstiegs-Modell für lokale KI. Die neue RTX 5060 Ti mit GDDR7 bietet mehr Bandbreite. Alternativ: die RTX 4060 Ti ist günstiger gebraucht.
Auf Amazon ansehenNVIDIA RTX 4060 Ti 16 GB
Die Vorgängergeneration – etwas langsamer, aber günstiger. Vor allem gebraucht ein guter Deal für den Einstieg in lokale KI.
Auf Amazon ansehenNVIDIA RTX 4090 (24 GB)
Der bisherige Goldstandard für lokale KI. 24 GB VRAM reichen für 30B+ Modelle und auch für Bildgenerierung.
Auf Amazon ansehenNVIDIA RTX 5090 (32 GB)
Die neue Generation mit 32 GB VRAM. Damit laufen selbst 70B-Modelle in hoher Quantisierung flüssig. Für Enthusiasten und professionellen Einsatz.
Auf Amazon ansehenNVIDIA RTX 3090 (gebraucht, 24 GB)
Die RTX 3090 hat fast so viel VRAM wie die 4090, ist aber gebraucht für einen Bruchteil zu haben. DER Geheimtipp der lokalen KI-Community.
Auf Amazon suchenMac Mini M4 (16–24 GB)
Apple Silicon kann den gesamten Arbeitsspeicher als VRAM nutzen. Für die Pro-Version mit M4 Pro Chip (bis 48 GB) direkt bei Apple konfigurieren.
Auf Amazon ansehen* Affiliate-Links – als Amazon-Partner verdienen wir an qualifizierten Verkäufen.
Was bedeutet VRAM?
VRAM (Video RAM) ist der Arbeitsspeicher deiner Grafikkarte. Ein KI-Modell muss komplett in den VRAM passen, um schnell zu laufen. Passt es nicht komplett rein, wird der Rest in den normalen RAM ausgelagert – das macht alles 5–10x langsamer.
Faustregel:Ein 7B-Modell braucht ~4–6 GB VRAM (quantisiert). Ein 13B-Modell braucht ~8–10 GB. Ein 70B-Modell braucht ~40+ GB.
Die besten Tools zum lokalen Betrieb
Du brauchst zwei Dinge: Ein Tool, das die Modelle verwaltet und ausführt, und ein Modell, das du herunterlädst. Hier sind die vier wichtigsten Tools:
| Tool | Typ | Für wen | Preis | Schwierigkeit |
|---|---|---|---|---|
| LM Studio | Desktop-App (GUI) | Einsteiger, visuell | Kostenlos | ⭐ Einfach |
| Ollama | Kommandozeile + API | Entwickler, Power-User | Kostenlos | ⭐⭐ Mittel |
| Jan | Desktop-App (GUI) | Datenschutz-Fokus | Kostenlos | ⭐ Einfach |
| GPT4All | Desktop-App (GUI) | Einsteiger, RAG | Kostenlos | ⭐ Einfach |
| Open WebUI | Web-Oberfläche | Teams, ChatGPT-Look | Kostenlos | ⭐⭐⭐ Fortgeschritten |
LM Studio
Unsere Empfehlung für Einsteiger
- Modell-Browser: Suche und lade Modelle direkt aus Hugging Face
- Chat-Interface: Sieht aus wie ChatGPT
- Lokaler API-Server: OpenAI-kompatibel
- Spekulative Dekodierung: 1,5–3x schnellere Antworten
- Kein Terminal nötig
Schnellstart
- 1.Lade LM Studio von lmstudio.ai herunter
- 2.Installiere die App (Windows/Mac/Linux)
- 3.Suche ein Modell (z. B. „Llama 3.2 8B“)
- 4.Klicke auf Download
- 5.Starte einen Chat
Ollama
Für Power-User und Entwickler
- Ein-Befehl-Installation: ollama run llama3.2
- OpenAI-kompatible API (Drop-In-Ersatz)
- Riesiger Modell-Katalog
- Funktionsaufrufe und JSON-Output
- Beste AMD-GPU-Unterstützung
Schnellstart
- 1.Lade Ollama von ollama.com herunter
- 2.Öffne das Terminal
- 3.Tippe: ollama run llama3.2
- 4.Warte bis das Modell geladen ist
- 5.Chatte im Terminal
Jan
Maximaler Datenschutz
- 100% Open Source, kein Tracking
- Kann lokale UND Cloud-Modelle verwalten
- Eingebaute Logging- und Monitoring-Funktionen
- Unterstützt GPU-Beschleunigung
- Aktive Community
GPT4All
Für Dokumente und RAG
- LocalDocs: Fragen zu deinen eigenen Dokumenten
- Einfache Installation, kein Terminal
- Unterstützt auch CPU-Only (keine GPU nötig)
- Python und Node Bindings verfügbar
- Ideal für Firmen-Wissensmanagement
Die besten Open-Source-Modelle (2026)
Hunderte Modelle stehen zum Download bereit. Hier sind die, die wirklich taugen – sortiert nach Anwendungsfall:
| Modell | Hersteller | Größen | Stärke | Deutsch | Download |
|---|---|---|---|---|---|
| Llama 4 | Meta | 8B, 70B, 405B | Bester Allrounder | Gut | Download |
| Qwen 2.5 | Alibaba | 3B, 7B, 14B, 72B | Bestes Mehrsprachig | Sehr gut | Download |
| DeepSeek R1 | DeepSeek | 7B, 14B, 70B | Bestes Reasoning | Mittel | Download |
| Mistral | Mistral AI | 7B, 8x7B | Schnell & effizient | Gut | Download |
| Gemma 3 | 2B, 9B, 27B | Effizient, multimodal | Gut | Download | |
| Phi-4 | Microsoft | 4B, 14B | Klein aber fein | Mittel | Download |
| Command R+ | Cohere | 35B, 104B | RAG-optimiert | Gut | Download |
Welches Modell für welchen Zweck?
Allgemein (Chat, Texte, Fragen)
→ Llama 4 8B (Einstieg) oder Qwen 2.5 14B (besser)
Deutsch besonders gut
→ Qwen 2.5 – Alibabas Modell ist überraschend gut auf Deutsch
Code schreiben
→ DeepSeek Coder V2 oder Qwen 2.5 Coder
Logisches Denken / Mathe
→ DeepSeek R1 (speziell für Reasoning trainiert)
Auf schwacher Hardware (8 GB RAM)
→ Gemma 3 2B oder Phi-4 Mini (3.8B)
Mit eigenen Dokumenten chatten (RAG)
→ Command R+ (speziell für RAG optimiert) via GPT4All
In 10 Minuten zum ersten lokalen Chatbot
Die einfachste Methode: LM Studio installieren und loschatten. Kein Terminal, kein Code, keine Vorkenntnisse nötig.
LM Studio herunterladen
Gehe auf lmstudio.ai und lade die Version für dein Betriebssystem herunter (Windows, Mac oder Linux). Installiere die App mit den Standard-Einstellungen.
Modell auswählen
Öffne LM Studio. Klicke auf „Discover“ (Modell-Browser). Suche nach „Qwen 2.5 7B Instruct“ – das ist ein guter Allrounder, der auch Deutsch gut kann. Klicke auf Download. Das Modell ist ~4–5 GB groß.
Chat starten
Gehe auf den „Chat“-Tab. Wähle das heruntergeladene Modell aus dem Dropdown oben. Tippe deine erste Frage – z. B.: „Erstelle einen Wochenplan für gesundes Abendessen, vegetarisch, max. 30 Minuten pro Gericht.“
Experimentieren
Probiere verschiedene Modelle aus. Jedes verhält sich anders. Vergleiche die Antwortqualität mit ChatGPT – du wirst überrascht sein, wie gut manche lokale Modelle mittlerweile sind.
Ressourcen und Download-Quellen
| Ressource | Was ist das? | Link |
|---|---|---|
| Hugging Face | Das „GitHub für KI-Modelle“. Tausende Modelle zum Download. | huggingface.co |
| Ollama Library | Kuratierter Modell-Katalog, direkt nutzbar mit Ollama. | ollama.com/library |
| LM Studio | Desktop-App + Modell-Browser. | lmstudio.ai |
| Open WebUI | ChatGPT-ähnliche Oberfläche für lokale Modelle. | openwebui.com |
| LocalAI | Self-hosted API-Server, OpenAI-kompatibel. | localai.io |
| LMSYS Chatbot Arena | Live-Benchmark: Welches Modell ist gerade das beste? | chat.lmsys.org |
Häufig gestellte Fragen
Nicht unbedingt. Kleine Modelle (3–7B Parameter) laufen auch auf dem CPU. Mit 16 GB RAM und einer mittelpreisigen GPU (RTX 4060 Ti, ~450 EUR) bekommst du schon sehr gute Ergebnisse. Auf Apple-Macs mit M-Chip reicht der eingebaute Speicher.
Ehrlich: Nein. Die besten Cloud-Modelle (GPT-4o, Claude Opus) sind noch deutlich besser bei komplexen Aufgaben. Aber für einfachere Aufgaben – E-Mails, Zusammenfassungen, Codierung, Fragen beantworten – sind gute lokale Modelle wie Qwen 2.5 oder Llama 4 erstaunlich nah dran.
Ja. Bei lokaler Ausführung verlassen deine Daten niemals deinen Computer. Es gibt keine Internetverbindung zum Modell nötig (nach dem initialen Download). Das ist der Hauptvorteil gegenüber Cloud-KI.
Zwischen 2 GB (kleine Modelle) und 40+ GB (große Modelle). Ein typisches 7B-Modell in quantisierter Form ist ~4–5 GB groß.
Eine Technik, die Modelle kleiner und schneller macht, indem die Genauigkeit der Zahlenwerte reduziert wird. Ein Q4-Modell ist ~4x kleiner als das Original, bei nur ~5 % Qualitätsverlust. Fast alle lokal genutzten Modelle sind quantisiert.
Ja, das ist sogar einer der Hauptgründe. Besonders für DSGVO-sensible Daten, interne Dokumente und Compliance-Anforderungen. Tools wie Open WebUI oder AnythingLLM bieten Multi-User-Setups.
Ja! Alle unsere Prompt-Vorlagen funktionieren mit lokalen Modellen genau wie mit ChatGPT oder Claude. Die Ergebnisse können bei kleineren Modellen etwas weniger detailliert sein.
Weiterlesen
Der große KI-Vergleich 2026
ChatGPT, Claude, Gemini und Co im direkten Vergleich.
Was KI-Assistenten über dich wissen
Datenschutz, DSGVO und Privatsphäre bei Cloud-KI.
Die besten Prompts
Funktionieren auch lokal – getestete Vorlagen zum Kopieren.
Die besten KI-Tools 2026
Texte, Bilder, Video, Meetings – die komplette Übersicht.