KI lokal betreiben: LLMs auf dem eigenen PC

Deine Daten. Dein Modell. Kein Cloud-Abo.

Große Sprachmodelle wie ChatGPT und Claude laufen normalerweise in der Cloud – deine Prompts verlassen deinen Computer und werden auf Servern von OpenAI, Anthropic oder Google verarbeitet. Für die meisten Anwendungen ist das völlig in Ordnung.

Aber es gibt gute Gründe, KI lokal zu betreiben: Datenschutz bei sensiblen Dokumenten, keine laufenden Abo-Kosten, Offline-Nutzung, und die Freiheit, mit Open-Source-Modellen zu experimentieren. Dieser Guide zeigt dir alles, was du brauchst: Welche Hardware du brauchst, welche Tools es gibt, welche Modelle sich lohnen – und wo die ehrlichen Grenzen liegen.

Cloud vs. Lokal – unsere ehrliche Einordnung

Die Cloud-Modelle (ChatGPT, Claude, Gemini) sind für die meisten Aufgaben besser, schneller und einfacher. Lokale Modelle sind nichtder Ersatz für Cloud-KI – sie sind eine Ergänzung für spezifische Use-Cases:

Lokale KI ist gut für:

•Sensible Dokumente (Steuerdaten, Verträge, Arztbriefe)
•Offline-Nutzung (Flugzeug, abgelegene Orte)
•Kostenlose unbegrenzte Nutzung ohne Abo
•Lernen und Experimentieren
•Firmen mit strengen Compliance-Anforderungen

Cloud-KI ist besser für:

•Beste Qualität bei komplexen Aufgaben
•Aktuelle Web-Recherche (Perplexity, ChatGPT)
•Bilder generieren (DALL-E, Midjourney)
•Maximale Kontextlänge (Claude: 200k Tokens)
•Kein Hardware-Investment nötig

Ausführlicher Vergleich aller KI-Assistenten

Welche Hardware brauchst du?

Die wichtigste Komponente für lokale KI ist nicht der Prozessor – es ist der Arbeitsspeicher. Genauer: der Speicher deiner Grafikkarte (VRAM). Je mehr VRAM, desto größere und bessere Modelle kannst du laufen lassen.

Dein Setup	RAM / VRAM	Geeignete Modelle	Erlebnis
Laptop (8 GB RAM, keine GPU)	8 GB	Kleine Modelle (1–3B)	Langsam, für Experimente
Gaming-PC (16 GB RAM, RTX 3060 12 GB)	12 GB VRAM	7B Modelle (Llama 3.2, Mistral 7B)	Solide für Alltag
Starker PC (32 GB RAM, RTX 4070 Ti 16 GB)	16 GB VRAM	13B Modelle, gute 7B	Sehr gut
High-End (64 GB RAM, RTX 4090 24 GB)	24 GB VRAM	30B+ Modelle, mehrere gleichzeitig	Exzellent
Mac mit Apple Silicon (M2/M3/M4 Pro/Max)	32–128 GB Unified	Große Modelle dank Unified Memory	Überraschend gut
Budget-Tipp: Gebrauchte RTX 3090	24 GB VRAM	30B+ Modelle	Bestes Preis-Leistungs-Verhältnis

Unsere Hardware-Empfehlungen

Einstieg

NVIDIA RTX 5060 Ti 16 GB

ab $549|16 GB GDDR7|Für 7B–13B Modelle

Gutes Einstiegs-Modell für lokale KI. Die neue RTX 5060 Ti mit GDDR7 bietet mehr Bandbreite. Alternativ: die RTX 4060 Ti ist günstiger gebraucht.

Auf Amazon ansehen

Einstieg (Alternative)

NVIDIA RTX 4060 Ti 16 GB

ab $449|16 GB GDDR6|Für 7B–13B Modelle

Die Vorgängergeneration – etwas langsamer, aber günstiger. Vor allem gebraucht ein guter Deal für den Einstieg in lokale KI.

Auf Amazon ansehen

High-End

NVIDIA RTX 4090 (24 GB)

ab $2.799|24 GB VRAM|Für große 30B+ Modelle

Der bisherige Goldstandard für lokale KI. 24 GB VRAM reichen für 30B+ Modelle und auch für Bildgenerierung.

Auf Amazon ansehen

Zukunftssicher

NVIDIA RTX 5090 (32 GB)

ab $3.599|32 GB GDDR7|Für die größten lokalen Modelle

Die neue Generation mit 32 GB VRAM. Damit laufen selbst 70B-Modelle in hoher Quantisierung flüssig. Für Enthusiasten und professionellen Einsatz.

Auf Amazon ansehen

Budget-Tipp

NVIDIA RTX 3090 (gebraucht, 24 GB)

~$600–800 gebraucht|24 GB VRAM|Bestes Preis-Leistungs-Verhältnis

Die RTX 3090 hat fast so viel VRAM wie die 4090, ist aber gebraucht für einen Bruchteil zu haben. DER Geheimtipp der lokalen KI-Community.

Auf Amazon suchen

Apple-Alternative

Mac Mini M4 (16–24 GB)

ab $599|16–24 GB Unified Memory|Leise, kompakt

Apple Silicon kann den gesamten Arbeitsspeicher als VRAM nutzen. Für die Pro-Version mit M4 Pro Chip (bis 48 GB) direkt bei Apple konfigurieren.

Auf Amazon ansehen

* Affiliate-Links – als Amazon-Partner verdienen wir an qualifizierten Verkäufen.

Was bedeutet VRAM?

VRAM (Video RAM) ist der Arbeitsspeicher deiner Grafikkarte. Ein KI-Modell muss komplett in den VRAM passen, um schnell zu laufen. Passt es nicht komplett rein, wird der Rest in den normalen RAM ausgelagert – das macht alles 5–10x langsamer.

Faustregel:Ein 7B-Modell braucht ~4–6 GB VRAM (quantisiert). Ein 13B-Modell braucht ~8–10 GB. Ein 70B-Modell braucht ~40+ GB.

Die besten Tools zum lokalen Betrieb

Du brauchst zwei Dinge: Ein Tool, das die Modelle verwaltet und ausführt, und ein Modell, das du herunterlädst. Hier sind die vier wichtigsten Tools:

Tool	Typ	Für wen	Preis	Schwierigkeit
LM Studio	Desktop-App (GUI)	Einsteiger, visuell	Kostenlos	⭐ Einfach
Ollama	Kommandozeile + API	Entwickler, Power-User	Kostenlos	⭐⭐ Mittel
Jan	Desktop-App (GUI)	Datenschutz-Fokus	Kostenlos	⭐ Einfach
GPT4All	Desktop-App (GUI)	Einsteiger, RAG	Kostenlos	⭐ Einfach
Open WebUI	Web-Oberfläche	Teams, ChatGPT-Look	Kostenlos	⭐⭐⭐ Fortgeschritten

LM Studio

Unsere Empfehlung für Einsteiger

Modell-Browser: Suche und lade Modelle direkt aus Hugging Face
Chat-Interface: Sieht aus wie ChatGPT
Lokaler API-Server: OpenAI-kompatibel
Spekulative Dekodierung: 1,5–3x schnellere Antworten
Kein Terminal nötig

Schnellstart

1.Lade LM Studio von lmstudio.ai herunter
2.Installiere die App (Windows/Mac/Linux)
3.Suche ein Modell (z. B. „Llama 3.2 8B“)
4.Klicke auf Download
5.Starte einen Chat

lmstudio.ai

Ollama

Für Power-User und Entwickler

Ein-Befehl-Installation: ollama run llama3.2
OpenAI-kompatible API (Drop-In-Ersatz)
Riesiger Modell-Katalog
Funktionsaufrufe und JSON-Output
Beste AMD-GPU-Unterstützung

Schnellstart

1.Lade Ollama von ollama.com herunter
2.Öffne das Terminal
3.Tippe: ollama run llama3.2
4.Warte bis das Modell geladen ist
5.Chatte im Terminal

ollama.com

Jan

Maximaler Datenschutz

100% Open Source, kein Tracking
Kann lokale UND Cloud-Modelle verwalten
Eingebaute Logging- und Monitoring-Funktionen
Unterstützt GPU-Beschleunigung
Aktive Community

jan.ai

GPT4All

Für Dokumente und RAG

LocalDocs: Fragen zu deinen eigenen Dokumenten
Einfache Installation, kein Terminal
Unterstützt auch CPU-Only (keine GPU nötig)
Python und Node Bindings verfügbar
Ideal für Firmen-Wissensmanagement

gpt4all.io

Die besten Open-Source-Modelle (2026)

Hunderte Modelle stehen zum Download bereit. Hier sind die, die wirklich taugen – sortiert nach Anwendungsfall:

Modell	Hersteller	Größen	Stärke	Deutsch	Download
Llama 4	Meta	8B, 70B, 405B	Bester Allrounder	Gut	Download
Qwen 2.5	Alibaba	3B, 7B, 14B, 72B	Bestes Mehrsprachig	Sehr gut	Download
DeepSeek R1	DeepSeek	7B, 14B, 70B	Bestes Reasoning	Mittel	Download
Mistral	Mistral AI	7B, 8x7B	Schnell & effizient	Gut	Download
Gemma 3	Google	2B, 9B, 27B	Effizient, multimodal	Gut	Download
Phi-4	Microsoft	4B, 14B	Klein aber fein	Mittel	Download
Command R+	Cohere	35B, 104B	RAG-optimiert	Gut	Download

Welches Modell für welchen Zweck?

Allgemein (Chat, Texte, Fragen)

→ Llama 4 8B (Einstieg) oder Qwen 2.5 14B (besser)

Deutsch besonders gut

→ Qwen 2.5 – Alibabas Modell ist überraschend gut auf Deutsch

Code schreiben

→ DeepSeek Coder V2 oder Qwen 2.5 Coder

Logisches Denken / Mathe

→ DeepSeek R1 (speziell für Reasoning trainiert)

Auf schwacher Hardware (8 GB RAM)

→ Gemma 3 2B oder Phi-4 Mini (3.8B)

Mit eigenen Dokumenten chatten (RAG)

→ Command R+ (speziell für RAG optimiert) via GPT4All

In 10 Minuten zum ersten lokalen Chatbot

Die einfachste Methode: LM Studio installieren und loschatten. Kein Terminal, kein Code, keine Vorkenntnisse nötig.

LM Studio herunterladen

Gehe auf lmstudio.ai und lade die Version für dein Betriebssystem herunter (Windows, Mac oder Linux). Installiere die App mit den Standard-Einstellungen.

Modell auswählen

Öffne LM Studio. Klicke auf „Discover“ (Modell-Browser). Suche nach „Qwen 2.5 7B Instruct“ – das ist ein guter Allrounder, der auch Deutsch gut kann. Klicke auf Download. Das Modell ist ~4–5 GB groß.

Chat starten

Gehe auf den „Chat“-Tab. Wähle das heruntergeladene Modell aus dem Dropdown oben. Tippe deine erste Frage – z. B.: „Erstelle einen Wochenplan für gesundes Abendessen, vegetarisch, max. 30 Minuten pro Gericht.“

Experimentieren

Probiere verschiedene Modelle aus. Jedes verhält sich anders. Vergleiche die Antwortqualität mit ChatGPT – du wirst überrascht sein, wie gut manche lokale Modelle mittlerweile sind.

Ressourcen und Download-Quellen

Ressource	Was ist das?	Link
Hugging Face	Das „GitHub für KI-Modelle“. Tausende Modelle zum Download.	huggingface.co
Ollama Library	Kuratierter Modell-Katalog, direkt nutzbar mit Ollama.	ollama.com/library
LM Studio	Desktop-App + Modell-Browser.	lmstudio.ai
Open WebUI	ChatGPT-ähnliche Oberfläche für lokale Modelle.	openwebui.com
LocalAI	Self-hosted API-Server, OpenAI-kompatibel.	localai.io
LMSYS Chatbot Arena	Live-Benchmark: Welches Modell ist gerade das beste?	chat.lmsys.org

Häufig gestellte Fragen

Nicht unbedingt. Kleine Modelle (3–7B Parameter) laufen auch auf dem CPU. Mit 16 GB RAM und einer mittelpreisigen GPU (RTX 4060 Ti, ~450 EUR) bekommst du schon sehr gute Ergebnisse. Auf Apple-Macs mit M-Chip reicht der eingebaute Speicher.

Ehrlich: Nein. Die besten Cloud-Modelle (GPT-4o, Claude Opus) sind noch deutlich besser bei komplexen Aufgaben. Aber für einfachere Aufgaben – E-Mails, Zusammenfassungen, Codierung, Fragen beantworten – sind gute lokale Modelle wie Qwen 2.5 oder Llama 4 erstaunlich nah dran.

Ja. Bei lokaler Ausführung verlassen deine Daten niemals deinen Computer. Es gibt keine Internetverbindung zum Modell nötig (nach dem initialen Download). Das ist der Hauptvorteil gegenüber Cloud-KI.

Zwischen 2 GB (kleine Modelle) und 40+ GB (große Modelle). Ein typisches 7B-Modell in quantisierter Form ist ~4–5 GB groß.

Eine Technik, die Modelle kleiner und schneller macht, indem die Genauigkeit der Zahlenwerte reduziert wird. Ein Q4-Modell ist ~4x kleiner als das Original, bei nur ~5 % Qualitätsverlust. Fast alle lokal genutzten Modelle sind quantisiert.

Ja, das ist sogar einer der Hauptgründe. Besonders für DSGVO-sensible Daten, interne Dokumente und Compliance-Anforderungen. Tools wie Open WebUI oder AnythingLLM bieten Multi-User-Setups.

Ja! Alle unsere Prompt-Vorlagen funktionieren mit lokalen Modellen genau wie mit ChatGPT oder Claude. Die Ergebnisse können bei kleineren Modellen etwas weniger detailliert sein.

Weiterlesen

Der große KI-Vergleich 2026

ChatGPT, Claude, Gemini und Co im direkten Vergleich.

Was KI-Assistenten über dich wissen

Datenschutz, DSGVO und Privatsphäre bei Cloud-KI.

Die besten Prompts

Funktionieren auch lokal – getestete Vorlagen zum Kopieren.

Die besten KI-Tools 2026

Texte, Bilder, Video, Meetings – die komplette Übersicht.

Weiter entdecken

KI zum Programmieren Datenschutz & KI Der große Vergleich Zur Übersicht