KI lokal betreiben: LLMs auf dem eigenen PC

Deine Daten. Dein Modell. Kein Cloud-Abo.

Große Sprachmodelle wie ChatGPT und Claude laufen normalerweise in der Cloud – deine Prompts verlassen deinen Computer und werden auf Servern von OpenAI, Anthropic oder Google verarbeitet. Für die meisten Anwendungen ist das völlig in Ordnung.

Aber es gibt gute Gründe, KI lokal zu betreiben: Datenschutz bei sensiblen Dokumenten, keine laufenden Abo-Kosten, Offline-Nutzung, und die Freiheit, mit Open-Source-Modellen zu experimentieren. Dieser Guide zeigt dir alles, was du brauchst: Welche Hardware du brauchst, welche Tools es gibt, welche Modelle sich lohnen – und wo die ehrlichen Grenzen liegen.

Cloud vs. Lokal – unsere ehrliche Einordnung

Die Cloud-Modelle (ChatGPT, Claude, Gemini) sind für die meisten Aufgaben besser, schneller und einfacher. Lokale Modelle sind nichtder Ersatz für Cloud-KI – sie sind eine Ergänzung für spezifische Use-Cases:

Lokale KI ist gut für:

  • Sensible Dokumente (Steuerdaten, Verträge, Arztbriefe)
  • Offline-Nutzung (Flugzeug, abgelegene Orte)
  • Kostenlose unbegrenzte Nutzung ohne Abo
  • Lernen und Experimentieren
  • Firmen mit strengen Compliance-Anforderungen

Cloud-KI ist besser für:

  • Beste Qualität bei komplexen Aufgaben
  • Aktuelle Web-Recherche (Perplexity, ChatGPT)
  • Bilder generieren (DALL-E, Midjourney)
  • Maximale Kontextlänge (Claude: 200k Tokens)
  • Kein Hardware-Investment nötig

Welche Hardware brauchst du?

Die wichtigste Komponente für lokale KI ist nicht der Prozessor – es ist der Arbeitsspeicher. Genauer: der Speicher deiner Grafikkarte (VRAM). Je mehr VRAM, desto größere und bessere Modelle kannst du laufen lassen.

Dein SetupRAM / VRAMGeeignete ModelleErlebnis
Laptop (8 GB RAM, keine GPU)8 GBKleine Modelle (1–3B)Langsam, für Experimente
Gaming-PC (16 GB RAM, RTX 3060 12 GB)12 GB VRAM7B Modelle (Llama 3.2, Mistral 7B)Solide für Alltag
Starker PC (32 GB RAM, RTX 4070 Ti 16 GB)16 GB VRAM13B Modelle, gute 7BSehr gut
High-End (64 GB RAM, RTX 4090 24 GB)24 GB VRAM30B+ Modelle, mehrere gleichzeitigExzellent
Mac mit Apple Silicon (M2/M3/M4 Pro/Max)32–128 GB UnifiedGroße Modelle dank Unified MemoryÜberraschend gut
Budget-Tipp: Gebrauchte RTX 309024 GB VRAM30B+ ModelleBestes Preis-Leistungs-Verhältnis

Unsere Hardware-Empfehlungen

Einstieg

NVIDIA RTX 5060 Ti 16 GB

ab $549|16 GB GDDR7|Für 7B–13B Modelle

Gutes Einstiegs-Modell für lokale KI. Die neue RTX 5060 Ti mit GDDR7 bietet mehr Bandbreite. Alternativ: die RTX 4060 Ti ist günstiger gebraucht.

Auf Amazon ansehen
Einstieg (Alternative)

NVIDIA RTX 4060 Ti 16 GB

ab $449|16 GB GDDR6|Für 7B–13B Modelle

Die Vorgängergeneration – etwas langsamer, aber günstiger. Vor allem gebraucht ein guter Deal für den Einstieg in lokale KI.

Auf Amazon ansehen
High-End

NVIDIA RTX 4090 (24 GB)

ab $2.799|24 GB VRAM|Für große 30B+ Modelle

Der bisherige Goldstandard für lokale KI. 24 GB VRAM reichen für 30B+ Modelle und auch für Bildgenerierung.

Auf Amazon ansehen
Zukunftssicher

NVIDIA RTX 5090 (32 GB)

ab $3.599|32 GB GDDR7|Für die größten lokalen Modelle

Die neue Generation mit 32 GB VRAM. Damit laufen selbst 70B-Modelle in hoher Quantisierung flüssig. Für Enthusiasten und professionellen Einsatz.

Auf Amazon ansehen
Budget-Tipp

NVIDIA RTX 3090 (gebraucht, 24 GB)

~$600–800 gebraucht|24 GB VRAM|Bestes Preis-Leistungs-Verhältnis

Die RTX 3090 hat fast so viel VRAM wie die 4090, ist aber gebraucht für einen Bruchteil zu haben. DER Geheimtipp der lokalen KI-Community.

Auf Amazon suchen
Apple-Alternative

Mac Mini M4 (16–24 GB)

ab $599|16–24 GB Unified Memory|Leise, kompakt

Apple Silicon kann den gesamten Arbeitsspeicher als VRAM nutzen. Für die Pro-Version mit M4 Pro Chip (bis 48 GB) direkt bei Apple konfigurieren.

Auf Amazon ansehen

* Affiliate-Links – als Amazon-Partner verdienen wir an qualifizierten Verkäufen.

Was bedeutet VRAM?

VRAM (Video RAM) ist der Arbeitsspeicher deiner Grafikkarte. Ein KI-Modell muss komplett in den VRAM passen, um schnell zu laufen. Passt es nicht komplett rein, wird der Rest in den normalen RAM ausgelagert – das macht alles 5–10x langsamer.

Faustregel:Ein 7B-Modell braucht ~4–6 GB VRAM (quantisiert). Ein 13B-Modell braucht ~8–10 GB. Ein 70B-Modell braucht ~40+ GB.

Die besten Tools zum lokalen Betrieb

Du brauchst zwei Dinge: Ein Tool, das die Modelle verwaltet und ausführt, und ein Modell, das du herunterlädst. Hier sind die vier wichtigsten Tools:

ToolTypFür wenPreisSchwierigkeit
LM StudioDesktop-App (GUI)Einsteiger, visuellKostenlos⭐ Einfach
OllamaKommandozeile + APIEntwickler, Power-UserKostenlos⭐⭐ Mittel
JanDesktop-App (GUI)Datenschutz-FokusKostenlos⭐ Einfach
GPT4AllDesktop-App (GUI)Einsteiger, RAGKostenlos⭐ Einfach
Open WebUIWeb-OberflächeTeams, ChatGPT-LookKostenlos⭐⭐⭐ Fortgeschritten

LM Studio

Unsere Empfehlung für Einsteiger

  • Modell-Browser: Suche und lade Modelle direkt aus Hugging Face
  • Chat-Interface: Sieht aus wie ChatGPT
  • Lokaler API-Server: OpenAI-kompatibel
  • Spekulative Dekodierung: 1,5–3x schnellere Antworten
  • Kein Terminal nötig

Schnellstart

  1. 1.Lade LM Studio von lmstudio.ai herunter
  2. 2.Installiere die App (Windows/Mac/Linux)
  3. 3.Suche ein Modell (z. B. „Llama 3.2 8B“)
  4. 4.Klicke auf Download
  5. 5.Starte einen Chat
lmstudio.ai

Ollama

Für Power-User und Entwickler

  • Ein-Befehl-Installation: ollama run llama3.2
  • OpenAI-kompatible API (Drop-In-Ersatz)
  • Riesiger Modell-Katalog
  • Funktionsaufrufe und JSON-Output
  • Beste AMD-GPU-Unterstützung

Schnellstart

  1. 1.Lade Ollama von ollama.com herunter
  2. 2.Öffne das Terminal
  3. 3.Tippe: ollama run llama3.2
  4. 4.Warte bis das Modell geladen ist
  5. 5.Chatte im Terminal
ollama.com

Jan

Maximaler Datenschutz

  • 100% Open Source, kein Tracking
  • Kann lokale UND Cloud-Modelle verwalten
  • Eingebaute Logging- und Monitoring-Funktionen
  • Unterstützt GPU-Beschleunigung
  • Aktive Community
jan.ai

GPT4All

Für Dokumente und RAG

  • LocalDocs: Fragen zu deinen eigenen Dokumenten
  • Einfache Installation, kein Terminal
  • Unterstützt auch CPU-Only (keine GPU nötig)
  • Python und Node Bindings verfügbar
  • Ideal für Firmen-Wissensmanagement
gpt4all.io

Die besten Open-Source-Modelle (2026)

Hunderte Modelle stehen zum Download bereit. Hier sind die, die wirklich taugen – sortiert nach Anwendungsfall:

ModellHerstellerGrößenStärkeDeutschDownload
Llama 4Meta8B, 70B, 405BBester AllrounderGutDownload
Qwen 2.5Alibaba3B, 7B, 14B, 72BBestes MehrsprachigSehr gutDownload
DeepSeek R1DeepSeek7B, 14B, 70BBestes ReasoningMittelDownload
MistralMistral AI7B, 8x7BSchnell & effizientGutDownload
Gemma 3Google2B, 9B, 27BEffizient, multimodalGutDownload
Phi-4Microsoft4B, 14BKlein aber feinMittelDownload
Command R+Cohere35B, 104BRAG-optimiertGutDownload

Welches Modell für welchen Zweck?

Allgemein (Chat, Texte, Fragen)

Llama 4 8B (Einstieg) oder Qwen 2.5 14B (besser)

Deutsch besonders gut

Qwen 2.5 – Alibabas Modell ist überraschend gut auf Deutsch

Code schreiben

DeepSeek Coder V2 oder Qwen 2.5 Coder

Logisches Denken / Mathe

DeepSeek R1 (speziell für Reasoning trainiert)

Auf schwacher Hardware (8 GB RAM)

Gemma 3 2B oder Phi-4 Mini (3.8B)

Mit eigenen Dokumenten chatten (RAG)

Command R+ (speziell für RAG optimiert) via GPT4All

In 10 Minuten zum ersten lokalen Chatbot

Die einfachste Methode: LM Studio installieren und loschatten. Kein Terminal, kein Code, keine Vorkenntnisse nötig.

1

LM Studio herunterladen

Gehe auf lmstudio.ai und lade die Version für dein Betriebssystem herunter (Windows, Mac oder Linux). Installiere die App mit den Standard-Einstellungen.

2

Modell auswählen

Öffne LM Studio. Klicke auf „Discover“ (Modell-Browser). Suche nach „Qwen 2.5 7B Instruct“ – das ist ein guter Allrounder, der auch Deutsch gut kann. Klicke auf Download. Das Modell ist ~4–5 GB groß.

3

Chat starten

Gehe auf den „Chat“-Tab. Wähle das heruntergeladene Modell aus dem Dropdown oben. Tippe deine erste Frage – z. B.: „Erstelle einen Wochenplan für gesundes Abendessen, vegetarisch, max. 30 Minuten pro Gericht.“

4

Experimentieren

Probiere verschiedene Modelle aus. Jedes verhält sich anders. Vergleiche die Antwortqualität mit ChatGPT – du wirst überrascht sein, wie gut manche lokale Modelle mittlerweile sind.

Ressourcen und Download-Quellen

RessourceWas ist das?Link
Hugging FaceDas „GitHub für KI-Modelle“. Tausende Modelle zum Download.huggingface.co
Ollama LibraryKuratierter Modell-Katalog, direkt nutzbar mit Ollama.ollama.com/library
LM StudioDesktop-App + Modell-Browser.lmstudio.ai
Open WebUIChatGPT-ähnliche Oberfläche für lokale Modelle.openwebui.com
LocalAISelf-hosted API-Server, OpenAI-kompatibel.localai.io
LMSYS Chatbot ArenaLive-Benchmark: Welches Modell ist gerade das beste?chat.lmsys.org

Häufig gestellte Fragen

Nicht unbedingt. Kleine Modelle (3–7B Parameter) laufen auch auf dem CPU. Mit 16 GB RAM und einer mittelpreisigen GPU (RTX 4060 Ti, ~450 EUR) bekommst du schon sehr gute Ergebnisse. Auf Apple-Macs mit M-Chip reicht der eingebaute Speicher.

Ehrlich: Nein. Die besten Cloud-Modelle (GPT-4o, Claude Opus) sind noch deutlich besser bei komplexen Aufgaben. Aber für einfachere Aufgaben – E-Mails, Zusammenfassungen, Codierung, Fragen beantworten – sind gute lokale Modelle wie Qwen 2.5 oder Llama 4 erstaunlich nah dran.

Ja. Bei lokaler Ausführung verlassen deine Daten niemals deinen Computer. Es gibt keine Internetverbindung zum Modell nötig (nach dem initialen Download). Das ist der Hauptvorteil gegenüber Cloud-KI.

Zwischen 2 GB (kleine Modelle) und 40+ GB (große Modelle). Ein typisches 7B-Modell in quantisierter Form ist ~4–5 GB groß.

Eine Technik, die Modelle kleiner und schneller macht, indem die Genauigkeit der Zahlenwerte reduziert wird. Ein Q4-Modell ist ~4x kleiner als das Original, bei nur ~5 % Qualitätsverlust. Fast alle lokal genutzten Modelle sind quantisiert.

Ja, das ist sogar einer der Hauptgründe. Besonders für DSGVO-sensible Daten, interne Dokumente und Compliance-Anforderungen. Tools wie Open WebUI oder AnythingLLM bieten Multi-User-Setups.

Ja! Alle unsere Prompt-Vorlagen funktionieren mit lokalen Modellen genau wie mit ChatGPT oder Claude. Die Ergebnisse können bei kleineren Modellen etwas weniger detailliert sein.

Weiterlesen