✍️ Blog

Ollama 0.30: 20 Prozent schneller auf NVIDIA-Hardware

17. Juni 2026·Quelle: Ollama Blog

Die neue Version von Ollama bringt deutliche Leistungssteigerungen und erweiterte Hardware-Unterstützung. Dank optimierter GGUF-Kompatibilität (ein Format für komprimierte KI-Modelle) läuft Ollama 0.30 auf NVIDIA-GPUs bis zu 20 Prozent schneller. Neu aktiviert ist die Vulkan-Unterstützung als Standard, die AMD- und Intel-Grafikkarten einbezieht – ohne dass Nutzer zusätzliche Treiber installieren müssen. Die Software unterstützt jetzt auch mehr Modell-Familien wie LFM und Prism sowie spezialisierte Varianten von Unsloth. Ein weiterer Fokus liegt auf der Integration mit Coding-Agenten: Modelle mit Tool-Calling-Fähigkeit funktionieren direkt mit Claude Code, Hermes Agent und OpenClaw.

Unsere Einordnung

Ollama positioniert sich mit dieser Version als praktische Brücke zwischen akademischen KI-Fortschritten und Alltags-Hardware: Die 20%-Speedup auf Consumer-GPUs und breite Plattform-Unterstützung senken die Hürde für lokale KI-Inferenz. Die enge Zusammenarbeit mit NVIDIA, AMD und llama.cpp-Entwicklern signalisiert, dass dezentralisierte KI-Ausführung vom Nischen- zum Mainstream-Thema reift.

Schlüsselfakten

  • Ollama 0.30 läuft auf NVIDIA-GPUs bis zu 20% schneller (getestet mit Gemma 4 26B auf RTX 5090)
  • Vulkan-Unterstützung ist jetzt Standard und ermöglicht GPU-Beschleunigung auf AMD- und Intel-Grafikkarten ohne zusätzliche Treiber
  • GGUF-Ökosystem erweitert: Neue Modell-Familien (LFM, Prism) und Fine-tuned-Modelle von Unsloth werden unterstützt
  • Nahtlose Integration mit Coding-Agenten (Claude Code, Hermes Agent, OpenClaw) für Modelle mit Tool-Calling-Funktion
  • Nutzer können GGUF-Dateien direkt von Hugging Face laden und lokal ausführen

Artikel teilen