LM Studio hat die MLX Engine auf Version 1.8.5 aktualisiert und damit die Leistung für agentenbasierte KI-Workflows deutlich verbessert. Die neue Lösung speichert den sogenannten KV-Cache (Key-Value-Cache) auf der Festplatte, wodurch wiederholte Berechnungen entfallen. Das führt zu bis zu 80 Prozent weniger RAM-Verbrauch, doppeltem Durchsatz und 3,5-fach schnellerer Bildverarbeitung. Das Update adressiert ein bekanntes Problem bei modernen Sprachmodellen wie Qwen und Gemma, die spezielle Aufmerksamkeitsmechanismen nutzen, um Speicher zu sparen – was aber das Zurückspulen von Berechnungen erschwert. Mit der neuen Disk-gestützten Cache-Verwaltung können KI-Agenten nun effizienter arbeiten, ohne Zwischenberechnungen zu wiederholen.
LM Studio optimiert KI-Agenten mit verbessertem Cache-Management
Unsere Einordnung
Eine rein technische Optimierung, die aber zeigt, wie wichtig lokale KI-Inference wird: Während Cloud-Provider auf Skalierung setzen, machen Projekte wie LM Studio lokale Modelle praktikabel. Der Cache-Trick ist dabei weniger Revolution als Evolution – aber für Nutzer, die KI-Agenten lokal betreiben wollen, ein echter Gewinn.
Schlüsselfakten
- MLX Engine v1.8.5 speichert KV-Cache auf der Festplatte zur Effizienzsteigerung
- Bis zu 80% weniger RAM-Verbrauch, 2x höherer Durchsatz, 3,5x schnellere Bildverarbeitung
- Löst das Problem des KV-Cache-Zurückspulens bei modernen Modellen wie Qwen und Gemma
- Open-Source-Projekt für Apple-Silicon-Optimierung
- Verbesserte Performance für längere, wiederholte Agenten-Workflows