Die KI-Plattform Ollama hat ihre MLX-Engine aktualisiert und erreicht damit neue Leistungsrekorde auf Apple Silicon. Durch die Integration von Nvidias NVFP4-Quantisierungsformat liefern Sprachmodelle qualitativ hochwertigere Antworten bei gleichzeitig schnelleren Reaktionszeiten und niedrigerem Speicherbedarf. Das ermöglicht es Nutzern, große KI-Modelle wie Gemma 4 12B effizient auf MacBooks zu betreiben – etwa für die Entwicklung von Coding-Agenten ohne Cloud-Abhängigkeit.
Das neue NVFP4-Format halbiert die Qualitätsverluste gegenüber Standard-Quantisierung (Q4_K_M) erheblich. Bei Tests mit Gemma 4 12B erreicht NVFP4 eine Perplexität von 17,95 – deutlich näher am unkomprimierten bf16-Standard (17,54) als die bisherige Q4_K_M-Methode mit 18,36. Gleichzeitig bleibt die Rechenleistung auf dem Mac-System unbeeinträchtigt, da die Engine stärker auf Apples einheitlichen Speicher und Metal-Grafikrahmen setzt.
Die Verbesserung ist relevant für eine wachsende Community von Entwicklern, die lokale KI-Inferenz bevorzugen. Ollama positioniert sich damit als Brückenlösung zwischen Rechenzentren und Desktop-Geräten – Modelle, die in Datacenter optimiert wurden, lassen sich nun auch auf Consumer-Hardware wie einem MacBook Pro M5 Max einsetzen. Das senkt Hürden für experimentelle KI-Anwendungen und macht Open-Source-Sprachmodelle praktisch für Privatnutzer und kleinere Teams zugänglich.