Ollama nutzt Apples MLX-Framework für drastische Speedups auf Mac

9. April 2026·Quelle: Ollama Blog

Ollama, die beliebte Plattform zum Ausführen von Sprachmodellen lokal, integriert Apples spezialisiertes Machine-Learning-Framework MLX. Die Vorschau-Version 0.19 beschleunigt die Textgenerierung auf Apple Silicon erheblich: Die Prefill-Performance steigt um 57 Prozent auf 1.810 Token pro Sekunde, die Decode-Performance um 93 Prozent auf 112 Token pro Sekunde. Möglich wird dies durch die Nutzung der neuen GPU Neural Accelerators in Apples M5-Chips und einer optimierten Memory-Architektur. Zusätzlich führt Ollama das NVFP4-Format ein, das Modellgenauigkeit bewahrt und gleichzeitig Speicher spart – ein Schritt hin zu Production-Parity mit professionellen Inference-Systemen.

Unsere Einordnung

Ollama zeigt, wie spezialisierte Hardware-Frameworks die lokale KI-Nutzung transformieren können – ein wichtiger Trend für Apple-User, die Sprachmodelle privat und offline nutzen wollen. Die Kombination von MLX und NVFP4-Support signalisiert auch eine stillen Konsens zwischen Tech-Playern um standardisierte Quantisierungsformate, was dem gesamten Ökosystem nutzt.

Schlüsselfakten

Ollama 0.19 basiert nun auf Apples MLX-Framework und nutzt GPU Neural Accelerators der M5-Serie
Prefill-Performance steigt um 57 Prozent auf 1.810 Token/s, Decode-Performance um 93 Prozent auf 112 Token/s
NVFP4-Quantisierung ermöglicht höhere Modellgenauigkeit bei reduziertem Speicherbedarf
Intelligentes Caching minimiert Speichernutzung durch Cache-Wiederverwendung über Konversationen hinweg
Erfordert Mac mit mindestens 32 GB Unified Memory; erste Optimierungen für Coding-Agenten wie Claude Code

Ollama nutzt Apples MLX-Framework für drastische Speedups auf Mac

Unsere Einordnung

Schlüsselfakten

Weitere News