Ollama hat die KI-Modell-Plattform mit einer neuen Technik ausgestattet, die Gemma 4 auf Apple-Geräten deutlich beschleunigt. Multi-Token-Vorhersage (MTP) nutzt ein kleines Hilfmodell, das mehrere Token gleichzeitig vorhersagt – besonders bei Code-Aufgaben steigt die Geschwindigkeit um etwa 90 Prozent. Die Optimierung läuft automatisch im Hintergrund und erfordert keine Konfiguration durch Nutzer.
Gemma 4 wird auf Apple Silicon fast doppelt so schnell
Unsere Einordnung
Eine klassische Effizienzoptimierung, die zeigt, wie spekulatives Dekodieren (Speculative Decoding) im produktiven Einsatz funktioniert. Die 90-Prozent-Speedup klingt beeindruckend, ist aber auf Coding-Szenarien zugeschnitten – für General-Purpose-Nutzung dürften Gewinne kleiner ausfallen. Relevant für KI-Coding-Tools und lokal laufende Agenten auf Consumer-Hardware.
Schlüsselfakten
- Token-Generierungsgeschwindigkeit steigt von 50,2 auf 95,0 Token pro Sekunde im Aider-Benchmark
- Multi-Token-Prediction nutzt ein kleines Draft-Modell zur Vorhersage mehrerer Token parallel
- Speedup ist standardmäßig aktiviert und ändert nicht die Modellausgabe
- Besonders effektiv bei Code-Aufgaben wegen hoher Vorhersagbarkeit (Klammern, Boilerplate)
- Ollama tuning erfolgt automatisch – keine manuelle Konfiguration nötig