✍️ Blog

Gemma 4 wird auf Apple Silicon fast doppelt so schnell

3. Juli 2026·Quelle: Ollama Blog

Ollama hat die KI-Modell-Plattform mit einer neuen Technik ausgestattet, die Gemma 4 auf Apple-Geräten deutlich beschleunigt. Multi-Token-Vorhersage (MTP) nutzt ein kleines Hilfmodell, das mehrere Token gleichzeitig vorhersagt – besonders bei Code-Aufgaben steigt die Geschwindigkeit um etwa 90 Prozent. Die Optimierung läuft automatisch im Hintergrund und erfordert keine Konfiguration durch Nutzer.

Unsere Einordnung

Eine klassische Effizienzoptimierung, die zeigt, wie spekulatives Dekodieren (Speculative Decoding) im produktiven Einsatz funktioniert. Die 90-Prozent-Speedup klingt beeindruckend, ist aber auf Coding-Szenarien zugeschnitten – für General-Purpose-Nutzung dürften Gewinne kleiner ausfallen. Relevant für KI-Coding-Tools und lokal laufende Agenten auf Consumer-Hardware.

Schlüsselfakten

  • Token-Generierungsgeschwindigkeit steigt von 50,2 auf 95,0 Token pro Sekunde im Aider-Benchmark
  • Multi-Token-Prediction nutzt ein kleines Draft-Modell zur Vorhersage mehrerer Token parallel
  • Speedup ist standardmäßig aktiviert und ändert nicht die Modellausgabe
  • Besonders effektiv bei Code-Aufgaben wegen hoher Vorhersagbarkeit (Klammern, Boilerplate)
  • Ollama tuning erfolgt automatisch – keine manuelle Konfiguration nötig

Artikel teilen