✍️ Blog

Gemma 4 wird auf Apple Silicon fast doppelt so schnell

3. Juli 2026·Quelle: Ollama Blog

Ollama hat die KI-Modell-Plattform mit einer neuen Technik ausgestattet, die Gemma 4 auf Apple-Geräten deutlich beschleunigt. Multi-Token-Vorhersage (MTP) nutzt ein kleines Hilfmodell, das mehrere Token gleichzeitig vorhersagt – besonders bei Code-Aufgaben steigt die Geschwindigkeit um etwa 90 Prozent. Die Optimierung läuft automatisch im Hintergrund und erfordert keine Konfiguration durch Nutzer.

Unsere Einordnung

Eine klassische Effizienzoptimierung, die zeigt, wie spekulatives Dekodieren (Speculative Decoding) im produktiven Einsatz funktioniert. Die 90-Prozent-Speedup klingt beeindruckend, ist aber auf Coding-Szenarien zugeschnitten – für General-Purpose-Nutzung dürften Gewinne kleiner ausfallen. Relevant für KI-Coding-Tools und lokal laufende Agenten auf Consumer-Hardware.

Schlüsselfakten

Token-Generierungsgeschwindigkeit steigt von 50,2 auf 95,0 Token pro Sekunde im Aider-Benchmark
Multi-Token-Prediction nutzt ein kleines Draft-Modell zur Vorhersage mehrerer Token parallel
Speedup ist standardmäßig aktiviert und ändert nicht die Modellausgabe
Besonders effektiv bei Code-Aufgaben wegen hoher Vorhersagbarkeit (Klammern, Boilerplate)
Ollama tuning erfolgt automatisch – keine manuelle Konfiguration nötig

Artikel teilen

Weitere News

📊Analyse

Enterprise-KI: Zwei Drittel haben längst Modell-Hedging

4. Juli 2026

💰Funding

Scribe erhält 25 Mio. für Gen-Therapien gegen Herzerkrankungen

4. Juli 2026

🎪Event

Robotik-Wochenrückblick: Von Greifarmen bis Walforschung

4. Juli 2026

Alle News