✍️ Blog

NVIDIAs Nemotron 3 Ultra kommt auf AWS SageMaker

6. Juni 2026·Quelle: Amazon AWS AI Blog

NVIDIA und Amazon Web Services starten ein KI-Modell speziell für autonome Agenten. Das Nemotron 3 Ultra Sprachmodell mit 550 Milliarden Parametern soll beim Einsatz von KI-Agenten deutlich schneller und kostengünstiger sein als bisherige Systeme. Mit einer einfachen One-Click-Deployment auf AWS SageMaker JumpStart können Entwickler das Modell sofort nutzen.

Das Hybrid-Modell kombiniert Transformer- und Mamba-Architektur im Mixture-of-Experts-Format. Das bedeutet praktisch: Von den 550 Milliarden Parametern werden nur 55 Milliarden pro Schritt aktiviert. Dadurch benötigt die KI weniger Rechenpower und kann trotzdem längere Aufträge bearbeiten – bis zu einer Million Tokens im Kontext.

Für Enterprise-Anwendungen mit komplexen, mehrstufigen Aufgaben ist das relevant: Agents, die Dutzende von Werkzeugen aufrufen, mehrere Sub-Agenten koordinieren und ihre Arbeit selbst überprüfen, arbeiten mit Nemotron 3 Ultra 5-mal schneller und bis zu 30 Prozent günstiger als mit bisherigen Modellen. Besonders für Coding-Agenten, Forschungsaufgaben oder mehrstufige Business-Prozesse macht sich die Spezialisierung aus.

Unsere Einordnung

Mit Nemotron 3 Ultra adressieren NVIDIA und AWS ein echtes Problem: Autonome KI-Agenten brauchen andere Anforderungen als Chat-Bots. Das spezialisierte Modell zeigt, dass die Branche vom One-Size-Fits-All-Ansatz abweicht – eine Entwicklung, die langfristig wichtiger sein könnte als weitere Parametergigantismus. Die enge Integration mit AWS SageMaker unterstreicht, wie sehr Cloud-Provider das Agentic-AI-Segment als nächsten großen Markt sehen.

Schlüsselfakten

  • Nemotron 3 Ultra hat 550 Milliarden Parameter, nutzt aber nur 55 Milliarden pro Durchlauf
  • 5x schnellere Inferenz und bis zu 30% niedrigere Kosten für Agentic-Workloads
  • Kontextlänge bis zu 1 Million Tokens für lange, mehrstufige Aufgaben
  • One-Click-Deployment über AWS SageMaker JumpStart ohne Infrastruktur-Management
  • Hybrid-Architektur aus Transformer und Mamba Mixture-of-Experts optimiert für lange Agentenläufe

Artikel teilen