✍️ Blog

NVIDIA Cosmos 3: Einheitliches KI-Modell für Robotik und autonome Systeme

12. Juni 2026·Quelle: Hugging Face Blog

NVIDIA hat Cosmos 3 vorgestellt – ein universelles KI-Modell, das Videogenerierung, physikalisches Denken und Aktionsplanung in einer einzigen Architektur vereint. Das auf Hugging Face verfügbare System soll Entwicklern ermöglichen, realistische Simulationen für Robotik, autonome Fahrzeuge und intelligente Räume zu erstellen – ohne mehrere spezialisierte Modelle kombinieren zu müssen.

Cosmos 3 basiert auf einer Mixture-of-Transformers-Architektur (MoT) und kombiniert Funktionen früherer separater Modelle wie Cosmos Predict für Videogenerierung, Cosmos Transfer für kontrollierte Generierung und Cosmos Reason für Szenenverständnis. Die Lösung unterstützt auch Post-Training auf eigenen Daten und umfasst offene Datensätze für physikalische KI-Anwendungen.

Unsere Einordnung

Cosmos 3 adressiert ein echtes Problem in der Physical-AI-Entwicklung: Die Fragmentierung von Spezialistmodellen. Ein einheitliches Modell für Simulation und Reasoning könnte Entwicklungszyklen deutlich beschleunigen – wenn die Qualität hält, was NVIDIA verspricht. Die Open-Source-Verfügbarkeit auf Hugging Face ist bemerkenswert und könnte zum Beschleuniger für robotische Anwendungen werden.

Schlüsselfakten

  • Cosmos 3 ist ein Omni-Modell mit Mixture-of-Transformers-Architektur, das mehrere spezialisierte KI-Funktionen in einem vereint
  • Das System generiert physikalisch realistische Videos aus Text, Bildern oder Videos und vorhersagt Bewegungsabläufe
  • Cosmos 3 Super und Cosmos 3 Nano sind ab sofort auf Hugging Face mit Open-Source-Lizenzen und Trainings-Skripten verfügbar
  • Einsatzgebiete: Robotik-Simulation, autonome Fahrzeuge, Lagerautomation und Sicherheitsszenarien

Artikel teilen