✍️ Blog

Wie Roboter lernen, die Zukunft vorherzusagen

23. Juni 2026·Quelle: NVIDIA Robotics

Statt nur auf Sprache und Bilder zu reagieren, trainieren Forscher Roboter-KI-Modelle jetzt auf Basis von Videodaten. Diese sogenannten World-Action Models (WAM) sollen Maschinen befähigen, Szenen vorherzusagen und entsprechend zu handeln – ein fundamentaler Shift in der Robotik-KI.

Die Methode kombiniert zwei bewährte Ansätze: Vortrainierte Video-Modelle als Fundament und spezialisierte Transformer-Architektur für Roboter-Kontrolle. Statt den "Grounding Gap" – die Kluft zwischen dem, was ein Modell versteht, und dem, was es physisch umsetzen kann – zu ignorieren, adressieren World-Action Models dieses Problem direkt: Sie lernen, wie sich eine Szene bei einer bestimmten Aktion verändert.

Dieser Ansatz unterscheidet sich von Vision-Language-Action Models (VLA), die mit vortrainierten Sprach-Bildmodellen starten. WAMs nutzen stattdessen Videorückgrate, um temporale Zusammenhänge zu erfassen – also zu verstehen, wie Bewegungen und Veränderungen über Zeit ablaufen. Besonders spannend: Die Modelle lernen, komplexe Szenen in komprimierte Latent-Codes zu übersetzen und dann Action-Sequenzen ("Action Chunks") vorherzusagen.

NVIDIA setzt hier auf Mixture-of-Transformers und Diffusion Transformer (DiT) als Architektur. Das ermöglicht es, Roboter präziser zu steuern – mit einzelnen Vorhersagen für mehrere aufeinanderfolgende Schritte.

Die Implikationen sind erheblich: Roboter könnten dadurch intuitiver trainierbar werden und mit weniger Daten schneller lernen, reale Aufgaben auszuführen.

Unsere Einordnung

Der Shift von reinen Vision-Language-Action Models zu World-Action Models zeigt einen wichtigen Trend: Die Robotik-Industrie erkennt, dass Sprachverständnis allein nicht reicht – es braucht echtes Verständnis für physikalische Kausalität. Das könnte ein Durchbruch sein, allerdings bleibt offen, ob die höhere Komplexität in der Praxis auch zu zuverlässigeren Robotern führt oder nur zu schnellerem Training.

Schlüsselfakten

  • World-Action Models (WAM) nutzen vortrainierte Video-Modelle statt Sprach-Bildmodelle als Fundament
  • Die Architektur kombiniert Mixture-of-Transformers und Diffusion Transformer für präzisere Bewegungsvorhersagen
  • WAMs adressieren den "Grounding Gap" – die Kluft zwischen Sprachverständnis und physischer Umsetzung
  • Modelle lernen, zukünftige Szenen vorherzusagen und entsprechend zu handeln – ein neuer Paradigmenwechsel in der Robotik

Artikel teilen