Statt nur auf Sprache und Bilder zu reagieren, trainieren Forscher Roboter-KI-Modelle jetzt auf Basis von Videodaten. Diese sogenannten World-Action Models (WAM) sollen Maschinen befähigen, Szenen vorherzusagen und entsprechend zu handeln – ein fundamentaler Shift in der Robotik-KI.
Die Methode kombiniert zwei bewährte Ansätze: Vortrainierte Video-Modelle als Fundament und spezialisierte Transformer-Architektur für Roboter-Kontrolle. Statt den "Grounding Gap" – die Kluft zwischen dem, was ein Modell versteht, und dem, was es physisch umsetzen kann – zu ignorieren, adressieren World-Action Models dieses Problem direkt: Sie lernen, wie sich eine Szene bei einer bestimmten Aktion verändert.
Dieser Ansatz unterscheidet sich von Vision-Language-Action Models (VLA), die mit vortrainierten Sprach-Bildmodellen starten. WAMs nutzen stattdessen Videorückgrate, um temporale Zusammenhänge zu erfassen – also zu verstehen, wie Bewegungen und Veränderungen über Zeit ablaufen. Besonders spannend: Die Modelle lernen, komplexe Szenen in komprimierte Latent-Codes zu übersetzen und dann Action-Sequenzen ("Action Chunks") vorherzusagen.
NVIDIA setzt hier auf Mixture-of-Transformers und Diffusion Transformer (DiT) als Architektur. Das ermöglicht es, Roboter präziser zu steuern – mit einzelnen Vorhersagen für mehrere aufeinanderfolgende Schritte.
Die Implikationen sind erheblich: Roboter könnten dadurch intuitiver trainierbar werden und mit weniger Daten schneller lernen, reale Aufgaben auszuführen.