📢 Pressemitteilung

Google DeepMind stellt verteiltes KI-Training vor

26. April 2026·Quelle: Google DeepMind Robotics

Google DeepMind hat ein neues Verfahren namens "Decoupled DiLoCo" entwickelt, das das Training großer Sprachmodelle über weltweit verteilte Rechenzentren ermöglicht. Das System teilt Trainingsläufe in dezentralisierte Rechnergruppen ("Islands") auf, die asynchron miteinander kommunizieren. Dadurch werden Hardware-Ausfälle isoliert und beeinflussen nicht das gesamte System – ein großer Vorteil gegenüber bisherigen Methoden, die eng synchronisiert werden mussten. Das Verfahren verringert zudem die erforderliche Bandbreite zwischen entfernten Rechenzentren erheblich. Die Forschung baut auf früheren Arbeiten zu "Pathways" und "DiLoCo" auf und könnte es ermöglichen, zukünftige KI-Modelle mit weniger logistischen Hürden und besserer Zuverlässigkeit zu trainieren.

Unsere Einordnung

Ein kluger Schachzug: Während alle KI-Labs an noch größeren und teureren Clustern arbeiten, adressiert Google ein echtes Problem – wie man diese gigantischen Trainingsläufe überhaupt noch praktisch managen kann. Die Idee, Fehler zu isolieren statt zu synchronisieren, könnte die Wirtschaftlichkeit zukünftiger Modelle erheblich verbessern.

Schlüsselfakten

  • Decoupled DiLoCo teilt Trainingsläufe in dezentralisierte Rechnergruppen auf und nutzt asynchrone Kommunikation
  • Hardware-Ausfälle in einer Gruppe beeinflussen andere Gruppen nicht – deutlich bessere Fehlertoleranz
  • Verringert Bandbreitenbedarf zwischen entfernten Rechenzentren im Vergleich zu älteren Methoden
  • Baut auf früheren Google-Technologien Pathways und DiLoCo auf
  • Ermöglicht das Trainieren großer Sprachmodelle mit heterogener Hardware über globale Standorte

Artikel teilen