📢 Pressemitteilung

KI-Evaluierung wird zur neuen Rechenlast

6. Mai 2026·Quelle: Hugging Face Blog

Die Bewertung von Künstlicher Intelligenz kostet inzwischen so viel Rechenpower wie das Training selbst – ein Problem, das nur noch große Unternehmen lösen können. Forscher haben dokumentiert, dass eine einzige Evaluierung eines Frontier-Modells über 2.800 Dollar kosten kann. Diese Entwicklung gefährdet die offene Forschung und konzentriert Ressourcen bei wenigen Playern.

Die steigenden Kosten entstehen vor allem durch komplexere Agenten-Benchmarks, die nicht wie statische Tests optimiert werden können. Während ältere Evaluierungsframeworks wie HELMs 2022 noch etwa 100.000 Dollar für 30 Modelle kosteten, können moderne Agent-Tests schnell das Zehnfache erreichen. Das Holistic Agent Leaderboard (HAL) zahlte 40.000 Dollar für die Bewertung von nur neun Modellen.

Forscher arbeiten an Lösungen wie "Flash-HELM", einem gestuften Ansatz, der 100- bis 200-fach weniger Rechenleistung benötigt und dabei zuverlässige Rankings erhält. Doch das löst das Grundproblem nicht: In der wissenschaftlichen Machinelearning können Architektur-Evaluierungen Tausende GPU-Stunden verschlingen – teurer als das ursprüngliche Training. Für kleinere Open-Source-Modelle ist Evaluierung inzwischen der größte Kostenfaktor im gesamten Entwicklungszyklus geworden.

Unsere Einordnung

Die Evaluierungs-Kostenkrise ist das unterschätzte Bottleneck der KI-Ära: Während alle von Compute-Power sprechen, entsteht ein neues Monopol bei der Qualitätskontrolle. Nur gut finanzierte Labs können noch reliabel testen – ein Problem für die Glaubwürdigkeit von Open-Source und die wissenschaftliche Nachprüfbarkeit.

Schlüsselfakten

  • Eine einzelne GAIA-Evaluierung kostet mindestens 2.829 Dollar pro Frontier-Modell
  • Das Holistic Agent Leaderboard gab 40.000 Dollar aus, um nur 9 KI-Modelle zu bewerten
  • Flash-HELM reduziert Evaluierungskosten um das 100- bis 200-Fache durch gestuftes Testing
  • Bei kleineren Modellen übersteigen Evaluierungskosten mittlerweile die Trainingskosten
  • 33-fache Kostenunterschiede bei identischen Aufgaben zeigen massive Ineffizienz im aktuellen Evaluierungsprozess

Artikel teilen