Die Bewertung von Künstlicher Intelligenz kostet inzwischen so viel Rechenpower wie das Training selbst – ein Problem, das nur noch große Unternehmen lösen können. Forscher haben dokumentiert, dass eine einzige Evaluierung eines Frontier-Modells über 2.800 Dollar kosten kann. Diese Entwicklung gefährdet die offene Forschung und konzentriert Ressourcen bei wenigen Playern.
Die steigenden Kosten entstehen vor allem durch komplexere Agenten-Benchmarks, die nicht wie statische Tests optimiert werden können. Während ältere Evaluierungsframeworks wie HELMs 2022 noch etwa 100.000 Dollar für 30 Modelle kosteten, können moderne Agent-Tests schnell das Zehnfache erreichen. Das Holistic Agent Leaderboard (HAL) zahlte 40.000 Dollar für die Bewertung von nur neun Modellen.
Forscher arbeiten an Lösungen wie "Flash-HELM", einem gestuften Ansatz, der 100- bis 200-fach weniger Rechenleistung benötigt und dabei zuverlässige Rankings erhält. Doch das löst das Grundproblem nicht: In der wissenschaftlichen Machinelearning können Architektur-Evaluierungen Tausende GPU-Stunden verschlingen – teurer als das ursprüngliche Training. Für kleinere Open-Source-Modelle ist Evaluierung inzwischen der größte Kostenfaktor im gesamten Entwicklungszyklus geworden.