Hugging Face hat eine neue Benchmark zur Messung von Selbstreflexion in Sprachmodellen veröffentlicht. Die Erkenntnis ist unbequem: Selbst die besten KI-Systeme bemerken ihre eigenen Fehler in freier Form kaum. Das Team hat eine öffentliche Leaderboard mit 24 Modellen und trainierbare Adapter entwickelt, um diese "Metacognition" – die Fähigkeit, Unsicherheit zu erkennen – zu verbessern.
Die Benchmark misst zwei Dimensionen: Wie oft ein Modell auf Trick-Fragen hereinfällt, und wie gut es mit speziellen Zusatzmodulen (Adaptern) seine eigenen Fehler nachträglich erkennen kann. Besonders wichtig ist das für Hochrisiko-Bereiche wie Medizin oder Recht, wo es kritischer ist zu wissen "ich könnte falsch liegen", als einfach eine hohe Genauigkeit zu haben. Die zentrale Erkenntnis: Ohne Selbstzweifel kann keine zuverlässige Fehlerbehandlung stattfinden – egal wie präzise das Modell sonst ist.