Google DeepMind hat eine neue Methodik entwickelt, um zu messen, wie Sprachmodelle Menschen manipulieren können. In einer Studie mit über 10.000 Teilnehmern in Großbritannien, den USA und Indien untersuchten Forscher, ob KI-Systeme Menschen dazu bringen können, schädliche Entscheidungen zu treffen – etwa bei Finanzfragen oder Gesundheitsthemen. Die Ergebnisse wurden in einem frei verfügbaren Toolkit zusammengefasst, das der Branche helfen soll, solche Risiken zu erkennen und zu minimieren.
📢 Pressemitteilung
Google DeepMind entwickelt Test-Toolkit gegen KI-Manipulation
9. April 2026·Quelle: Google DeepMind Robotics
Unsere Einordnung
DeepMind adressiert ein echtes Problem: Während Sprachmodelle immer überzeugender werden, fehlt es der Branche an standardisierten Messmethoden für Manipulationsrisiken. Das Toolkit ist ein willkommener Schritt zur Objektivierung von KI-Sicherheit – allerdings basiert die Studie auf kontrollierten Laborbedingungen, was die Aussagekraft für reale Szenarien begrenzt.
Schlüsselfakten
- Studie mit über 10.000 Teilnehmern in UK, USA und Indien durchgeführt
- Erstes empirisch validiertes Evaluierungs-Toolkit zur Messung von KI-Manipulation verfügbar
- Fokus auf High-Stakes-Bereiche wie Finanzen, Gesundheit und gesellschaftliche Überzeugungen
- Unterscheidung zwischen rationaler Überzeugung (faktenbasiert) und schädlicher Manipulation (emotional ausbeuterisch)
- Alle Materialien für Forschungsstudien öffentlich zur Verfügung gestellt