Nach Angaben von IEEE Spectrum haben Forscher um Seung Chan Hong von der Monash University Roboter mit visuellen Sprachmodellen trainiert, um menschliche Emotionen zu erkennen. Das System berücksichtigt nicht nur Gesichtsausdrücke, sondern auch Kontextfaktoren wie Gesten und Verhalten. In Tests mit 40 Probanden zeigte sich: Das Modell (basierend auf Gemini 2.5) erreichte eine Genauigkeit von 0,86 gegenüber 0,77 bei traditionellen Systemen. Doch eine wichtige Erkenntnis bremst die Erwartungen: Emotionale Empathie ist für Menschen deutlich weniger wichtig als die tatsächliche Leistung des Roboters. Eine personalisierte Entschuldigung kann verlorenes Vertrauen durch Versagen nicht ersetzen.
Roboter lernen Emotionen erkennen – mit Grenzen
Unsere Einordnung
Die Studie zeigt eine wichtige Realität für die Human-Robot-Collaboration: Während Emotionserkennung durch VLMs technisch machbar ist, bleiben Menschen pragmatisch – sie wollen funktionierende Roboter, nicht einfühlsame Versager. Das ist ein Realitätscheck für die Hype um emotionale KI in der Robotik: Soziale Intelligenz ist ein Bonus, nicht der Kern.
Schlüsselfakten
- Vision Language Models (VLMs) wie Gemini 2.5 erreichen 0,86 Punkte bei Emotionserkennung gegenüber 0,77 bei Standard-KI
- VLMs berücksichtigen Kontext und Verhalten, nicht nur Gesichtsausdrücke
- 31 von 40 Testpersonen bevorzugten emotionale Entschuldigungen gegenüber Standard-Texten
- Robotische Kompetenz bleibt wichtiger für Vertrauen als emotionale Empathie